Lexical meaning is lower dimensional in psychosis
In a paper published last year in Scientific Reports , we explored a relatively simple but interesting question: What if psychosis-related speech can be characterized by the underlying geometry of meaning itself?
But what do I mean by the geometry of meaning? One way to think about it is to imagine that words and ideas live in a kind of abstract map. In the same way that cities can be close or far from one another on a geographic map, meanings can also be close or distant from one another in language. For example, words like “dog”, “cat”, and “animal” would occupy nearby regions because they are related in meaning, while words like “justice” or “Cheerios” would lie much farther away. Current language models learn these relationships automatically from big amounts of text, allowing them to represent words as positions in a very large semantic landscape. But unlike a regular map, which unfolds in two dimensions on paper, or the phsysical space in three observable dimensions, these spaces are modeled using many different dimensions, thousand of them in some language models. When we speak, we can imagine our discourse as moving through that landscape, jumping from one region of meaning to another.
Large language models, like the ones behind chatbots such as ChatGPT, represent words as points in a very large semantic space. This allows speech to be imagined as a trajectory moving through the landscape of meaning. When people speak, their discourse can move across many semantic directions or remain confined to a narrower region. If meanings repeatedly cluster around similar areas, the trajectory explores less of the space, and the speech may become more repetitive, or semantically constrained.
A large amount of computational work on psychosis and language has focused on semantic similarity, and studies repeatedly find that words produced by patients tend to be more semantically similar to one another than in healthy controls. Previous work using word embeddings and language models has shown this pattern across different datasets and tasks.
In this paper, we tried to push that idea one step further.
Instead of only asking whether words are more similar, we asked whether the dimensionality of semantic space itself becomes reduced in psychosis. The intuition is that that if speech explores fewer independent semantic directions, then the effective dimensions needed to describe that speech should also become smaller. To test this, we used embeddings from language models to represent speech samples as vectors in the space. Then we applied dimensionality reduction techniques, mainly Principal Component Analysis (PCA), together with estimates of intrinsic dimensionality (ID), to evaluate how reducible those semantic spaces were. To do it, we ask questions such as:
- How many components are needed to explain most of the variance?
- How much variance is captured by the first few components?
- What is the minimum effective dimensionality required to describe the speech sample?
The datasets included speech samples in three different languages, which was important because many computational findings in psychiatry remain heavily English-centered. Despite linguistic differences, the pattern was remarkably consistent: speech from psychosis groups showed higher reducibility and lower effective dimensionality across datasets.
What makes this interesting is that it potentially reframes several previous findings under a more unified perspective. Higher semantic similarity, repetitive associations, restricted semantic exploration, and related phenomena may all reflect a deeper geometric property of discourse organization. Rather than isolated markers, they could emerge from changes in the structure of semantic space itself.
This also connects computational psychiatry more directly with broader ideas from dynamical systems, geometry, and network organization. Recent years have seen increasing interest in describing cognition using concepts such as manifolds, trajectories, intrinsic dimensionality, and geometric constraints. The present work suggests that these ideas may not only apply to neural activity or artificial systems, but also to the organization of meaning in natural language. The paper does not argue that psychosis means “less complex language.” The phenomenon is likely more subtle. A lower-dimensional semantic space may reflect stronger attraction toward certain semantic regions, altered contextual transitions, or reduced flexibility in navigating conceptual space. In other words, the issue may concern how meanings are organized and traversed, not merely vocabulary size or grammatical ability.
There are also important methodological implications. Much of current NLP-based psychiatric research relies on large collections of individual features whose interpretation can become obscure. Looking at the geometry of semantic organization offers a potentially more foundational level of analysis. It shifts attention from isolated markers toward the global structure underlying them.
Of course, there are still many open questions. We do not know exactly which cognitive or neurobiological mechanisms produce these geometries. Nor is it clear how these semantic constraints evolve longitudinally, relate to symptoms, or interact with clinical states such as remission or relapse. But the results suggest that language models can capture not only surface linguistic patterns, but also deeper organizational properties of meaning. I believe that this study contributes to a growing literature treating language as a window into latent cognitive organization, and language models are finally giving us tools to study those properties.
En un artículo publicado el año pasado en Scientific Reports , exploramos una pregunta relativamente simple, pero interesante: ¿Qué pasa si el habla asociada a la psicosis se puede caracterizar por la geometría subyacente del significado mismo?
¿Pero qué quiero decir con geometría del significado? Una forma de pensarlo es imaginar que las palabras viven en una especie de mapa abstracto. Si las ciudades pueden estar más cerca o más lejos entre sí en un mapa geográfico, uno también puede imaginar que el significado de las palabras está más lejos o más cerca. Por ejemplo, palabras como “perro”, “gato” y “animal” ocuparían zonas cercanas porque están relacionadas, mientras que palabras como “justicia” o “Manjarate” quedarían bastante más lejos. Los modelos de lenguaje actuales aprenden estas relaciones automáticamente a partir de grandes cantidades de texto y representan palabras como posiciones dentro de un enorme paisaje semántico. A diferencia de un mapa normal que se despliega en dos dimensiones, o del espacio físico observable en tres dimensiones, estos espacios se modelan con muchas dimensiones distintas, miles de ellas en algunos modelos. Cuando hablamos, podemos imaginar que el discurso es un recorrido por ese paisaje, saltando de una región de significado a otra.
Los grandes modelos de lenguaje, como los que están detrás de chatbots como ChatGPT, representan a las palabras como puntos (o vectores) en un espacio semántico muy grande. Eso permite imaginar el habla como una trayectoria que se mueve por el paisaje del significado. Cuando las personas hablan, su discurso puede desplazarse por muchas direcciones semánticas o quedarse confinado en una región más acotada. Si los significados se agrupan una y otra vez en zonas similares, la trayectoria explora menos espacio y el habla puede volverse más repetitiva o semánticamente restringida.
Gran parte del trabajo computacional sobre psicosis y lenguaje se ha enfocado en la similitud semántica (similitud de coseno), y los estudios muestran de forma consistente que las palabras producidas por pacientes tienden a ser más similares entre sí que en controles sanos. Trabajos previos con embeddings y modelos de lenguaje han mostrado este patrón en distintos conjuntos de datos y tareas.
En este trabajo intentamos llevar esa idea un poco lejos.
En vez de sólo preguntar si las palabras son más similares, nos preguntamos si la dimensionalidad del espacio semántico mismo se reduce en psicosis. La intuición es que, si el habla explora menos direcciones semánticas independientes, entonces las dimensiones efectivas necesarias para describirla también deberían ser menos. Para probarlo, usamos embeddings de modelos de lenguaje para representar muestras de habla como vectores en ese espacio. Luego aplicamos técnicas de reducción de dimensionalidad, principalmente Análisis de Componentes Principales (PCA), junto con estimaciones de dimensionalidad intrínseca (ID), para evaluar qué tan reducibles eran esos espacios semánticos. En concreto, nos hicimos las siguientes preguntas:
- ¿Cuántos componentes se necesitan para explicar la mayor parte de la varianza?
- ¿Cuánta varianza capturan los primeros componentes?
- ¿Cuál es la dimensionalidad efectiva mínima necesaria para describir una muestra de habla?
Los datos incluían muestras de habla en tres idiomas distintos, lo que es importante porque muchos hallazgos computacionales en psiquiatría siguen siendo muy anglocéntricos. A pesar de las diferencias lingüísticas, el patrón fue notablemente consistente: los grupos con psicosis mostraron mayor reducibilidad y menor dimensionalidad efectiva en todos los datasets.
Lo interesante de esto es que podría reinterpretar varios hallazgos previos bajo una perspectiva más unificada. Mayor similitud semántica, asociaciones repetitivas, exploración semántica restringida y fenómenos relacionados podrían reflejar una propiedad geométrica más profunda de la organización del discurso. En lugar de ser marcadores aislados, podrían emerger de cambios en la estructura del propio espacio semántico.
Esto también conecta la psiquiatría computacional de forma más directa con ideas de sistemas dinámicos, geometría y organización en redes. En los últimos años ha crecido el interés por describir la cognición usando conceptos como trayectorias, dimensionalidad intrínseca y restricciones geométricas. Este trabajo sugiere que estas ideas podrían aplicarse no solo a actividad neural o sistemas artificiales, sino también a la organización del significado en el lenguaje natural. El artículo no plantea que la psicosis implique “lenguaje menos complejo”. En realidad es un fenómeno más sutil. Un espacio semántico de menor dimensión podría reflejar una atracción más fuerte hacia ciertas regiones semánticas, transiciones contextuales alteradas o menor flexibilidad para navegar el espacio conceptual. En otroas palabras, lo importante es cómo se organizan y recorren los significados, más que en el tamaño del vocabulario o la gramática.
También hay algunas implicancias metodológicas importantes. Mucha investigación psiquiátrica basada en NLP depende de grandes colecciones de rasgos individuales cuya interpretación a veces se vuelve poco clara. Mirar la geometría de la organización semántica ofrece un nivel de análisis potencialmente más fundacional. Desplaza la atención desde marcadores aislados hacia la estructura global que los sostiene.
Obvio, todavía quedan varias preguntas abiertas. No sabemos exactamente qué mecanismos cognitivos o neurobiológicos producen estas geometrías. Tampoco está claro cómo evolucionan longitudinalmente estas restricciones semánticas, cómo se relacionan con los síntomas clínicos, o cómo interactúan con como remisión o recaída en psicosis. Pero los resultados sugieren que los modelos de lenguaje pueden capturar no solo patrones lingüísticos superficiales, sino también propiedades organizacionales más profundas del significado. Creo que este estudio aporta a una literatura creciente que trata el lenguaje como una ventana a la organización cognitiva latente, y que los modelos de lenguaje por fin nos están dando herramientas para estudiar estas propiedades.
Palominos, C., Stein, F., Kircher, T., Ayesa-Arriola, R., Palaniyappan, L., Homan, P., ... & Hinzen, W. (2025). Lexical meaning is lower dimensional in psychosis. Scientific Reports.