Word embedding

De Wikipedia, la enciclopedia libre
Ir a la navegación Ir a la búsqueda

Word embedding es el nombre de un conjunto de lenguajes de modelado y técnicas de aprendizaje en procesamiento del lenguaje natural (PLN) en dónde las palabras o frases del vocabulario son vinculadas a vectores de números reales. Conceptualmente implica el encaje matemático de un espacio con una dimensión por palabra a un espacio vectorial continuo con menos dimensiones.

Algunos de los métodos para generar este mapeo son redes neuronalesreducción de dimensionalidad en la matriz de co-ocurrencia de palabras, modelos probabilísticos, y representación explícita en términos del contexto en el cual estas palabras figuran.[1][2][3][4][5][6]

El Word y phrase embeddings (para palabras y frases respectivamente), utilizados de forma subyacente como forma de representación, demostraron aumentar el rendimiento de tareas en el procesamiento del lenguaje natural (NLP) como en el análisis sintáctico[7]​ y análisis de sentimiento.[8]

Desarrollo de la técnica[editar]

En lingüística la técnica de word embeddings fue discutida en el área de investigación de semántica distribucional. Apunta para cuantificar y catagorizar las semejanzas semánticas entre elementos lingüísticos basándose en sus propiedades distribucionales en muestras grandes de dato de lengua. La idea subyacente que "una palabra está caracterizada por la compañía mantiene" estuvo popularizado por Firth.[9]

Hay muchas ramas y muchos grupos de desarrollo trabajando en este tema. En 2013, un equipo en Google dirigido por Tomas Mikolov creó word2vec, un paquete de herramientas el cual puede entrenar un modelo de espacio vectorial más rápidamente que las aproximaciones anteriores.[10]​ La mayoría de las nuevas técnicas utilizan una arquitectura de red neuronal en vez de los modelos más tradicionales como n-gram y aprendizaje no supervisado.[11]

Software[editar]

Entre el software para entrenar y utilizar word embedding se halla word2vec, GloVe de Stanford, Gensim,[12]​ Indra[13]​ y Deeplearning4j.[14]​ Tanto el análisis de Componente principal (PCA en inglés) como T-Distributed Stochastic Neighbour Embedding (t-SNE) se utilizan para reducir la dimensionalidad del espacio vectorial de palabras y visualizar el encaje de palabras en grupos (clusters).[15]

Referencias[editar]

  1. Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). «Distributed Representations of Words and Phrases and their Compositionality». arXiv:1310.4546  [cs.CL]. 
  2. Lebret, Rémi; Collobert, Ronan (2013). «Word Emdeddings through Hellinger PCA». Conference of the European Chapter of the Association for Computational Linguistics (EACL) 2014. arXiv:1312.5542. 
  3. Levy, Omer; Goldberg, Yoav (2014). Neural Word Embedding as Implicit Matrix Factorization. NIPS. 
  4. Li, Yitan; Xu, Linli (2015). Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective. Int'l J. Conf. on Artificial Intelligence (IJCAI). 
  5. Globerson, Amir (2007). «Euclidean Embedding of Co-occurrence Data». Journal of Machine learning research. 
  6. Levy, Omer; Goldberg, Yoav (2014). Linguistic Regularities in Sparse and Explicit Word Representations. CoNLL. pp. 171-180. 
  7. Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). Parsing with compositional vector grammars. Proc. ACL Conf. 
  8. Socher, Richard; Perelygin, Alex; Wu, Jean; Chuang, Jason; Manning, Chris; Ng, Andrew; Potts, Chris (2013). Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. EMNLP. 
  9. Firth, J.R. (1957). «A synopsis of linguistic theory 1930-1955». Studies in Linguistic Analysis (Oxford: Philological Society): 1-32.  Reprinted in F.R. Palmer, ed. (1968). Selected Papers of J.R. Firth 1952-1959. London: Longman. 
  10. word2vec
  11. A Scalable Hierarchical Distributed Language Model. 
  12. «Gensim». 
  13. «Indra». 
  14. «GloVe». 
  15. Ghassemi, Mohammad; Mark, Roger; Nemati, Shamim (2015). «A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes». Computing in Cardiology.