A diario usamos herramientas como motores de búsqueda para encontrar información, hablamos con inteligencias artificiales como Siri, Alexa o Google Home que nos sirven de asistentes personales; empleamos sistemas de traducción automática para entender otros idiomas; con menos frecuencia, conocemos otras aplicaciones como aquellas que realizan el resumen automático de un documento. Detrás de todos estos desarrollos se encuentra la ingeniería lingüística también conocida como lingüística computacional. En esta entrada hablaremos acerca de:
- Usos de la ingeniería lingüística
- Corpus lingüísticos
- Procesamiento del Lenguaje Natural
- PLN en México
Usos de la ingeniería lingüística
Como mercadólogos y en concreto si nos dedicamos al estudio de la reputación de marca, empleamos software especializado que nos ayuda a entender las emociones detrás de conjuntos de datos provenientes de redes sociales como Twitter o Facebook que emplean el lenguaje humano. Analizar esta información se ha convertido en oro para comprender los niveles de aceptación de un político o la popularidad de artistas y de todo tipo de marcas. Pero las aplicaciones con fines comerciales de la ingeniería lingüística no son las únicas, otras de ellas se enfocan en la investigación, por ejemplo, para encontrar de manera automática si se cometió plagio, para detectar enfermedades como el Alzheimer o incluso para darte cuenta cuando quien escribe algo tiene riesgo de cometer suicidio.
Cada vez que los ingenieros trabajan con el lenguaje humano, es decir, nuestra manera de expresarnos y comunicarnos con otros, para realizar un desarrollo, estamos en el área de la ingeniería lingüística. Es un área fascinante y en constante evolución que supone muchos retos, ya que la lengua humana y el lenguaje no son estáticos, cambian constantemente y las máquinas han comenzado a aprender de ellos.
Corpus lingüísticos
Los lingüistas trabajan con muestras de habla, ya sean escritas u orales. Si son transcripciones de cómo hablamos, son corpus orales; si son documentos escritos o extraídos de alguna plataforma como un blog, revista o una red social, son corpus escritos. Pueden ser sincrónicos, si analizan la lengua en un momento determinado de su historia, o diacrónicos, si analizan los fenómenos de la lengua durante un amplio periodo histórico. Cuando se comienza una investigación lingüística se conforma o selecciona un corpus. Las características que deben cumplir los corpus, de acuerdo con los lingüistas Joan Torruela y Joaquim Llisterri, son:
- Componerse de textos reales
- Mostrar a pequena escala el funcionamiento de la lengua natural
- Estar seleccionado correctamente para ser representativo
- Tener un tamaño finito
- Ser manejable por computadora
Antes, los lingüistas conformaban corpus y posteriormente los anotaban y analizaban a mano varios de sus aspectos, apuntaban sus observaciones en fichas de trabajo y llevaban a cabo conteos de palabras o de patrones lingüísticos manualmente. Ahora, por supuesto que nos podemos ayudar de computadoras que hacen este trabajo con mayor velocidad y precisión. También aquí entra la creatividad de los ingenieros, quienes crean sistemas para analizar aspectos específicos de cada corpus.
Muchos corpus han sido ya compilados y los lingüistas pueden analizarlos directamente. Por ejemplo, la Real Academia Española de la Lengua ha conformado los siguientes corpus: el Corpus de Referencia del Español Actual (CREA), el Corpus Diacrónico del Español (CORDE) y el Corpus del Español del Siglo XXI (CORPES XXI). Con base en ellos realizan sus diccionarios y otros estudios de la lengua.
Procesamiento del Lenguaje Natural
Al proceso de analizar estos corpus de manera automática con finalidades específicas, se le conoce como Procesamiento del Lenguaje Natural o PLN. Esta disciplina es considerada un área de la Inteligencia Artificial, de las ciencias de la computación y de la lingüística. Como hemos dicho, estudia las interacciones entre las computadoras y el lenguaje humano. En las últimas décadas ha repuntado esta disciplina mediante el uso de algoritmos y aprendizaje automático. Todo esto es posible, en gran medida, gracias a la cantidad de información que generamos a diario en plataformas como Internet, motores de búsqueda y redes sociales. Algunas de sus aplicaciones son:
- Síntesis del discurso
- Análisis del lenguaje
- Comprensión del lenguaje
- Reconocimiento del habla
- Síntesis de voz
- Generación de lenguajes naturales
- Traducción automática
- Respuesta a preguntas
- Recuperación de la información
- Extracción de la información
PLN en México
En México, el Grupo de Ingeniería Lingüística de la UNAM ha trabajado durante más de 25 años en el desarrollo de materiales didácticos, conformación de corpus y desarrollo de sistemas computacionales en el área de la lingüística computacional. El fundador y jefe del grupo, Gerardo Sierra Martínez, ha asesorado a decenas de estudiantes, ha hecho difusión acerca de esta área del conocimiento y es autor de libros como Introducción a los corpus lingüísticos. Él y sus becarios, estudiantes de licenciatura y posgrado, tienen más de un centenar de artículos académicos relacionados con el PLN. Entre los corpus lingüísticos que se han desarrollado en México por este grupo y otras instituciones como el COLMEX, se encuentran:
- Corpus del Habla de Sinaloa (CHS)
- Corpus del Derecho Penal Mexicano (CDPM)
- Corpus Paralelo de Lenguas Mexicanas (CPLM)
- Corpus del Habla de Baja California (CHBC)
- Corpus del Habla de Puebla (CORHPU)
- Corpus Lingüístico en Ingeniería (CLI)
- Corpus Histórico del Español en México (CHEM)
- Corpus de las Sexualidades en México (CSMX)
- Corpus de Contextos Definitorios (CORCODE)
- Corpus Electrónico para el Estudio de la Lengua Escrita (CEELE)
- Corpus sobre trata de personas (CORTRATA)
- Axolotl: Corpus paralelo náhuatl-español (AXOLOTL)
- Corpus Anotado con Relaciones Discursivas (RST Spanish Treebank)
- Corpus del Español Mexicano Contemporáneo (CEMC), COLMEX
- Corpus Básico Científico del Español de México (COCIEM), COLMEX
- Corpus Electrónico del Español Colonial Mexicano (COREECOM), IIF-UNAM
- Biblioteca Digital del Pensamiento Novohispano (BdPn), FFyL-UNAM
En conclusión…
- La ingeniería lingüística tiene muchas aplicaciones en el ámbito comercial y en el de la investigación.
- Una de sus aplicaciones, nos ayuda como mercadólogos a entender mejor a nuestras audiencias en redes sociales.
- El PLN es un área híbrida entre la lingüística, la inteligencia artificial y las ciencias de la computación.
- Sin el PLN muchas herramientas que usamos de manera cotidiana como los sistemas de traducción automática o el software que analiza sentimientos hacia una marca o persona no sería posible.
¿Quieres saber más de estos temas? Déjanos tu opinión en los comentarios.
Hola, me gustaría saber que carreras se pueden dedicar a la ingeniería lingüística o ¿hay una como tal?
Hola, Ángel, una de las carreras es la ingeniería en computación. Puedes preguntar en este grupo si estás interesado en más información. https://www.facebook.com/ingenieriaLinguistica/