Módulo A
SUBMITTED BY GPLSI ON SAT, 11/10/2018 – 23:28
Estudio y caracterización de los modelos de lenguaje centrados en perfiles de usuario/a
Este módulo se encargará de analizar recursos, herramientas y técnicas de Tecnologías de Lenguaje Humano (TLH) ya existentes para seleccionar aquellas que se puedan reutilizar para el aprendizaje automático de las características de los modelos de lenguaje centrados en los perfiles de usuario/a. Posteriormente, todos los recursos, técnicas y herramientas que se hayan seleccionado previamente se adaptarán a los requisitos y necesidades particulares del proyecto. Además, se desarrollarán y generarán recursos, herramientas y técnicas propias en aquellas situaciones que así lo requieran. Por ejemplo, la generación de córpora específicos IIA será una tarea básica a acometer. Finalmente, este módulo será el encargado del aprendizaje de los modelos discriminatorios para perfiles de usuarios/as.
Tarea A.1. Análisis, recopilación y adquisición de recursos, herramientas y técnicas existentes.
En esta tarea se realizará la búsqueda de córpora existentes para analizar su utilización y/o adaptación. Además de córpora, se analizarán herramientas y técnicas de TLH que se puedan reutilizar en base a las capacidades y rendimiento que ofrezcan (por ejemplo, analizadores lingüísticos).
Tarea A.2. Identificación y definición de los perfiles de usuario/a.
En paralelo a la tarea A.1, se identificarán y definirán los perfiles de usuario/a a considerar a priori y sus características. Para la identificación de perfiles se aplicarán técnicas de análisis de requisitos para adquirir las necesidades de las personas usuarias. También se tendrán en cuenta las características de las personas usuarias que pueden influir en la accesibilidad del texto, incluyendo, además del sexo como variable central, su condición social y económica, edad o habilidades cognitivas. Se creará un modelo de usuario/a donde almacenar esta información.
Tarea A.3. Caracterización de los modelos del lenguaje basados en los perfiles definidos.
En esta tarea, se determinarán las características lingüísticas a nivel de morfología, léxico, estructuras sintácticas, semántica, o modalidad, presentes tanto en los lenguajes universales (IIA) como las características presentes en los lenguajes discriminatorios o sesgados. Según los diferentes perfiles definidos, las características a detectar variarán, por lo que los diferentes modelos lingüísticos tendrán que contemplar todas las posibilidades.
Tarea A.4. Construcción y/o adaptación de córpora específico para el proyecto.
Para poder aplicar técnicas de aprendizaje automático y para poder evaluar las herramientas generadas, es necesario disponer de córpora que se corresponda con las características de los modelos de lenguaje basados en perfiles que se determinan en la tarea anterior. Si los corpus analizados en la tarea A.1 son insuficientes para lograr los objetivos del proyecto, será necesario construir nuestros propios corpus o adaptar los ya existentes para su utilización en técnicas de aprendizaje automático aplicadas a la finalidad del proyecto. En caso de tener que adaptar corpus que ya se hayan recopilado o anotado, así como en el caso de tener que recopilar y construir nuevos, se seguirá una metodología estándar basada en procesos de compilación y anotación de corpus que ya existan (Zafra, Gómez-Soriano, & Navarro-Colorado, 2017), y que se tomarán como referencia para definir el esquema de anotación más adecuado en cada caso. También se trabajarán técnicas para la construcción automática de corpus para aquellos casos donde sea muy costoso obtener un amplio volumen de muestras (Canales et al., 2017).