¿Cómo debe ser un buen corpus? | InnovaDATA #12

Dedicamos este podcast de InnovaDATA a la base de los modelos de lenguaje: los corpus o conjuntos de textos con los que se entrenan. Nos preguntamos cómo debe ser un buen corpus, qué tipo de textos se incluyen y la calidad y la cantidad exigidas. Esta vez, contamos con la experiencia desarrollando corpus en español y en gallego de Marta Guerrero, directora técnica del área de Business & Language Analytics del IIC, y de Pablo Gamallo, Catedrático de Lingüística e investigador del Centro Singular de Investigación en Tecnoloxías Intelixentes (CiTIUS). Además, nos dan su visión sobre cómo de representadas están nuestras lenguas en el mundo de la inteligencia artificial.

Om Podcasten

Hablamos de análisis Big Data e Inteligencia Artificial. Os contamos proyectos reales en empresas e instituciones y las últimas tendencias en Machine Learning o Procesamiento del Lenguaje Natural (PLN), entre otras técnicas. Un podcast del Instituto de Ingeniería del Conocimiento (IIC), centro de innovación que aplica Inteligencia Artificial en diferentes áreas: Banca, Energía, Salud, RR. HH. o Inteligencia de Cliente. Además, puedes encontrarnos en Twitter (@IIConocimiento), en LinkedIn y en nuestra página web www.iic.uam.es