Evaluación de modelos de lenguaje sobre idioma Español
Objetivo GeneralDesarrollar evaluaciones de alta dificultad para modelos de lenguaje (LLMs) en tareas de inferencia en lenguaje natural
Las evaluaciones consisten en tareas de clasificación de argumentos según la relación entre premisas y conclusión, y se denominan “adversariales” porque la conclusión se genera a través de la interacción de un humano (adversario) y un LLM (clasificador), donde el adversario debe generar conclusiones adecuadas a ciertas premisas y una clase previas, pero que faciliten el error del LLM. Se busca que el tesista asista en la implementación de un sistema automatizado de evaluación y adquisición de datos para la construcción interactiva de las evaluaciones. El mismo deberá implementar interfaces entre el usuario y el asistente (frontend y/o backend) para asegurar la correcta adquisición y detección de un ejemplo adversarial correcto. Adicionalmente trabajará sobre el análisis exploratorio de los datos, buscando características importantes sobre los comportamientos de los asistentes en los distintos escenarios planteados. El objetivo último del proyecto es determinar la fortaleza (o debilidad) de los modelos de lenguaje cuando son puestos a analizar razonamientos difíciles en el idioma español, un área poco explorada por los conjuntos de prueba estándar y de gran importancia para la implementación de asistentes en cadenas de automatización con usuarios de habla hispana.
Implementar cadenas de automatización entre usuarios y asistentes, conectando peticiones JSON-RPC con instancias locales y externas.
- Conocimientos de programación (Python).
- Manejo de Linux.
- (deseable) Manejo de Docker.
- (deseable) Conocimientos de bases de datos (MongoDB, PostgreSQL).
- (deseable) Conocimientos de PyTorch/vLLM.