← VOLVER

Evaluación de modelos de lenguaje sobre idioma Español

Objetivo General

Desarrollar evaluaciones de alta dificultad para modelos de lenguaje (LLMs) en tareas de inferencia en lenguaje natural

NUEVO PROYECTO

RESUMEN

Responsable

• Dr. Ing. Ramiro Rodriguez Colmeiro

• Prof. Joaquín Toranzo Calderón

Correo de Contacto

rrodriguezcolmeiro@frba.utn.edu.ar

jtoranzocalderon@frba.utn.edu.ar

VACANTES DISPONIBLES: 3

Contactar responsable

DESCRIPCIÓN

Las evaluaciones consisten en tareas de clasificación de argumentos según la relación entre premisas y conclusión, y se denominan “adversariales” porque la conclusión se genera a través de la interacción de un humano (adversario) y un LLM (clasificador), donde el adversario debe generar conclusiones adecuadas a ciertas premisas y una clase previas, pero que faciliten el error del LLM. Se busca que el tesista asista en la implementación de un sistema automatizado de evaluación y adquisición de datos para la construcción interactiva de las evaluaciones. El mismo deberá implementar interfaces entre el usuario y el asistente (frontend y/o backend) para asegurar la correcta adquisición y detección de un ejemplo adversarial correcto. Adicionalmente trabajará sobre el análisis exploratorio de los datos, buscando características importantes sobre los comportamientos de los asistentes en los distintos escenarios planteados. El objetivo último del proyecto es determinar la fortaleza (o debilidad) de los modelos de lenguaje cuando son puestos a analizar razonamientos difíciles en el idioma español, un área poco explorada por los conjuntos de prueba estándar y de gran importancia para la implementación de asistentes en cadenas de automatización con usuarios de habla hispana.

OBJETIVOS ESPECÍFICOS

Implementar cadenas de automatización entre usuarios y asistentes, conectando peticiones JSON-RPC con instancias locales y externas.

REQUISITOS

Conocimientos de programación (Python).
Manejo de Linux.
(deseable) Manejo de Docker.
(deseable) Conocimientos de bases de datos (MongoDB, PostgreSQL).
(deseable) Conocimientos de PyTorch/vLLM.