Data Observatory procesa más de mil millones de documentos para entrenar Latam-GPT

Con miras a desarrollar una primera versión de Latam-GPT, Data Observatory y el Centro Nacional de Inteligencia Artificial (CENIA) ya trabajan en la depuración de datasets en español, portugués e inglés, sobre 10 tópicos y 20 países que permitirán hacer de la herramienta una plataforma robusta, confiable y representativa de nuestra región.

Ambas organizaciones despliegan una hoja de ruta de 8 etapas antes de dar a luz la versión oficial del modelo. Hoy se ejecuta la tercera etapa de preparación de los datos recogidos de bibliodatos, instituciones de gobierno y universidades, entre otros, los que permitirán reflejar fielmente la idiosincrasia de Latinoamérica.

Data Observatory no solo participa de los desafíos técnicos de desarrollar un gran modelo de lenguaje de estas dimensiones (LLM, por su sigla en inglés), colaborando en proveer la enorme capacidad de cómputo requerida, sino que también es parte del reto de procesar un gran volumen de datos que existen en documentos para su entrenamiento.

Mauricio Leiva, ingeniero civil en informática y Project Manager de Latam-GPT, señala que "en los últimos 2 meses de trabajo, no sólo se ha planificado el uso eficiente de 2 millones de dólares en créditos de Amazon Web Services (AWS), aporte entregado al proyecto a través del Data Observatory como socio fundador, sino también se han distribuido entre CENIA y DO el procesamiento de los conjuntos de datos que entrenarán la primera versión del modelo LLM generado por y para la región Latinoamericana. CENIA ya ha capturado cerca de 500 gigas de datos de alianzas en español y portugués, y nuestra misión es procesar en conjunto un total de 20,5 teras de datos públicos en inglés al cierre del proyecto, recogidos de RedPajama v2, conjuntos de datos abiertos utilizado en otros modelos como LLaMA de Meta AI, y que considera 30 mil millones de tokens o cadenas de palabras”.

En la etapa actual, Data Observatory está procesando 2,5 terabytes de datos en inglés, lo que se traduce en más de mil millones de documentos, que corresponden a datos web disponibles públicamente, desde blogs y sitios de noticias, hasta artículos académicos y recursos educativos. Dichos documentos se encuentran en distintos idiomas a nivel mundial y contemplan temáticas variadas como artes, ciencias, comunicación y medios, deportes, economía, educación, medicina, ciencias sociales y políticas, entre otras.

“Latam-GPT es mucho más que un proyecto tecnológico, es un hito para Latinoamérica. Desde CENIA y Data Observatory estamos demostrando que la región puede liderar la construcción de inteligencia artificial con identidad propia, capaz de representar nuestras culturas, lenguas y realidades. Esta colaboración no sólo reúne capacidades técnicas y computacionales sin precedentes, como el procesamiento de más de mil millones de documentos, sino que marca el inicio de un ecosistema regional que genera tecnología de vanguardia sin perder de vista su raíz cultural. Con LatamGPT, buscamos posicionar a toda Latinoamérica como un actor clave en la revolución de la IA, levantando soberanía tecnológica y conocimiento propio para el mundo”, expresó por su parte Rodrigo Roa, director ejecutivo de Data Observatory.

Si bien hay países de los cuales existe mucha información, países del Caribe cuentan con más información en fuentes angloparlantes, datos que también serán incorporados en Latam-GPT. Data Observatory trabajará en clasificar estos datos y luego seleccionar aquellos de mayor calidad y confiabilidad para cada país y tópico para entrenar el modelo. Estos serán procesados utilizando los beneficios de la capacidad de cómputo y escalabilidad en la nube de AWS y luego se etiquetarán y disponibilizarán. En paralelo, se incorporarán constantemente nuevos datos para enriquecer el proyecto con más fuentes de información a futuro.