Temática: Inteligencia artificial y ciencia abierta
País: Argentina
Organización: Facultad de Ciencias Exactas y Naturales y Agrimensura - Universidad Nacional del Nordeste - Metadocencia
Póster
(próximamente)
Vídeo de presentación
(próximamente)
Autor(a) principal: Patricia Andrea Loto
- ORCID: ORCID
- Mini biografía:
Patricia A. Loto es licenciada en Sistemas de Información con un diploma en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones por la FAMAF-UNC. Cuenta con certificaciones especializadas como instructora de programación por The Carpentries y Tidyverse por RStudio, y además actualmente cursa una maestría en Tecnologías de la Información.
Entre 2021 y 2024, integró el equipo permanente de Metadocencia, una organización de referencia en la región, desempeñando funciones en el equipo de accesibilidad y en proyectos destacados como el Mapeo de Comunidades de Ciencia Abierta en América Latina. Actualmente participa como miembro del proyecto Polen.
Palabras clave: Inteligencia Artificial(IA) - Ciencia Abierta - LLM - Asistente Virtual - Procesamiento del Lenguaje Natural (PLN) -
Resumen:
Introducción
La región latinoamericana enfrenta desafíos estructurales significativos para la implementación sistemática de prácticas de Ciencia Abierta, incluyendo limitaciones presupuestarias, déficits en infraestructura tecnológica y resistencias institucionales arraigadas. No obstante, la adopción de marcos normativos de Ciencia Abierta constituye una estrategia fundamental para democratizar el acceso al conocimiento científico, fortalecer las redes de colaboración interinstitucional y promover ecosistemas de investigación caracterizados por la transparencia, inclusión y reproducibilidad metodológica.
En consonancia con la Recomendación sobre Ciencia Abierta publicada por la UNESCO en 2021 y las directrices emergentes en política científica regional, esta propuesta plantea el desarrollo de un asistente virtual inteligente como apoyo a la comprensión, adopción e implementación de prácticas de ciencia abierta en el contexto latinoamericano.
Objetivo General:
Desarrollar un asistente virtual inteligente basado en grandes modelos de lenguaje que permita incrementar la accesibilidad, comprensión e implementación de prácticas, políticas y recomendaciones de Ciencia Abierta entre investigadores, académicos y directivos de instituciones de educación superior y centros de investigación de América Latina, mediante la provisión de respuestas contextualizadas y recursos especializados que contribuyan a la adopción efectiva de principios de apertura científica en la región.
Metodología:
La implementación del sistema se fundamenta en la integración de un Modelo de Lenguaje de Gran Tamaño (Large Language Model, LLM) con un marco de Generación Aumentada por Recuperación (Retrieval-Augmented Generation, RAG), configuración que permite el enriquecimiento contextual de las respuestas mediante la incorporación de información especializada externa almacenada en bases de datos vectoriales.
La selección de esta arquitectura híbrida responde a las limitaciones inherentes de los LLM convencionales, particularmente en términos de actualización temporal del conocimiento, especificidad temática y posibles alucinaciones en dominios especializados. La implementación del framework RAG permite superar estas limitaciones mediante la incorporación de repositorios de conocimiento curados y contextualizados específicamente para el ámbito latinoamericano de Ciencia Abierta, garantizando respuestas precisas, actualizadas y culturalmente pertinentes en lengua castellana.
El proceso metodológico comprende las siguientes etapas: (1) recopilación y curaduría de documentos especializados, (2) procesamiento y vectorización de la información mediante técnicas de embeddings, (3) selección de la arquitectura de recuperación semántica, (4) integración con el modelo de lenguaje seleccionado, y (5) evaluación y refinamiento iterativo del sistema mediante pruebas con usuarios objetivo.
Resultados Preliminares y Estado Actual del Proyecto:
El presente proyecto se encuentra en fase de desarrollo activo, habiendo alcanzado resultados preliminares que evidencian la viabilidad técnica y metodológica de la propuesta. Los avances obtenidos durante esta etapa inicial abarcan múltiples dimensiones del sistema proyectado.
- Construcción del Corpus Documental Especializado: se implementó una estrategia sistemática de recopilación documental mediante búsquedas en herramientas especializadas en literatura académica, utilizando palabras clave específicas relacionadas con ciencia abierta en el contexto latinoamericano. Este proceso incluyó la identificación, descarga y primera selección de documentos académicos en formato PDF, los cuales constituyen el núcleo inicial de la base de conocimientos del sistema.
- Integración de Corpus Especializado: Se incorporó al sistema una muestra curada de documentos(pdfs) actualizados y específicamente relacionados con la temática en cuestión, estableciendo los fundamentos documentales para la implementación de la arquitectura RAG.
Evaluación Comparativa de Arquitecturas Tecnológica - Actualmente, se está realizando un análisis técnico comparativo de diferentes marcos tecnológicos disponibles, incluyendo modelos de lenguaje desarrollados por OpenAI, Mistral AI y recursos de código abierto disponibles en la plataforma Hugging Face. Esta evaluación abarca criterios de rendimiento, precisión en respuestas especializadas y viabilidad de implementación en el contexto regional. Los resultados de esta fase permitirán identificar las configuraciones tecnológicas óptimas para el desarrollo del sistema, considerando tanto aspectos técnicos como de sostenibilidad del proyecto.
Contribución Esperada
El presente proyecto articula dos dimensiones complementarias de contribución al ecosistema científico latinoamericano. Por una parte, se espera que la herramienta facilite la adopción sistemática de prácticas abiertas mediante la provisión de orientación contextualizada y recursos específicos para el contexto regional. Por otra parte, el proyecto contribuirá a la generación y socialización de conocimientos especializados sobre la aplicación de tecnologías de inteligencia artificial en el dominio de la ciencia abierta.
Referencias bibliográficas:
- [1] UNESCO. (2021). Recomendación de la UNESCO sobre la Ciencia Abierta. https://unesdoc.unesco.org/ark:/48223/pf0000379949_spa
- [2] Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W., Rocktäschel, T., Riedel, S., & Kiela, D. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. Advances in Neural Information Processing Systems, 33, 9459-9474.
- [3] Taipalus, T. (2024). Vector database management systems: Fundamental concepts, use-cases, and current challenges. Cognitive Systems Research, 85, 101216. Redirecting
- [4] SciELO. (2023). Taxonomía de la ciencia abierta: revisada y ampliada. Establishing a secure connection ...
- [5] D. De Filippo y M. G. D’Onofrio. “Alcances y limitaciones de la ciencia abierta en Latinoamérica: análisis de las políticas públicas y publicaciones científicas de la región, Hipertext.net, vol. 19, pp. 32–48, 2019. [En línea]. Disponible en: https://doi.org/10.31009/hipertext.net.2019.i19.03
- [6] Beigel, M. F. (2022). El proyecto de ciencia abierta en un mundo desigual. Universidad Autónoma de Madrid. https://ri.conicet.gov.ar/handle/11336/203575
- [7] Guan, Y., Wang, D., Chu, Z., Wang, S., Ni, F., Song, R., Li, L., Gu, J., & Zhuang, C. (2023). Intelligent virtual assistants with LLM-based process automation. arXiv. [2312.06677] Intelligent Virtual Assistants with LLM-based Process Automation
- [8] Piñeiro-Martín, A., García-Mateo, C., Docío-Fernández, L., & López-Pérez, M. d. C. (2023). Ethical Challenges in the Development of Virtual Assistants Powered by Large Language Models. Electronics, 12(14), 3170. https://doi.org/10.3390/electronics12143170