
18 de Agosto de 2025
En una nota para Nieman Lab, Josh Axelrod exploró cómo distintas redacciones están probando herramientas de inteligencia artificial para obtener información confiable y acelerar tareas del día a día, moviéndose entre la promesa de eficiencia y el riesgo de respuestas erradas.
Erlend Ofte Arntsen, periodista noruego de investigación en Verdens Gang (VG), ha presentado más solicitudes de acceso a la información pública de las que puede contar: cientos, quizá más si se suman seguimientos y peticiones relacionadas. Según Axelrod, hoy un nuevo asistente en una de las redacciones más grandes de Noruega está transformando su rutina, quitándole parte del trabajo más mecánico para que pueda dedicar más tiempo al reporteo en la calle, en vez de enredarse en trámites y tecnicismos legales.
Ese asistente se llama FOIA Bot y funciona con IA generativa. Cuando llega la respuesta del gobierno, tanto si dice que sí como si dice que no, el bot propone una réplica bien armada gracias a que tiene acceso a toda la ley noruega de acceso a la información y a 75 plantillas de la Asociación de la Prensa Noruega.
“Es algo a lo que habría tenido que dedicarle medio día cuando estoy en la unidad de investigación, donde tengo tiempo para pensar a fondo”, contó Arntsen. “Pude resolverlo durante un turno de noche en noticias de última hora porque usé el bot.”
FOIA Bot forma parte de un conjunto creciente de herramientas que aprovechan la generación aumentada por recuperación (RAG, por sus siglas en inglés). Según el autor, es el mismo método detrás de buscadores como Ask FT, del Financial Times, que se alimenta del contenido del diario para responder preguntas de lectores y ha sido usado por decenas de miles de personas desde su lanzamiento este año.
Aunque el nombre suene técnico, la idea es sencilla y, según Axelrod, refuerza la confiabilidad, clave para periodistas. En lugar de generar respuestas a partir del batido inmenso de internet, un sistema RAG recupera información de una base definida por la redacción y la usa para generar respuestas con atribuciones. Esa base puede ser el archivo de artículos verificados, un compendio legal o incluso un único PDF.
“Si usara, por ejemplo, ChatGPT, tendría problemas porque inventa fuentes”, dijo Lars Adrian Giske, jefe de IA en iTromsø, un periódico noruego con fuerte apuesta tecnológica. “Sí, puede darte una fuente real como: ‘Revisa la página 14, párrafo tres de este documento’. Pero también puede inventárselo, y es muy difícil ir de la conversación a la documentación real, encontrar el párrafo y entender cómo utilizó esa información. Se necesitan sistemas que lo hagan de forma mucho más segura.”
Aun con flujos de trabajo más confiables, según Axelrod persisten las reservas. Para muchos, IA y periodismo siguen viéndose lejos de encajar. ¿Se puede trocear el proceso periodístico en bases y vectores? ¿Qué se pierde cuando todo pasa por un filtro de resumen? ¿Pueden los editores competir por la atención en un entorno dominado por gigantes tecnológicos?
“Los medios de información están a punto de cambiar”, señaló Giske. “El artículo como lo conocemos quizá deje de ser el formato preferido de los lectores, oyentes o espectadores en los próximos años. La gente se está acostumbrando a los ecosistemas generativos, y eso no va a cambiar.”
Cómo está apareciendo RAG en las redacciones
Un sistema basado en RAG es tan bueno como su base de datos.
En iTromsø, el equipo de Giske usó este método en una investigación sobre falta de personal en un hospital local. Las solicitudes FOIA devolvieron miles de páginas de documentos densos; las dividieron en fragmentos y las convirtieron en representaciones numéricas. Según el autor, si un RAG es un examen a libro abierto, esos fragmentos son los pasajes subrayados que el modelo recibe para redactar.
Los periodistas pidieron al sistema que destacara lo más noticioso. Tras varios ajustes para enseñarle qué entendían por “noticiable”, los resultados ayudaron a que el equipo obtuviera un premio Data-SKUP, uno de los más prestigiosos de Noruega.
“Usamos el RAG para lo que llamamos ‘oler los datos’, y después los vamos acotando”, dijo Giske. “Esto permitió descubrir algo que estaba oculto en toda esa documentación: un médico de Dinamarca, que trabajaba de manera remota, dedicó cuatro segundos a revisar radiografías.”
Giske dijo que el proyecto habría tomado al menos tres meses de revisión manual.
“Estos enfoques te ayudan a tener una visión general de conjuntos de datos muy grandes,” afirmó. “Hay muchísimo conocimiento esperando ser descubierto en datos públicos abiertos. Pero es muy difícil para uno o varios periodistas revisar todo eso manualmente… Siento que el periodismo de investigación apoyado en RAG es simplemente una extensión del periodismo de datos. Es una evolución natural.”
En Finlandia, el científico de datos Vertti Luostarinen creó un Olympics Bot para Yle, la radiotelevisión pública. Según Axelrod, si se le pedía a un chatbot generalista una lista de los diez mejores luchadores finlandeses, podía llegar a colar a un pentatleta que no pertenecía a esa disciplina. Durante los Juegos Olímpicos, el equipo de comentaristas de Yle publicaba cientos de artículos al día y necesitaba estadísticas al instante. Luostarinen alimentó el bot con historia del deporte, biografías de atletas, reglas, calendarios y artículos de la cobertura en vivo de Yle.
“Esperaba muchas más alucinaciones —eso es lo que suele asustar a la gente con estos modelos”, dijo Luostarinen. “Hubo muchas menos de las que imaginaba.”
El mayor problema fue el finés: a veces escribía mal los nombres porque tomaba variaciones de la pregunta del usuario; otras veces encontraba la información correcta pero no respondía por limitaciones del idioma.
Al final, Luostarinen coincidió con Giske: los RAG filtran y elevan información valiosa en montañas de datos, pero la tendencia a resumir de más le preocupa.
“Tienden a ‘resumir información incluso cuando les pides que no lo hagan’”, dijo. “Es útil cuando necesitas una visión general, pero en el trabajo periodístico muchas veces lo importante son los detalles. Me preocupa qué pasará con la manera en que buscamos información como sociedad si siempre pasa por sistemas que la vuelven más genérica y pierden lo específico.”
JournalistGPT
Según Axelrod, el resumen automático es la aplicación que más rápido están adoptando las redacciones. Además del Financial Times, The Washington Post presentó “Ask the Post AI” y The San Francisco Chronicle lanzó “the Kamala Harris News Assistant”, que reunía casi tres décadas de cobertura política en California.
En una encuesta del Reuters Institute de este año, más de la mitad de 326 encuestados dijeron que “explorarían chatbots de IA e interfaces de búsqueda” en los meses siguientes.
La agencia DPA (Alemania) tomó todo su contenido desde 2018 y su feed actual para construir una base en tiempo real que pueden consultar usuarios y periodistas. Mientras genera el resumen, cada respuesta incluye un número verde que enlaza al artículo de DPA.
Dentro de la redacción, también lo usan para ahorrar tiempo, con permiso de incluir texto generado por IA en las notas siempre que primero verifiquen la información. DPA incluso contempla integrar el sistema directamente al CMS.
Porque está programado para citar e incluir comillas, el sistema “ha demostrado ser más robusto frente a las alucinaciones”, dijo Yannick Franke, líder del equipo de IA. Y todo lo publicado pasa por verificación, un cerrojo extra contra errores.
“Cada error es una catástrofe para las noticias y, en particular, para una agencia,” Astrid Maier, subdirectora de DPA, señaló. “Pero seamos honestos, las personas también se equivocan. Al final, el escritor y los editores son responsables de lo que se publica. Esa responsabilidad no puede cambiar ni delegarse a la IA.”
El riesgo mayor, según Maier, es que DPA pierda su lugar como autoridad de verificación en Alemania si cambian los hábitos y el ecosistema informativo.
“Tenemos que ser capaces de usar estas herramientas en nuestro beneficio,” añadió. “Si nos quedamos al margen observando, creo que el riesgo de quedarnos atrás es demasiado alto. Es mejor dominar esta tecnología para el bien propio y de nuestros clientes, y poder cumplir nuestra misión y visión en los próximos diez o, con suerte, 75 años.”
El FT lo ve parecido, según explica Axelrod: su equipo de marketing identifica tres modos de consumo entre clientes empresariales que usan el buscador: investigación profunda, monitoreo y hábito. Los resúmenes de IA responden al primero con síntesis rápidas sobre casi cualquier tema, pero no sustituyen la curaduría editorial ni el simple acto de desplazarse por una app.
No todos están convencidos. “Hay múltiples maneras de usar los RAG,” dijo Robin Berjon, tecnólogo y ex vicepresidente de gobernanza de datos en The New York Times. “Si el modelo obtiene información confiable de un RAG, pero luego la procesa y la resume, yo no confiaría a menos que cite directamente los documentos relevantes. Es muy probable que introduzca errores al resumir.”
Espacio para mejorar
Gran parte de la conversación en las redacciones gira en torno a la utilidad de los RAG, según Axelrod. Pero investigaciones recientes de Bloomberg llaman la atención sobre su potencial de daño.
El equipo de IA Responsable de Bloomberg usó una base con solo artículos de Wikipedia, un “RAG vainilla”, y planteó 5.000 preguntas sobre malware, desinformación, fraude y actividades ilegales. Según el autor, los modelos con RAG terminaron respondiendo preguntas que otros sistemas sin RAG casi siempre rechazaban.
La receta para reducir riesgos es la misma que para aumentar la confiabilidad: evaluar todo el tiempo y poner barandas adecuadas.
“Si entiendes bien qué tan bien funciona, con qué frecuencia alucina, inventa datos o responde a consultas inseguras —entonces puedes decidir si quieres implementarlo o si necesitas añadir más componentes para reducir esos riesgos,” dijo Sebastian Gehrmann, jefe de IA Responsable en Bloomberg.
DPA hizo que sus propios periodistas estresaran el buscador antes de ofrecerlo a clientes. Al parecer, editores hombres se divertían pidiéndole que listara entrenadores de un club alemán en un periodo concreto, lo que ayudó a detectar que el sistema tenía problemas para contar. También trabajan con el Centro Alemán de Investigación en IA para crear un proceso de evaluación científica y métricas.
El FT hizo pruebas beta por etapas e incorporó comentarios de clientes. Esperó hasta que el 80% de usuarios lo considerara útil para extenderlo a miles de organizaciones suscritas a FT Professional.
Y en VG, según Axelrod, automatizaron parte de la evaluación de FOIA Bot con un método conocido como LLM-as-judge. Tomaron 43 quejas redactadas por el bot y un revisor de la Asociación de la Prensa Noruega definió una lista de expectativas para cada una. Luego usaron IA para puntuar el desempeño: 381 de 548 expectativas se cumplieron.
Incluso cuando una herramienta basada en RAG supera estándares internos, no habla por sí sola. Los lectores tienen que entender cómo funciona y cómo sacarle provecho.
“Las organizaciones de noticias ya son espectacularmente malas comunicando el nivel de confianza y el trabajo que hay detrás de una pieza. Y luego ¿le pones encima un chatbot? No va a ser bueno,” advirtió Berjon. “Será necesario un trabajo serio de experiencia de usuario para dejar claro qué se puede esperar de esto.”
El reto, concluye Berjon, es diseñar experiencias que no vendan a la IA como todopoderosa. Su consejo: evitar el exceso de letra chica legal y no confiar solo en etiquetas tipo “este texto fue generado por un modelo de lenguaje”.
“Tienes que hacer que forme parte de la experiencia el hecho de que la confiabilidad es la que es”, dijo Berjon.
Otras noticias
Crisis de credibilidad en el periodismo: claves y soluciones
IA sin consentimiento, crédito ni compensación
Blodget frente al impacto de la IA en el periodismo: “No está condenado”