Pasar al contenido principal

La web abierta y la extracción automatizada de contenido

Image
Imagen
Fuente: Freepik

22 de Diciembre de 2025

En un artículo para Asimov’s Addendum en Substack, Isobel Moure, Ilan Strauss y Tim O’Reilly examinan cómo la expansión de la inteligencia artificial generativa está alterando la relación entre tecnología, contenidos y modelos de negocio. A partir de investigaciones propias y ejemplos recientes, los autores analizan por qué la arquitectura abierta de internet facilita la extracción automatizada de contenidos y plantean la necesidad de repensar los marcos técnicos y económicos que sostienen a los medios de información.

Isobel Moure participó este año en un taller del FIPP World Media Congress, realizado en Madrid, donde presentó los hallazgos del AI Disclosures Project sobre violaciones de acceso y atribución asociadas a sistemas de IA. El público estuvo compuesto principalmente por editores que compartían una preocupación común: cómo se reconfigurará el ecosistema editorial en la era de la IA generativa. El contexto, explican, estuvo marcado por un sentido de urgencia, ya que los modelos de negocio actuales de los medios de información se ven presionados por los chatbots de IA y por el scraping automatizado.

En ese escenario, diversos proveedores tecnológicos ofrecieron soluciones que prometían eficiencia y ahorro, casi siempre a cambio de nuevos costos. Entre ellas, herramientas de redacción asistida por IA, generación automática de palabras clave para optimizar el SEO o el llamado GEO, sistemas para rastrear bots o la integración de chatbots propietarios entrenados con datos propios. Esta proliferación de ofertas contribuye a aumentar la confusión entre los editores.

Durante el evento, un ejecutivo de OpenAI aseguró que ChatGPT no eludía muros de pago. Sin embargo, pruebas simples muestran que esta afirmación no siempre se sostiene. Cuando se le solicitó a ChatGPT resumir un artículo de The Information, un medio completamente cerrado al acceso público, el sistema recurrió únicamente a fuentes secundarias que citaban el texto original. El comportamiento fue distinto frente a Stratechery, el blog de análisis de Ben Thompson, cuyo contenido está protegido por suscripción.

Al pedirle que resumiera una publicación reciente de ese blog, ChatGPT lo hizo sin inconvenientes. Ante la solicitud de citas textuales, se negó, señalando que el contenido estaba protegido por derechos de autor, pero ofreció como alternativa “una paráfrasis detallada de los pasajes clave y de la estructura del argumento para que puedas ver exactamente cómo el autor construye su caso. ¿Quieres que lo prepare?”. Para los autores, este tipo de respuestas revelan una línea difusa entre el respeto formal al copyright y la explotación efectiva del valor del contenido.

Desde esta perspectiva, OpenAI parece haber establecido el límite en la reproducción literal, pero no en la reconstrucción detallada de los argumentos. Esto plantea una pregunta de fondo: si se trata de una extensión de la cultura de la remezcla amparada en el uso justo o de una apropiación sistemática de contenidos de pago sin compensación. En cualquier caso, sostienen que estas prácticas afectan directamente a modelos basados en suscripción y análisis original.

Los editores enfrentan hoy un entorno complejo, atravesado por decisiones difíciles, intermediarios poco transparentes y soluciones que no siempre abordan el problema estructural. Este escenario resulta especialmente desafiante para quienes se formaron profesionalmente en un ecosistema informativo muy distinto al actual.

Tecnología y explotación

Los autores explican que su investigación se centró en dos hallazgos principales. Por un lado, confirmaron que contenido protegido por derechos de autor de O’Reilly fue utilizado en el preentrenamiento de modelos de OpenAI. Por otro, comprobaron que los modelos de IA con funciones de búsqueda no citan de forma consistente todas las fuentes utilizadas para generar sus respuestas.

Más allá de estos hechos, el texto plantea interrogantes más amplios. El problema no se reduce a conductas empresariales individuales ni a vacíos regulatorios, sino que está profundamente vinculado a la forma en que el ecosistema tecnológico facilita la explotación de contenidos. En ese sentido, cuestionan qué tipo de mercado de IA se está configurando: uno extractivo, dominado por unos pocos laboratorios, o uno participativo, en el que el valor se distribuya entre todos los actores que contribuyen al sistema.

En el centro del problema, sostienen, está la falta de control por parte de los proveedores de contenido. Las empresas de IA suelen ser opacas respecto a cómo recopilan datos, qué bots utilizan y cómo gestionan la atribución. Aunque a menudo se presenta como un problema de regulación o de malas prácticas corporativas, los autores advierten que la raíz es más profunda: la arquitectura original de internet nunca fue diseñada para enfrentar la recolección automatizada masiva de datos.

Los mismos protocolos que hicieron posible una web abierta y accesible la volvieron también vulnerable. Los bots que raspan contenido realizan solicitudes HTTP a puntos de acceso públicos, del mismo modo que lo hace un navegador humano. Algunos bots se identifican explícitamente, pero otros utilizan navegadores sin interfaz capaces de imitar patrones de comportamiento humano, como desplazamientos irregulares, movimientos aleatorios del cursor o la resolución de CAPTCHAs, prácticas para las que incluso existen servicios especializados.

Muchos editores recurren a barreras técnicas para intentar bloquear estos accesos. Sin embargo, soluciones como los sistemas de pago por rastreo o los muros de pago específicos para bots no ofrecen garantías plenas. Casos recientes, muestran que estas protecciones pueden ser eludidas mediante técnicas como la rotación de direcciones IP.

El problema central persiste: si un contenido puede mostrarse a una persona, también puede ser capturado por una máquina. Este principio convierte la defensa puramente técnica en una estrategia de rendimiento decreciente y pone en tensión el modelo de publicar contenido abiertamente en internet con la necesidad de proteger su valor.

HTTP y el internet moderno

Los autores sitúan la raíz del problema actual en la propia arquitectura fundacional de internet y en la forma en que ha evolucionado con el tiempo. HTTP, explican, es el protocolo que establece las reglas básicas de comunicación entre navegadores y servidores, definiendo cómo se formulan las solicitudes, qué información se intercambia y de qué manera se devuelven las respuestas. Por debajo de este protocolo operan las capas de transporte y seguridad, como TCP, QUIC y TLS, así como las capas de red, como DNS e IP. El contenido, señalan, viaja encapsulado dentro de mensajes HTTP, independientemente del origen de la solicitud.

Para ilustrar este funcionamiento, los autores recurren a una analogía con el sistema bancario. HTTP puede entenderse como el conjunto de reglas que permiten retirar dinero de una cuenta. No importa si la solicitud se realiza mediante un formulario en papel, un navegador web o una aplicación móvil, siempre que se cumplan los requisitos del protocolo. El canal por el que se envía la solicitud corresponde al transporte, mientras que la información exigida y su formato están definidos por el protocolo mismo. Esta neutralidad técnica es uno de los factores que hoy facilita que bots y humanos accedan a los contenidos a través de los mismos mecanismos.

HTTP fue creado entre 1989 y 1991 por Tim Berners-Lee con un objetivo muy específico: transferir documentos de hipertexto entre servidores y navegadores. En sus orígenes, los sitios web eran estáticos y los servidores simplemente entregaban archivos HTML tal como estaban almacenados. Con el tiempo, sin modificar el protocolo base, comenzaron a incorporarse tecnologías del lado del servidor, como CGI, que permitieron generar contenido dinámico a partir de bases de datos y otros sistemas.

A medida que la web evolucionó, HTTP empezó a transportar mucho más que texto. Imágenes, videos y archivos PDF pasaron a circular mediante el mismo protocolo, utilizando distintos encabezados que indicaban el tipo de contenido. Esta ampliación sentó las bases para una web más rica y visual, pero también más compleja.

El punto de inflexión llegó con la Web 2.0 y la adopción de tecnologías como AJAX. La posibilidad de realizar solicitudes en segundo plano transformó a HTTP en una herramienta para obtener datos de forma continua, sin necesidad de recargar páginas completas. Funciones como XMLHttpRequest y, más tarde, fetch permitieron el intercambio de datos estructurados, primero en XML y luego en JSON, habilitando experiencias similares a aplicaciones, como el correo web o los mapas interactivos.

Esta transformación dio origen a la economía de las APIs. La arquitectura conocida como REST reutilizó los métodos de HTTP para consultar y manipular datos de manera estandarizada. Con la expansión de las aplicaciones móviles, este modelo se consolidó, ya que las apps adoptaron HTTP como el medio universal para comunicarse con servidores y obtener datos estructurados. En este proceso HTTP dejó de ser principalmente un protocolo para transferir documentos y pasó a convertirse en la columna vertebral de las aplicaciones modernas.

Sin embargo, esta misma apertura genera hoy tensiones. HTTP fue diseñado sobre principios de confianza, colaboración e incluso anonimato, en un contexto en el que compartir información era el objetivo central. Nunca estuvo pensado para soportar intercambios automatizados y seguros entre máquinas a escala global. En la actualidad, los bots de IA aprovechan estas características para raspar contenidos de manera sistemática, eludiendo límites de velocidad, ignorando restricciones voluntarias de rastreo y operando en zonas legales poco claras. Las protecciones añadidas sobre HTTP resultan insuficientes frente a la capacidad de adaptación de estos sistemas.

El nuevo internet: diseñar un nuevo mercado

A partir de este diagnóstico, los autores sostienen que intentar reforzar el internet actual únicamente mediante bloqueadores de bots y barreras técnicas ha demostrado ser una estrategia con resultados limitados. Esto no implica abandonar los esfuerzos por frenar el scraping no autorizado, pero sí reconocer que el problema requiere un replanteamiento más profundo del modo en que se intercambian los datos.

Explican que es necesario combinar mecanismos disuasivos con incentivos positivos que orienten a las empresas de IA hacia canales formales de acceso al contenido. En ese marco, el artículo propone dos arquitecturas técnicas que, sin ser soluciones definitivas, podrían contribuir a crear un mercado más eficiente y equilibrado.

1) APIs (Interfaces de Programación de Aplicaciones)
Las APIs funcionan como contratos que definen cómo un servicio se comunica con otros servicios y permiten crear puntos de acceso controlados para el intercambio de datos. A diferencia de los sitios web públicos, diseñados para el consumo humano y cargados de elementos visuales, las APIs ofrecen datos estructurados pensados para el consumo automatizado, generalmente en formatos como JSON. Esto no solo reduce la fricción técnica para los sistemas de IA, sino que también permite a los editores ejercer un mayor control sobre qué datos se comparten y bajo qué condiciones.

El artículo recuerda que muchas grandes organizaciones de medios de información ya disponen de APIs para distribuir noticias, archivos y metadatos. Sin embargo, estos sistemas suelen operar bajo términos restrictivos y no están pensados para licencias programáticas con agentes de IA. Los autores plantean que estas infraestructuras podrían reutilizarse o integrarse con servidores MCP para redirigir el acceso automatizado hacia canales más regulados, sin depender de intermediarios que gestionen acuerdos y capturen parte del valor.

Si bien este enfoque no resuelve por completo el problema de la identificación, dado que las solicitudes siguen circulando sobre HTTP, sostienen que las APIs ofrecen un nivel de seguridad y control significativamente mayor que el acceso abierto a través de páginas web públicas.

2) Interacciones agente a agente
La segunda arquitectura propuesta implica que los editores reemplacen parte o la totalidad de su contenido público por agentes entrenados con datos propietarios. Estos agentes podrían interactuar directamente con bots de aplicaciones de IA mediante protocolos específicos, facilitando intercambios estructurados entre sistemas automatizados. En este esquema, los datos no se encuentran expuestos de forma abierta, sino que deben ser consultados explícitamente.

Según los autores, este modelo permitiría mostrar contenido formateado para humanos o datos estructurados para bots, dependiendo de cómo se identifique el visitante. Además de dificultar el scraping indiscriminado, habilitaría esquemas de monetización más flexibles, en los que el valor se intercambia de manera clara y estructurada.

El texto menciona que este tipo de transacciones automatizadas ya se está explorando en el ecosistema publicitario mediante protocolos diseñados para estandarizar la compra y venta de anuncios por parte de agentes de IA. Estos desarrollos ofrecen un antecedente concreto de cómo podrían funcionar los intercambios agente a agente en otros ámbitos del ecosistema informativo.

Ambas arquitecturas, concluyen, no eliminarán por completo el scraping, pero pueden generar incentivos para que las empresas opten por canales más eficientes, seguros y mutuamente beneficiosos. En la medida en que estos canales ofrezcan mayor calidad de datos y mejores oportunidades de monetización estructurada, el acceso abierto a la web dejará de ser la vía preferida para los sistemas de IA.

En última instancia, permitir que bots y humanos accedan a los datos a través de los mismos canales ya no es sostenible. El desafío consiste en pasar de un paradigma de vulnerabilidad por defecto a uno de intercambio intencional basado en el valor, capaz de sostener un ecosistema participativo en la era de la IA.

Experiencia de usuario e innovación en modelos de negocio

Ninguna nueva arquitectura tecnológica logrará consolidarse si no ofrece una mejor experiencia para todos los actores involucrados, no solo para los proveedores de contenido, sino también para las plataformas de IA, las aplicaciones y, especialmente, para los usuarios finales. En este punto, subrayan que cualquier cambio estructural en la forma en que circula el contenido debe traducirse en beneficios claros y tangibles en términos de usabilidad, acceso y valor percibido.

Para ilustrar este argumento, el artículo recurre a precedentes históricos vinculados a la evolución de los mercados de música y video en línea. Estos sectores atravesaron procesos similares de tensión entre acceso abierto, uso no autorizado y posterior reorganización de modelos de negocio sostenibles. En sus primeras etapas, tanto el video como la música circularon en entornos marcados por la informalidad y la ausencia de licencias claras.

En el caso del video, recuerdan que el uso inicial de las videograbadoras, diseñadas originalmente para grabar emisiones televisivas, derivó en prácticas de copia y distribución masiva entre usuarios. La industria intentó frenar estas dinámicas mediante acciones legales, pero con el tiempo optó por un camino distinto y comenzó a comercializar contenido grabado de manera formal.

Con la expansión de internet, el patrón se repitió. Plataformas como YouTube alojaron grandes volúmenes de contenido protegido por derechos de autor, ya fuera de forma directa o como parte de producciones generadas por usuarios. Frente a las demandas y solicitudes de retirada, Google propuso un cambio de enfoque: monetizar ese contenido en lugar de eliminarlo. Este giro resultó clave para transformar un conflicto en una oportunidad de mercado.

Un recorrido similar se observa en la industria musical. Tras el auge inicial de servicios de intercambio entre pares como Napster, el cierre de estas plataformas no eliminó la circulación no autorizada de música en línea. Lo que realmente modificó el comportamiento de los usuarios, fue la aparición de alternativas legales más simples y atractivas, como iTunes primero y, más tarde, los servicios de streaming por suscripción.

Estos cambios no ocurrieron de manera inmediata ni coordinada. Fueron el resultado de un proceso gradual de innovación tecnológica, ajuste de modelos de negocio y adaptación de los hábitos de consumo. Para los autores, la economía de la IA se encuentra hoy en una etapa comparable, en la que todavía se están explorando las combinaciones adecuadas entre tecnología, incentivos económicos y experiencia de usuario.

Establecer normas

A partir de este análisis, los autores aclaran que no proponen la regulación como la única respuesta a los desafíos actuales. Si bien reconocen que el sistema legal cumple un rol importante, sostienen que las soluciones más duraderas surgen de la interacción entre arquitectura técnica, modelos de mercado y normas sociales compartidas.

Retomando las ideas de Lawrence Lessig, explican que el código y la arquitectura de los sistemas funcionan, en la práctica, como una forma de regulación. Diferentes diseños técnicos habilitan distintos tipos de mercados y comportamientos. En el contexto actual, los bots de IA explotan una arquitectura web que fue concebida para otros fines y que ya no responde plenamente a las necesidades de un ecosistema basado en el intercambio automatizado de datos a gran escala.

Sin embargo, además de la regulación y la tecnología, las normas corporativas y sociales son determinantes. En su análisis, la carrera por desarrollar sistemas de IA cada vez más avanzados ha llevado a muchos laboratorios de frontera a relegar la discusión sobre derechos de autor, atribución y compensación a los creadores de contenido. La prioridad se centró en resolver problemas técnicos como el rendimiento, los sesgos o las alucinaciones, mientras que las cuestiones de derechos se consideraron secundarias.

Esta lógica, advierten, no es neutra. Cuando las empresas líderes adquieren datos a través de proveedores que eluden muros de pago o recurren a prácticas opacas, establecen una norma implícita que legitima ese comportamiento. En cambio, cuando optan por contenido licenciado y por acuerdos transparentes con los titulares de derechos, envían una señal clara al mercado sobre qué prácticas son aceptables.

Compañías como OpenAI, Anthropic y Google tienen una responsabilidad particular en este proceso. Por su posición dominante, sus decisiones contribuyen a definir estándares de facto para todo el ecosistema. Establecer normas que respeten los derechos de los creadores no solo es una cuestión ética, sino también una condición necesaria para habilitar un mercado participativo y sostenible en el largo plazo.

Aun así, el artículo enfatiza que las normas rara vez se imponen únicamente desde el discurso. En muchos casos, deben ser inducidas por la propia arquitectura del mercado, combinando incentivos que faciliten el acceso formal a los datos con sanciones que desincentiven las prácticas ilegales o abusivas.

Conclusión

La economía de la IA todavía se encuentra en una fase temprana de desarrollo. Esta etapa inicial, lejos de ser un obstáculo, representa una oportunidad para diseñar un mercado que fomente la innovación sin reproducir dinámicas puramente extractivas. Para avanzar en esa dirección, sostienen que será necesario actuar en varios frentes de manera simultánea. Esto incluye el desarrollo de nuevos protocolos y mecanismos técnicos para el intercambio de contenidos y servicios, el diseño de interfaces que mejoren la experiencia de los usuarios, la creación de modelos de negocio que generen incentivos económicos claros para los creadores y la consolidación de normas sociales que refuercen el respeto por los límites y acuerdos establecidos.

Los autores reconocen que se trata de un desafío complejo y que no existe una solución inmediata. Es probable, afirman, que el ecosistema atraviese una etapa prolongada de prueba y error antes de alcanzar un equilibrio funcional. Sin embargo, advierten que evitar el problema o posponer las decisiones solo profundizará las tensiones actuales entre plataformas de IA y proveedores de contenido. El objetivo no debe ser simplemente acelerar el desarrollo de la IA, sino construir una economía participativa que distribuya el valor entre quienes contribuyen al sistema. Solo así, será posible garantizar que el avance tecnológico beneficie a un conjunto amplio de actores y no únicamente a quienes controlan las infraestructuras más poderosas.

Otras noticias

Image
Imagen

Así se transforma la publicidad en los medios de información europeos

Earl J. Wilkinson, director ejecutivo de INMA, plantea que la publicidad en los medios de información europeos atraviesa un proceso de reinvención, impulsado por la tecnología, los datos y la necesidad de reconstruir la confianza con las audiencias.

Image
Imagen

La industria del contenido avanza hacia un modelo centrado en el marketing

Doug Shapiro explora cómo la rápida expansión de la IA generativa podría llevar a que los medios produzcan contenidos que funcionen menos como negocio y más como estrategia. La caída en los costos de creación estaría reubicando el verdadero valor en otros elementos del ecosistema.

Image
Imagen

Imprint: La apuesta de NZME por el poder del impreso

Kat Blackburn presentó la estrategia que New Zealand Media and Entertainment está usando para revitalizar la publicidad impresa, una competencia que invita a las agencias a redescubrir el valor del papel en los medios de información.