23 de Abril de 2024
El periodista Kyle Wiggers cuenta, en un artículo para Techcrunch, que a pesar de que la batalla legal de OpenAI con The New York Times por los datos para entrenar sus modelos de IA podría estar aún en curso, OpenAI está avanzando en acuerdos con otros editores, incluidos algunos de los más grandes de Francia y España.
En marzo, OpenAI anunció que firmó contratos con Le Monde y Prisa Media para llevar contenido de noticias en francés y español al chatbot Chat GPT y dijo que esta asociación pondrá la cobertura de medios como El País, Cinco Días, As y El Huffington Post, frente a sus usuarios y contribuirá al volumen, cada vez mayor, de datos de entrenamiento de OpenAI.
"En los próximos meses, los usuarios de ChatGPT podrán interactuar con contenido de noticias relevante de estos editores a través de resúmenes selectos con atribución y enlaces mejorados a los artículos originales, lo que les dará a los usuarios la capacidad de acceder a información adicional o a artículos relacionados de sus sitios de noticias. Estamos continuamente mejorando ChatGPT y apoyando el papel esencial de la industria de las noticias en la entrega de información autorizada en tiempo real a los usuarios", declaró OpenAI.
Wiggers explica que, hasta ahora, OpenAI ha revelado acuerdos con algunos proveedores de contenido y hace un balance de estos:
- Biblioteca de medios de stock Shutterstock (para imágenes, videos y datos de entrenamiento de música)
- The Associated Press
- Axel Springer (propietario de Político y Business Insider, entre otros)
- Le Monde
- Prisa Media
¿Pero cuánto le está pagando OpenAI a cada uno? El autor propone un estimado: The Information reportó en enero que OpenAI estaba ofreciendo a los editores entre 1 y 5 millones de dólares al año para acceder a archivos para entrenar sus modelos GenAI, entonces en cuanto a la licencia de artículos, asumiendo que el informe de The Information es preciso y esas cifras no han cambiado desde entonces, se puede estimar que OpenAI está desembolsando entre 4 y 20 millones de dólares al año por el acceso a noticias.
Según Wiggers, la cantidad de dinero que OpenAI está pagando a los editores no representa un gasto considerable para la compañía, especialmente considerando que OpenAI tiene una reserva de más de 11 mil millones de dólares y sus ingresos anuales superan los 2 mil millones de dólares (según Financial Times). Pero como recientemente reflexionó Hunter Walk, socio de Homebrew y cofundador de Screendoor, es una cantidad lo suficientemente sustancial como para potencialmente dejar atrás a los competidores que también están buscando acuerdos de licencia con editores.
"Si la experimentación está limitada por cifras de nueve dígitos en acuerdos de licencia, le estamos haciendo un mal servicio a la innovación. Los cheques que se están emitiendo a los 'propietarios' de la información están creando una gran barrera de entrada para los competidores. Si Google, OpenAI y otras grandes empresas tecnológicas pueden establecer un costo lo suficientemente alto, implícitamente evitan la competencia futura", dijo Walk.
Ahora, si hay una barrera de entrada hoy en día es discutible. Muchos de los proveedores de IA, si no la mayoría, han optado por arriesgarse a la ira de los titulares sobre propiedad intelectual, optando por no licenciar los datos con los que están entrenando sus modelos de IA. Por ejemplo, hay evidencia de que la plataforma generadora de arte Midjourney está entrenando con imágenes de películas de Disney y Midjourney no tiene un acuerdo con Disney.
La pregunta más difícil de abordar es: ¿Deberían estas licencias simplemente ser el costo de hacer negocios y experimentar en el espacio de IA? Walk argumenta que no y aboga por un "puerto seguro" impuesto por el regulador que protegería a cualquier proveedor de IA, así como a las pequeñas empresas emergentes y a los investigadores, de la responsabilidad legal siempre que cumplan con ciertos estándares de transparencia y ética.
Curiosamente, el Reino Unido recientemente intentó codificar algo similar, eximiendo el uso de minería de texto y datos para entrenamiento de IA de consideraciones de derechos de autor siempre que sea para fines de investigación. Pero esos esfuerzos terminaron fracasando.
Wiggers admite no estar de acuerdo con todo lo que Walk propone al respecto del "puerto seguro", considerando el impacto que la IA amenaza con tener en una industria de noticias ya desestabilizada. Un modelo reciente de The Atlantic descubrió que si un motor de búsqueda como Google integrara IA en la búsqueda, respondería la consulta de un usuario el 75% del tiempo sin requerir un clic en su sitio web.
“Pero tal vez haya espacio para excepciones”, dice Wiggers. Los editores deberían ser pagados, y pagados justamente. ¿No hay un resultado en el que sean pagados y al mismo tiempo los competidores de las empresas líderes de IA, así como los académicos, tengan acceso a los mismos datos que estas grandes empresas de IA? "Yo diría que sí. Las subvenciones son una forma. Capitales de riesgo más grandes son otra opción importante", agrega.
Los tribunales aún no han decidido si, y en qué medida, el uso legítimo protege a los proveedores de IA de reclamaciones de derechos de autor. "Pero es vital que aclaremos estas cosas. De lo contrario, la industria podría terminar en una situación en la que la "fuga de cerebros" académica continúe sin cesar y solo unas pocas empresas poderosas tengan acceso a vastos conjuntos de datos de entrenamiento valiosos”, concluye Wiggers.
Otras noticias
Más oportunidades que riesgos: la inteligencia artificial y los medios de información
¿Cuál es el valor del contenido? La relación entre el periodismo y la IA Generativa
Motores de búsqueda con IA Generativa ¿Se perderá el tráfico orgánico?
Competencia en la era de la IA: detener los monopolios antes de que ocurran