¿Cómo se define la autoría en el mundo de la IA Generativa?

Fuente: Pexels

04 de Diciembre de 2023

“Si colocas todo el conocimiento del mundo en un modelo de IA y lo utilizas para crear algo nuevo, ¿quién es dueño de eso y quién recibe las ganancias?”, se preguntó Benedict Evans en uno de sus últimos ensayos. Evans es un analista independiente de tecnología con más de 20 años de experiencia. En su blog y su boletín semanal analiza los temas más importantes del sector tecnológico, desde las últimas tendencias hasta las cuestiones más profundas.

El autor señala que, aunque la propiedad intelectual parece un problema completamente nuevo, lo hemos estado discutiendo durante 500 años y cada nueva ola de tecnología o de creatividad conduce a nuevos tipos de argumentos. “Inventamos derechos de interpretación para compositores y decidimos que la fotografía o 'reproducción mecánica' podía ser protegida como arte, y en el siglo XX tuvimos que decidir qué pensar sobre todo, desde la música grabada hasta el VHS y el muestreo”, señaló.

La IA generativa plantea algunas de esas preguntas de nuevas maneras, o incluso de maneras antiguas, pero también plantea algunos nuevos tipos de acertijos, los cuales Evans define como “los mejores”.

“Al estilo de”

Muy pronto tendremos aplicaciones de teléfonos inteligentes que nos permitirán reproducir cualquier canción con la voz de cualquier artista. Con esa nueva posibilidad, habrá muchas discusiones sobre quién recibirá las ganancias, pero, para este ejemplo, el tema de derechos morales se mantiene claro, incluso las discográficas ya están teniendo conversaciones con Google al respecto.

Pero ¿qué pasa si le pedimos "crea una canción al estilo de Taylor Swift" o, aún más desconcertante, "crea una canción al estilo de los éxitos pop más destacados de la última década"?

Sobre lo cual Evans argumenta: “una persona no puede imitar perfectamente otra voz (los imitadores no tienen que pagar tarifas de licencia), pero pueden escuchar mil horas de música y crear algo en ese estilo, a lo que a veces llamamos 'pastiche'. Si una persona hiciera eso, no tendría que pagar una tarifa a todos esos artistas, entonces, si usamos una computadora para lo mismo, ¿tenemos que pagarles? No creo que sepamos cómo pensar al respecto. Podemos saber lo que la ley podría decir, pero también podríamos querer cambiar eso”.

Problemas similares surgen en el arte, y también algunas interesantes diferencias culturales. Por ejemplo, si le pedimos a MidJourney que genere una imagen al estilo de un artista en particular, algunas personas consideran que esto es un robo descarado, pero si hablas con los especialistas de Christie's o Sotheby's, unas de las casas de subasta más antiguas del mundo, o paseas por las galerías del bajo Manhattan o Mayfair, la mayoría de las personas no solo estarán en desacuerdo, sino que se sentirán perplejas por la premisa: si alguien crea una imagen 'al estilo de' Cindy Sherman, no le ha robado a ella y nadie que valore a Cindy Sherman considerará esa obra como un sustituto. “Sé con cuál estoy de acuerdo, pero eso no es lo que importa. ¿Cómo llegamos a un consenso?”, cuestionó Evans.

Los Grandes Modelos de Lenguaje

El autor propone otro ejemplo, la mayoría de las personas entienden que si alguien publica un enlace a una noticia en su feed de Facebook y le dice a sus amigos que lo lean, sería absurdo que el periódico exija pago por esto. Un periódico, de hecho, no paga a un restaurante un porcentaje cuando escribe una reseña.

Pero, si alguien puede pedirle a ChatGPT que lea diez sitios web de noticias y genere un resumen de los titulares de hoy, o explique una gran historia, entonces, de repente, la queja de los periódicos se vuelve mucho más razonable, pues ahora la empresa tecnológica realmente está 'usando las noticias'. Como era de esperar, tan pronto como ChatGPT anunció que tenía su propio rastreador web, los sitios de noticias comenzaron a bloquearlo.

“Aunque, al igual que en mi ejemplo de 'hazme algo como los diez mejores éxitos', ChatGPT no estaría reproduciendo el contenido en sí mismo. Es decir, yo podría pedirle a un pasante que lea los periódicos y me dé un resumen. Y los resúmenes (en lugar de extractos) generalmente no se consideran cubiertos por los derechos de autor. De hecho, nunca se ha sugerido que mi boletín esté infringiendo los derechos de autor de los sitios web a los que enlazo”, explicó.

¿Significa eso que decidiremos que esto no es un problema? La respuesta probablemente tiene muy poco que ver con lo que la ley de hoy dice en un país u otro. Más bien, una forma de pensar en esto es que la IA logró hacer más prácticas y a una escala masiva cosas que antes solo eran posibles a pequeña escala. Como la diferencia entre que la policía lleve imágenes de personas buscadas en sus bolsillos y que la policía coloque cámaras de reconocimiento facial en cada esquina: una diferencia en escala puede ser una diferencia en el principio.

El verdadero rompecabezas intelectual, es que OpenAI ya no es abierta sobre lo que usa exactamente para entrenarse, pero ciertamente utiliza parte del Common Crawl, que es un muestreo de un porcentaje de dos dígitos de toda la web. Así que, cualquier sitio web podría estar allí. Pero los datos de entrenamiento no son el modelo. Los LLM, Large Language Model o en español, Grandes Modelos de Lenguaje, no son bases de datos. Estos deducen o infieren patrones en el lenguaje al ver cantidades vastas de texto creado por personas.

“Escribimos cosas que contienen lógica y estructura, y los LLM los examinan e infieren patrones, pero no los retienen. ChatGPT podría haber examinado mil historias del New York Times, pero no las ha conservado”, aclaró Evans. Además, el propósito no es que el LLM conozca el contenido de una historia o una novela en particular; el propósito es que vea los patrones en la producción de inteligencia humana colectiva.

Es decir, esto no es Napster. OpenAI no ha 'pirateado' nuestros libros o nuestras historias y no los está regalando gratis. De hecho, ni siquiera necesita esa historia en particular. En la gran frase de Tim O'Reilly “los datos no son petróleo; los datos son arena. Solo son valiosos en el conjunto de miles de millones”.

“Tu novela, canción o artículo es solo un grano de polvo en la Gran Pirámide. OpenAI podría volver a entrenar a ChatGPT sin ningún periódico si fuera necesario y podría no importar. Sí, podría ser menos capaz de responder preguntas detalladas sobre las mejores nuevas cafeterías de Manhattan, pero nuevamente, ese nunca ha sido el objetivo. Esto no se supone que sea un oráculo o una base de datos. Más bien, se supone que está infiriendo 'inteligencia' al ver tanto como sea posible cómo habla la gente como un sustituto de cómo piensan. Por otro lado, no necesita tu libro o sitio web en particular y no le importa lo que tú en particular hayas escrito, pero sí necesita 'todos' los libros y 'todos' los sitios web. Funcionaría si una empresa eliminara su contenido, pero no si todos lo hicieran”, argumentó.

Para Evans, si esto es una nueva tecnología fundamental para la próxima década y depende de todos nosotros actuar colectivamente para alimentarla, ¿todos recibimos pago, o nos retiramos colectivamente, o qué? Parece de alguna manera insatisfactorio argumentar que "esto vale un billón de dólares y se basa en el uso de todo nuestro trabajo, pero tu trabajo individual es solo un 0.0001%, así que no obtienes nada". ¿Es adecuado o incluso correcto llamar a esto "uso legítimo"? ¿Importa, en cualquier dirección? ¿Cambiamos nuestras leyes sobre el uso legítimo?

La herramienta no hace al artista

Todo lo anterior contempla lo que entra en el modelo de IA, ¿pero qué pasa con las cosas que salen de ella? ¿Y si alguien usa un motor entrenado en los últimos 50 años de música para hacer algo que suene completamente nuevo y original? Nadie debería estar bajo la ilusión de que esto no sucederá.

“Habiendo sugerido muchas cosas sobre las que no creo que sepamos las respuestas, hay una cosa que me parece completamente clara: estas son herramientas, y puedes usar una herramienta para hacer arte o para hacer fotos de gatos. Puedo comprar la misma cámara que Cartier-Bresson, y puedo presionar el botón y tomar una foto sin saber dibujar ni pintar, pero eso no hace al artista. El arte de la fotografía trata de dónde apuntas la cámara, qué imagen ves y cuál eliges. Nadie afirma que una máquina hizo la imagen. Asimismo, puedo presionar 'Enter' en Midjourney o ChatGPT sin ninguna habilidad, pero obtener algo bueno es igual de difícil”, declaró Evans.

El autor del texto cuenta que unas semanas atrás, en una galería de arte en Londres, vio una impresión de Durero que no era una impresión de Durero, era una copia hecha alrededor de 1506 por Raimondi, un estudiante de Rafael. Vasari, uno de los primeros historiadores del arte, contó que Durero estaba furioso y fue a los tribunales en Venecia.

“Atesoro la idea de magistrados venecianos tratando de entender cómo pensar en esto: su veredicto fue que Raimondi podía seguir haciendo las copias, pero ya no podía incluir el monograma de Durero, su logotipo. Ese fue un caso sobre propiedad intelectual, pero el veredicto es también una división elegante entre dos ideas de autenticidad y dos ideas de arte”, dijo Evans.

¿Nos importa quién lo hizo y por qué, o solo queremos la imagen? Es por eso que a algunas personas les horrorizan los generadores de música o Midjourney o, hace 150 años, se horrorizaban con las cámaras, y a otras no les preocupa en absoluto.

¿Cómo se define la autoría en el mundo de la IA Generativa?

04 de Diciembre de 2023

Otras noticias

Errores pasados, lecciones futuras en la era de la IA Generativa

Nuevas pautas sobre el uso de IA generativa para las salas de redacción

Apoyo de Asociaciones de Medios en América Latina a principios éticos para la IA Generativa

¿Cómo se define la autoría en el mundo de la IA Generativa?

04 de Diciembre de 2023

Otras noticias

​​Errores pasados, lecciones futuras en la era de la IA Generativa

Nuevas pautas sobre el uso de IA generativa para las salas de redacción

Apoyo de Asociaciones de Medios en América Latina a principios éticos para la IA Generativa

Errores pasados, lecciones futuras en la era de la IA Generativa