OpenAI, la empresa creadora de ChatGPT afirma que es “imposible” crear modelos de IA potentes sin recurrir a datos protegidos por derechos de autor. Sin embargo, un gran modelo de lenguaje “creado éticamente” y un vasto conjunto de datos de entrenamiento con textos de dominio público indican lo contrario. 

OpenAI, la empresa detrás del desarrollo de ChatGPT, ha reconocido recientemente la necesidad de utilizar material protegido por derechos de autor en la construcción de herramientas de inteligencia artificial (IA) como su chatbot, el cual gracias a este funcionamiento puede responder casi absolutamente todo lo que se le pregunte, y de temas infinitos. Esta declaración se produjo durante una comparecencia ante la comisión digital y de comunicaciones de la Cámara de los Lores del Reino Unido sobre los grandes modelos de lenguaje, en donde OpenAi señaló que sería “imposible” que existieran sin ese material. 

Imagen: Repsol

Funcionamiento de ChatGPT

ChatGPT obtiene sus habilidades a través de sesiones de entrenamiento alimentadas, en cierta medida, por grandes cantidades de contenido extraído del internet público sin el permiso de los titulares de los derechos, en donde gran parte del material de entrenamiento cuenta con licencia, y aquí es donde radica este gran problema. Este tipo de extracción de datos de la web es una práctica común en la investigación académica del aprendizaje automático, pero debido a la reciente comercialización de los modelos de IA de aprendizaje profundo, esta práctica pasó a ser objeto de una intensa investigación.  

“Dado que hoy en día los derechos de autor cubren prácticamente todo tipo de expresión humana, incluidas entradas de blog, fotografías, mensajes de foros, fragmentos de código de software y documentos gubernamentales, sería imposible entrenar los principales modelos de IA actuales sin recurrir a materiales protegidos”, planteó OpenAI en la presentación ante la Cámara de los Lores, excusándose de lo que el software de ChatGPT debe realizar para poder existir.  

Esta declaración se produce como resultado de una demanda presentada en diciembre del año pasado por The New York Times contra OpenAI y Microsoft, un importante inversor en la empresa detrás de ChatGPT. La demanda alegaba el uso supuestamente ilegal del contenido del periódico en sus productos, según lo informado por ArsTechnica.  

Sin embargo, la postura de OpenAI de defenderse planteando que no sería posible existir sin recurrir a materiales protegidos por derechos de autor es una posición común en el ámbito de la IA, donde esta empresa y otros actores clave utilizan contenido de internet para preparar y desarrollar los modelos que alimentan los chatbots y generadores de imágenes, desencadenando así una serie de demandas por infringir la propiedad intelectual. 

Imagen: ICCSI

¿Realmente la IA siempre infringirá los derechos de autor?

Pero en la que pareciera una interminable disputa no está todo perdido, y es que según lo expuesto por Wired, Common Corpus, un equipo de investigadores respaldados por el gobierno francés ha publicado lo que se considera el conjunto de datos de entrenamiento de IA más grande hasta la fecha, compuesto exclusivamente por textos de dominio público. Además, la organización sin ánimo de lucro Fairly Trained ha otorgado su primera certificación a un modelo de lenguaje de gran tamaño construido sin infringir derechos de autor. 

Fairly Trained es una empresa que proporciona una certificación a las empresas que demuestran haber entrenado sus modelos de IA con datos que poseen, han licenciado o que están en el dominio público. La primera certificación de este tipo ha sido concedida a KL3M, un modelo de lenguaje de gran tamaño desarrollado por la startup de consultoría legal 273 Ventures. 

Ventures entrenó a KL3M utilizando un conjunto de datos de entrenamiento compuesto por documentos legales, financieros y regulatorios. Esta elección fue en respuesta a la cautela de sus clientes, como bufetes de abogados, que buscaban utilizar la IA generativa para tareas como resumir documentos legales y redactar contratos, pero querían evitar posibles disputas sobre propiedad intelectual. 

Jillian Bommarito, cofundadora de la empresa, explica a Wired que la decisión de entrenar a KL3M de esta manera surgió de la cautela de sus clientes, especialmente los despachos de abogados. Estos clientes, descritos como “reacios al riesgo”, estaban preocupados por la procedencia de los datos y necesitaban estar seguros de que los resultados no se basaban en información comprometida. Bommarito subraya que su empresa no se ampara en el concepto de “uso justo”. Los clientes estaban interesados en utilizar la IA generativa para tareas como resumir documentos legales y redactar contratos, pero querían evitar ser arrastrados a disputas legales sobre propiedad intelectual, como ha sucedido con otras empresas como OpenAI y Stability AI.  

Sumado a esto, recientemente también se anunció el lanzamiento de lo que se considera el conjunto de datos de IA más grande disponible para modelos de lenguaje, compuesto exclusivamente por contenido de dominio público. Denominado Common Corpus, esta colección de texto tiene aproximadamente el mismo tamaño que los datos utilizados para entrenar el modelo de generación de texto de ChatGPT de OpenAI. El conjunto de datos se construyó utilizando fuentes como periódicos de dominio público digitalizados por la Biblioteca del Congreso de EE.UU. y la Biblioteca Nacional de Francia.  

Estos avances podrían representar un cambio significativo en la forma en que se entrenan los modelos de IA, alejándose de la dependencia de materiales con derechos de autor y abriendo nuevas posibilidades para el desarrollo de la inteligencia artificial.