Informe revela que modelos de OpenAI se entrenaron con más de un millón de horas de vídeos de YouTube

Un nuevo informe acusa a OpenAI y Google de haber raspado más de un millón de horas de vídeos de YouTube para entrenar sus modelos de lenguaje de gran escala como ChatGPT, violando potencialmente los derechos de autor de los creadores.

Según un informe reciente de The New York Times, algunos de los gigantes tecnológicos más importantes han estado utilizando transcripciones de vídeos de YouTube para entrenar sus potentes modelos de lenguaje de inteligencia artificial, violando potencialmente los derechos de autor de los creadores.

La historia alega que OpenAI utilizó su herramienta de reconocimiento de voz Whisper para transcribir más de un millón de horas de contenido de YouTube. Esas transcripciones luego se alimentaron en GPT-4, el modelo de IA que potencia ChatGPT Plus, como datos de entrenamiento.

OpenAI no es la única acusada de esta minería de datos de YouTube. El informe sostiene que había equipos en Google haciendo lo mismo, raspando vídeos de YouTube para construir conjuntos de datos para sus propios modelos de lenguaje de gran escala como Bard/Gemini. Un portavoz de Google admitió a la publicación que el “raspado o descarga no autorizados de contenido de YouTube” va en contra de sus políticas.

Pero el informe sugiere que Google podría haber hecho la vista gorda al robo de transcripciones de YouTube por parte de OpenAI porque ellos estaban haciendo cosas similares. Alegadamente, Google sabía lo que OpenAI estaba haciendo pero no presentó objeciones ya que ellos también estaban utilizando datos de YouTube para entrenar su IA.

Ambas compañías habrían alcanzado límites en la cantidad de datos de entrenamiento útiles que podían encontrar de fuentes más convencionales como libros, sitios web y bases de datos. Por ejemplo, OpenAI agotó suministros útiles ya en 2021. Por lo tanto, estas compañías comenzaron a buscar en nuevos flujos de datos como vídeos y podcasts.

Google incluso habría cambiado el lenguaje de su política de datos el año pasado en julio para expandir lo que podía hacer con los datos de los consumidores, incluyendo herramientas como Google Docs.

OpenAI y Google han defendido sus prácticas, alegando que solo usan datos públicos o contenido donde tienen permiso. Pero las acusaciones plantean algunas preguntas espinosas sobre el uso justo, los derechos de autor y la privacidad de los datos.