jueves, diciembre 18, 2025
  • aplicación banner 970x90

OpenAI transcribió un millón de horas de videos de Youtube para entrenar GPT-4, dice New York Times

  • aplicación - banner 728x90

OpenAI creó un programa para transcribir más de un millón de horas de videos de Youtube con el objetivo de entrenar el modelo de generación de texto GPT-4, su modelo más avanzado abierto al público, según una exclusiva de The New York Times (NYT) publicada este sábado.

El diario asegura que OpenAI, una empresa sin ánimo de lucro, desarrolló un programa bautizado como 'Whisper' que extrajo texto de más de un millón de horas en videos para obtener datos de entrenamiento de modelos de generación de lenguaje, conocidos como LLM.

Las fuentes consultados por el NYT aseguran que el equipo encargado de Whisper incluía a Greg Brockman, presidente de OpenAI.

Leer: El Gobierno de los talibanes restringirá el uso de Facebook en Afganistán

La empresa mantuvo un debate interno sobre si la extracción de texto de los vídeos alojados en la plataforma propiedad de Google suponían una violación de términos de uso.

Según el artículo, OpenAI consideró que necesitaba más datos de entrenamiento en 2021 y discutió si obteneros de Youtube, podcast o audiolibros.

En una reciente entrevista el consejero ejecutivo de YouTube, Neal Mohan, aseguró que si OpenAI ha usado vídeos de la plataforma para entrenar 'Sora', su modelo de generación de vídeos realistas, estaría violando sus términos de servicio.

"Los creadores de contenido que vienen a Youtube tienen ciertas expectativas, entre ellas que los términos de servicio se cumplen. Nuestros términos permiten extraer cierto contenido como el título, el nombre de canal o el nombre del creador para facilitar la web abierta", explicó Mohan.

"No está permitido descargar las transcripciones o partes de los videos. Eso es una violación clara de nuestro términos de contenido", añadió el directivo.

La portavoz de OpenAI Lindsay Held indicó en una respuesta a la exclusiva obtenida por The Verge que la compañía crea bases de datos "únicas" y utiliza "numerosas fuentes disponibles públicamente y realiza acuerdos para obtener dato que no es público".

Google transcribe los videos de Youtube para obtener texto para alimentar a sus modelos de generación de texto, algo que violaría los derechos de los creadores que suben sus videos a la plataforma, según fuentes consultadas por el diario.

Los derechos sobre el contenido usado para entrenar modelos de Inteligencia Artificial aún no están bien definidos y la competitividad para conseguir los mejores modelos de generación de contenido realista está llevando a empujar las fronteras de la legalidad en derechos de autor.

El gigante tecnológico Meta, creador de Facebook, debatió el año pasado si comprar la editorial Simon & Schuster para obtener acceso a su material de largo formato, según el contenido de reuniones entre gerentes, abogados e ingenieros de la compañía a los que tuvo acceso el NYT.

En el foco

  • APlicación banner 300x250

  • comisionn de energia banner diciambre 2025

  • OBRAS PUBLICAS 300X250

Explora más

ChatGPT gana relevancia como nuevo campo de batalla de la desinformación

Madrid/Bogotá.- En una escena propia de una serie distópica, en 2025 hemos visto cómo una empresa ha llegado a un acuerdo millonario con un país, Israel, para manipular las respuestas de ChatGPT, una muestra mercantil de una tendencia de la desinformación en alza, como han evidenciado varias investigaciones este año. Se trata de una nueva […]

Cohete Ariane 6 lanza desde la Guayana dos nuevos satélites del sistema Galileo

Un cohete Ariane 6 de la Agencia Espacial Europea (ESA) ha despegado desde el puerto espacial de la Guayana Francesa con dos nuevos satélites a bordo que se sumarán a la constelación Galileo y que aportarán una mayor robustez al programa europeo de navegación, que presta servicio a más de la mitad de la población […]

Fabio Capocchi, director general de Motorola para EMEA, sobre la evolución de la marca: “El reto ha sido no ser un ‘copy paste’ de...

Cuando piensas en Motorola, ¿qué te viene a la cabeza? Es fácil que aparezcan piezas que marcaron época, desde el StarTAC hasta el Razr V3, o incluso aquel intento de recuperar la experiencia premium con el Razr plegable de 2019. Ese legado sigue vivo, aunque no siempre ha ido acompañado de una percepción alineada con las marcas que dominan la gama […]

OpenAI lanza GPT-5.2 semanas después de GPT-5.1: una maniobra que apunta a recortar terreno frente al Gemini 3 de Google

En la carrera por liderar el desarrollo de la inteligencia artificial, el ritmo se ha convertido en una sucesión de movimientos encadenados. El 12 de noviembre llegaba GPT-5.1, una actualización orientada a pulir la experiencia y mantener satisfechos a los usuarios. Apenas unos días más tarde, el 18 de noviembre, Google respondía con Gemini 3, una evolución […]

El Instituto de Física de Cantabria celebra 30 años

Santander.- El Instituto de Física de Cantabria (IFCA) celebra su 30 aniversario como un centro de referencia mundial que ha conseguido situarse a la cabeza en su campo desde la periferia y ahora se enfrenta al reto de seguir creciendo. La presidenta de Cantabria, María José Sáenz de Buruaga, ha abierto los actos del aniversario […]

País Posible continúa ciclo del Congreso Partidario Juan Pablo Duarte con jornada juvenil sobre inteligencia artificial

Santo Domingo. – En el marco del 2do Congreso Partidario Juan Pablo Duarte, la Secretaría de la Juventud de País Posible llevó a cabo este miércoles la conferencia “Jóvenes del futuro: entendiendo la IA”, una actividad enfocada en preparar a las nuevas generaciones del partido para los desafíos de la era digital. La jornada, celebrada […]
  • APlicación banner 300x250