sábado, diciembre 20, 2025
  • aplicación banner 970x90

OpenAI transcribió un millón de horas de videos de Youtube para entrenar GPT-4, dice New York Times

  • aplicación - banner 728x90

OpenAI creó un programa para transcribir más de un millón de horas de videos de Youtube con el objetivo de entrenar el modelo de generación de texto GPT-4, su modelo más avanzado abierto al público, según una exclusiva de The New York Times (NYT) publicada este sábado.

El diario asegura que OpenAI, una empresa sin ánimo de lucro, desarrolló un programa bautizado como 'Whisper' que extrajo texto de más de un millón de horas en videos para obtener datos de entrenamiento de modelos de generación de lenguaje, conocidos como LLM.

Las fuentes consultados por el NYT aseguran que el equipo encargado de Whisper incluía a Greg Brockman, presidente de OpenAI.

Leer: El Gobierno de los talibanes restringirá el uso de Facebook en Afganistán

La empresa mantuvo un debate interno sobre si la extracción de texto de los vídeos alojados en la plataforma propiedad de Google suponían una violación de términos de uso.

Según el artículo, OpenAI consideró que necesitaba más datos de entrenamiento en 2021 y discutió si obteneros de Youtube, podcast o audiolibros.

En una reciente entrevista el consejero ejecutivo de YouTube, Neal Mohan, aseguró que si OpenAI ha usado vídeos de la plataforma para entrenar 'Sora', su modelo de generación de vídeos realistas, estaría violando sus términos de servicio.

"Los creadores de contenido que vienen a Youtube tienen ciertas expectativas, entre ellas que los términos de servicio se cumplen. Nuestros términos permiten extraer cierto contenido como el título, el nombre de canal o el nombre del creador para facilitar la web abierta", explicó Mohan.

"No está permitido descargar las transcripciones o partes de los videos. Eso es una violación clara de nuestro términos de contenido", añadió el directivo.

La portavoz de OpenAI Lindsay Held indicó en una respuesta a la exclusiva obtenida por The Verge que la compañía crea bases de datos "únicas" y utiliza "numerosas fuentes disponibles públicamente y realiza acuerdos para obtener dato que no es público".

Google transcribe los videos de Youtube para obtener texto para alimentar a sus modelos de generación de texto, algo que violaría los derechos de los creadores que suben sus videos a la plataforma, según fuentes consultadas por el diario.

Los derechos sobre el contenido usado para entrenar modelos de Inteligencia Artificial aún no están bien definidos y la competitividad para conseguir los mejores modelos de generación de contenido realista está llevando a empujar las fronteras de la legalidad en derechos de autor.

El gigante tecnológico Meta, creador de Facebook, debatió el año pasado si comprar la editorial Simon & Schuster para obtener acceso a su material de largo formato, según el contenido de reuniones entre gerentes, abogados e ingenieros de la compañía a los que tuvo acceso el NYT.

En el foco

  • APlicación banner 300x250

  • comisionn de energia banner diciambre 2025

  • OBRAS PUBLICAS 300X250

Explora más

Es oficial: Samsung presenta el Exynos 2600, su primer chip en 2nm, con 10 núcleos y una prometedora gestión térmica

Es el primer chip en 2nm de Samsung Cuenta conm 10 núcleos y Heat Path Block, un novedoso sistema de gestión térmica Mejora la gestión de la IA de su antecesor

Impacto de la IA 2026: la infraestructura TI crítica como base para un crecimiento sostenido

Redacción.- La IA es una herramienta poderosa para transformar los procesos organizacionales en todas las áreas; recursos humanos, legal, cadena de suministro, I&D, marketing, entre otros. Una encuesta de IDC muestra que más de un tercio de los líderes tecnológicos creen que la GenIA ya está alterando su negocio, y el 88 % espera que […]

Apple Music llegó a ChatGPT: cómo integrar las cuentas para usar IA

Uno de los grandes beneficios de esta incorporación es la capacidad para abordar búsquedas complejas, como explorar música instrumental, óperas o listas temáticas muy específicas

ChatGPT gana relevancia como nuevo campo de batalla de la desinformación

Madrid/Bogotá.- En una escena propia de una serie distópica, en 2025 hemos visto cómo una empresa ha llegado a un acuerdo millonario con un país, Israel, para manipular las respuestas de ChatGPT, una muestra mercantil de una tendencia de la desinformación en alza, como han evidenciado varias investigaciones este año. Se trata de una nueva […]

Cohete Ariane 6 lanza desde la Guayana dos nuevos satélites del sistema Galileo

Un cohete Ariane 6 de la Agencia Espacial Europea (ESA) ha despegado desde el puerto espacial de la Guayana Francesa con dos nuevos satélites a bordo que se sumarán a la constelación Galileo y que aportarán una mayor robustez al programa europeo de navegación, que presta servicio a más de la mitad de la población […]

Fabio Capocchi, director general de Motorola para EMEA, sobre la evolución de la marca: “El reto ha sido no ser un ‘copy paste’ de...

Cuando piensas en Motorola, ¿qué te viene a la cabeza? Es fácil que aparezcan piezas que marcaron época, desde el StarTAC hasta el Razr V3, o incluso aquel intento de recuperar la experiencia premium con el Razr plegable de 2019. Ese legado sigue vivo, aunque no siempre ha ido acompañado de una percepción alineada con las marcas que dominan la gama […]
  • APlicación banner 300x250