Artwork

Innhold levert av Choses à Savoir. Alt podcastinnhold, inkludert episoder, grafikk og podcastbeskrivelser, lastes opp og leveres direkte av Choses à Savoir eller deres podcastplattformpartner. Hvis du tror at noen bruker det opphavsrettsbeskyttede verket ditt uten din tillatelse, kan du følge prosessen skissert her https://no.player.fm/legal.
Player FM - Podcast-app
Gå frakoblet med Player FM -appen!

GPT-4 : des millions d’heures de vidéo YouTube pour entraîner l’IA ?

2:11
 
Del
 

Manage episode 411788898 series 2709331
Innhold levert av Choses à Savoir. Alt podcastinnhold, inkludert episoder, grafikk og podcastbeskrivelser, lastes opp og leveres direkte av Choses à Savoir eller deres podcastplattformpartner. Hvis du tror at noen bruker det opphavsrettsbeskyttede verket ditt uten din tillatelse, kan du følge prosessen skissert her https://no.player.fm/legal.

Si les systèmes d'intelligence artificielle comme ChatGPT nous semblent si exceptionnels aujourd’hui, c'est en essentiellement parce qu’ils ont ingéré durant plusieurs années des quantités astronomiques de données, pour pouvoir s'entraîner. Problème, ces données ne sont pas toujours du domaine public, bien au contraire, et depuis plusieurs mois, on ne cesse de voir fleurir des scandales mêlant l’IA et la violation du droit d’auteur. D’ailleurs, les IA auraient récemment fini de siphonner les données écrites à disposition sur internet, et se tourneraient désormais vers un autre format : la vidéo, notamment sur Youtube !


Ce n’est pas pour rien que le New-York Times, journal américain renommé, est depuis de nombreux mois en conflit ouvert avec OpenAI. Ainsi, dans une nouvelle enquête à charge contre l’entreprise de Sam Altman, le média révèle qu'OpenAI aurait récupéré près d'1 million d'heures de vidéos YouTube afin de développer son modèle de langage GPT-4. Pour ce faire, l'entreprise californienne aurait utilisé son outil Whisper, qui permet notamment de transcrire des audios et des vidéos en texte, pour récupérer les contenus sous format texte, pouvant ensuite être ingérés par GPT-4. Car comme le précise un autre journal bien connu, le Wall Street Journal, les entreprises spécialisées dans l'IA seraient en ce moment à court de données de qualité pour améliorer leurs systèmes.


De son côté, le New York Times estime qu'OpenAI était arrivé au bout de données de qualité disponibles pour ses IA dès 2021. À cette époque, des discussions auraient déjà vu le jour sur la possibilité de se tourner vers d’autres ressources telles que les vidéos, les audiobooks ou encore les podcasts, ce que la firme a visiblement fait en se tournant vers Youtube. D’après le sire spécialisé The Verge qui a contacté Google, la maison mère de YouTube aurait eu vent je cite de « rapports non confirmés indiquant une activité d'OpenAI sur sa plateforme » fin de citation. Le porte-parole Matt Bryant a par ailleurs tenu à rappeler je cite que « les fichiers robots.txt et les conditions d'utilisation interdisent le scraping ou le téléchargement non autorisé du contenu de YouTube » fin de citation. Est-ce à dire qu’Open AI pourrait se retrouver devant la justice, mais cette fois dans un procès contre Google ?



Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

  continue reading

1239 episoder

Artwork
iconDel
 
Manage episode 411788898 series 2709331
Innhold levert av Choses à Savoir. Alt podcastinnhold, inkludert episoder, grafikk og podcastbeskrivelser, lastes opp og leveres direkte av Choses à Savoir eller deres podcastplattformpartner. Hvis du tror at noen bruker det opphavsrettsbeskyttede verket ditt uten din tillatelse, kan du følge prosessen skissert her https://no.player.fm/legal.

Si les systèmes d'intelligence artificielle comme ChatGPT nous semblent si exceptionnels aujourd’hui, c'est en essentiellement parce qu’ils ont ingéré durant plusieurs années des quantités astronomiques de données, pour pouvoir s'entraîner. Problème, ces données ne sont pas toujours du domaine public, bien au contraire, et depuis plusieurs mois, on ne cesse de voir fleurir des scandales mêlant l’IA et la violation du droit d’auteur. D’ailleurs, les IA auraient récemment fini de siphonner les données écrites à disposition sur internet, et se tourneraient désormais vers un autre format : la vidéo, notamment sur Youtube !


Ce n’est pas pour rien que le New-York Times, journal américain renommé, est depuis de nombreux mois en conflit ouvert avec OpenAI. Ainsi, dans une nouvelle enquête à charge contre l’entreprise de Sam Altman, le média révèle qu'OpenAI aurait récupéré près d'1 million d'heures de vidéos YouTube afin de développer son modèle de langage GPT-4. Pour ce faire, l'entreprise californienne aurait utilisé son outil Whisper, qui permet notamment de transcrire des audios et des vidéos en texte, pour récupérer les contenus sous format texte, pouvant ensuite être ingérés par GPT-4. Car comme le précise un autre journal bien connu, le Wall Street Journal, les entreprises spécialisées dans l'IA seraient en ce moment à court de données de qualité pour améliorer leurs systèmes.


De son côté, le New York Times estime qu'OpenAI était arrivé au bout de données de qualité disponibles pour ses IA dès 2021. À cette époque, des discussions auraient déjà vu le jour sur la possibilité de se tourner vers d’autres ressources telles que les vidéos, les audiobooks ou encore les podcasts, ce que la firme a visiblement fait en se tournant vers Youtube. D’après le sire spécialisé The Verge qui a contacté Google, la maison mère de YouTube aurait eu vent je cite de « rapports non confirmés indiquant une activité d'OpenAI sur sa plateforme » fin de citation. Le porte-parole Matt Bryant a par ailleurs tenu à rappeler je cite que « les fichiers robots.txt et les conditions d'utilisation interdisent le scraping ou le téléchargement non autorisé du contenu de YouTube » fin de citation. Est-ce à dire qu’Open AI pourrait se retrouver devant la justice, mais cette fois dans un procès contre Google ?



Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

  continue reading

1239 episoder

Alle episoder

×
 
Loading …

Velkommen til Player FM!

Player FM scanner netter for høykvalitets podcaster som du kan nyte nå. Det er den beste podcastappen og fungerer på Android, iPhone og internett. Registrer deg for å synkronisere abonnement på flere enheter.

 

Hurtigreferanseguide

Copyright 2024 | Sitemap | Personvern | Vilkår for bruk | | opphavsrett