La rareté des données de formation de l'IA n'est pas le problème qu'on prétend être
En bref Les inquiétudes concernant une pénurie de données pour la formation des modèles d’IA augmentent, mais l’Internet public offre de vastes sources de données en constante expansion, ce qui rend peu probable que l’IA soit un jour confrontée à une véritable pénurie de données.
Les modèles d'intelligence artificielle actuels sont capables de réaliser des prouesses. On dirait presque qu'ils possèdent des pouvoirs magiques, mais bien sûr, ce n'est pas le cas. Plutôt que d'utiliser des tours de magie, les modèles d'IA fonctionnent avec des données – des quantités astronomiques de données.
Mais on craint de plus en plus que la rareté de ces données n'entraîne un essoufflement du rythme rapide d'innovation de l'IA. Ces derniers mois, plusieurs avertissements des experts affirmant que le monde est en train d’épuiser les réserves de nouvelles données pour former la prochaine génération de modèles.
Le manque de données constituerait un défi majeur pour le développement de modèles linguistiques de grande envergure, moteurs des chatbots et des générateurs d'images à IA générative. Ces modèles sont entraînés sur d'énormes quantités de données, et à chaque nouvelle avancée en termes de performances, ils nécessitent toujours plus de ressources pour alimenter leurs avancées.
Ces préoccupations concernant la rareté des données de formation de l’IA ont déjà poussé certaines entreprises à rechercher des solutions alternatives, telles que l’utilisation de l’IA pour créer des données synthétiques pour la formation de l’IA. partenariat avec des entreprises de médias d’utiliser leur contenu et de déployer des appareils « Internet des objets » qui fournissent des informations en temps réel sur le comportement des consommateurs.
Cependant, il existe des raisons convaincantes de penser que ces craintes sont exagérées. Il est fort probable que le secteur de l'IA ne manquera jamais de données, car les développeurs peuvent toujours s'appuyer sur la plus grande source d'information que le monde ait jamais connue : l'Internet public.
Des montagnes de données
La plupart des développeurs d'IA puisent déjà leurs données d'entraînement sur Internet. On dit que OpenAI's GPT-3 modèle, le moteur derrière le viral ChatGPT Le chatbot, premier à avoir introduit l'IA générative au grand public, a été entraîné à partir des données de Common Crawl, une archive de contenus provenant de l'ensemble de l'Internet public. Quelque 410 milliards de jetons, soit des informations basées sur la quasi-totalité des publications en ligne jusqu'alors, ont été intégrés à l'application. ChatGPT, lui donnant les connaissances nécessaires pour répondre à presque toutes les questions que nous pouvions penser à lui poser.
Les données Web sont un terme général qui englobe pratiquement tout ce qui est publié en ligne, y compris les rapports gouvernementaux, les recherches scientifiques, les articles de presse et le contenu des réseaux sociaux. Il s'agit d'un ensemble de données incroyablement riche et diversifié, reflétant tout, de l'opinion publique aux tendances de consommation, en passant par l'état de l'économie mondiale et les contenus pédagogiques.
Internet est un terrain idéal pour les modèles d'IA, non seulement en raison de son étendue, mais aussi de son accessibilité. L'utilisation d'outils spécialisés tels que Bright Data Navigateur de grattage , il est possible de rechercher des informations à partir de millions de sites Web en temps réel pour leurs données, y compris de nombreux sites qui tentent activement d'empêcher les robots de le faire.
Grâce à des fonctionnalités telles que des solveurs Captcha, des relances automatisées, des API et un vaste réseau d'adresses IP proxy, les développeurs peuvent facilement contourner les mécanismes de blocage des robots les plus robustes utilisés sur des sites comme eBay et Facebook, et accéder à de vastes sources d'informations. La plateforme Bright Data s'intègre également aux flux de traitement des données, permettant une structuration, un nettoyage et une formation fluides à grande échelle.
On ne connaît pas précisément la quantité de données disponibles sur Internet aujourd'hui. En 2018, International Data Corp. estimait que la quantité totale de données publiées en ligne atteindre 175 zettaoctets d'ici la fin de 2025, tandis qu'un chiffre plus récent de Statista augmente cette estimation à 181 zettaoctets Il suffit de dire que c’est une montagne d’informations, et qu’elle devient exponentiellement plus grande au fil du temps.
Défis et questions éthiques
Les développeurs sont toujours confrontés à des défis majeurs lorsqu'il s'agit d'intégrer ces informations à leurs modèles d'IA. Les données web sont notoirement désordonnées et non structurées, souvent incohérentes et manquantes de valeurs. Elles nécessitent un traitement et un « nettoyage » intensifs avant d'être comprises par les algorithmes. De plus, les données web contiennent souvent de nombreux détails inexacts et non pertinents qui peuvent fausser les résultats des modèles d'IA et alimenter ce que l'on appelle des « hallucinations ».
L'extraction de données Internet soulève également des questions éthiques, notamment en ce qui concerne les contenus protégés par le droit d'auteur et la définition d'une « utilisation équitable ». Alors que des entreprises comme OpenAI Même s'ils soutiennent qu'ils devraient être autorisés à extraire toutes les informations librement disponibles en ligne, de nombreux créateurs de contenu affirment que cela est loin d'être juste, car ces entreprises profitent en fin de compte de leur travail, tout en les mettant potentiellement au chômage.
Malgré l'ambiguïté persistante quant aux données web utilisables ou non pour l'entraînement de l'IA, leur importance est indéniable. Dans le récent rapport de Bright Data sur l'état des données web publiques, 88 % des développeurs interrogés convenu que les données publiques du Web sont « essentielles » pour le développement de modèles d’IA, en raison de leur accessibilité et de leur incroyable diversité.
Cela explique pourquoi 72 % des développeurs craignent que ces données deviennent de plus en plus difficiles d’accès dans les cinq prochaines années, en raison des efforts des grandes entreprises technologiques comme Meta, Amazon et Google, qui préféreraient de loin vendre leurs données exclusivement à des partenaires d’entreprise à prix élevé.
Les arguments en faveur de l'utilisation des données Web
Les défis mentionnés ci-dessus expliquent pourquoi l'utilisation de données synthétiques comme alternative aux données disponibles en ligne suscite de nombreux débats. De fait, un débat émerge quant aux avantages des données synthétiques par rapport au scraping d'Internet, avec de solides arguments en faveur des premières.
Les partisans des données synthétiques soulignent leurs avantages, tels que la protection accrue de la vie privée, la réduction des biais et une plus grande précision. De plus, elles sont idéalement structurées dès le départ pour les modèles d'IA, ce qui évite aux développeurs d'investir des ressources dans leur reformatage et leur étiquetage corrects pour une meilleure lisibilité par les modèles d'IA.
D'un autre côté, une dépendance excessive aux ensembles de données synthétiques peut entraîner l'effondrement des modèles. Quoi qu'il en soit, nous pouvons tout aussi bien démontrer la supériorité des données web publiques. D'une part, la diversité et la richesse des données web sont incomparables, ce qui est inestimable pour entraîner les modèles d'IA devant gérer la complexité et les incertitudes des scénarios réels. Elles peuvent également contribuer à créer des modèles d'IA plus fiables, grâce à leur mélange de perspectives humaines et à leur fraîcheur, notamment lorsque les modèles peuvent y accéder en temps réel.
Dans une interview récente Or Lenchner, PDG de Bright Data, a souligné que la meilleure façon de garantir l'exactitude des résultats de l'IA est de s'approvisionner en données auprès de diverses sources publiques dont la fiabilité est établie. Lorsqu'un modèle d'IA n'utilise qu'une seule source ou quelques-unes, ses connaissances risquent d'être incomplètes, a-t-il soutenu. « Disposer de sources multiples permet de croiser les données et de constituer un ensemble de données plus équilibré et mieux représenté », a déclaré Lenchner.
De plus, les développeurs sont davantage convaincus de l'acceptabilité de l'utilisation de données importées du Web. Dans une décision judiciaire rendue l'hiver dernier, un juge fédéral statué en faveur de Bright Data, poursuivi par Meta pour ses activités de scraping web. Dans cette affaire, il a constaté que si les conditions d'utilisation de Facebook et d'Instagram interdisent aux utilisateurs disposant d'un compte de scraper leurs sites web, il n'existe aucune base légale pour interdire aux utilisateurs déconnectés d'accéder aux données publiques sur ces plateformes.
Les données publiques présentent également l'avantage d'être organiques. Dans les ensembles de données synthétiques, les cultures plus petites et les subtilités de leurs comportements sont plus susceptibles d'être omises. En revanche, les données publiques générées par des personnes réelles sont d'une authenticité irréprochable et permettent donc de générer des modèles d'IA plus performants et plus pertinents.
Pas d'avenir sans le Web
Enfin, il est important de noter que la nature de l'IA évolue également. Comme l'a souligné Lenchner, les agents d'IA jouent un rôle bien plus important dans son utilisation, contribuant à la collecte et au traitement des données destinées à l'entraînement de l'IA. L'avantage de cette approche va au-delà de la simple suppression du travail manuel fastidieux pour les développeurs, a-t-il expliqué, car la rapidité d'exécution des agents d'IA permet aux modèles d'IA d'étendre leurs connaissances en temps réel.
« Les agents d'IA peuvent transformer les secteurs d'activité en permettant aux systèmes d'IA d'accéder à des ensembles de données web en constante évolution et d'en tirer des enseignements, au lieu de s'appuyer sur des données statiques et traitées manuellement », a déclaré Lenchner. « Cela peut donner naissance à des chatbots d'IA, par exemple dans le secteur bancaire ou la cybersécurité, capables de prendre des décisions adaptées aux réalités les plus récentes. »
De nos jours, presque tout le monde est habitué à utiliser Internet en permanence. Il est devenu une ressource essentielle, nous donnant accès à des milliers de services essentiels et facilitant le travail, la communication, etc. Pour que les systèmes d'IA surpassent les capacités humaines, ils doivent accéder aux mêmes ressources, et le Web est la plus importante d'entre elles.
Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.
Vous pourriez également aimer
Wellgistics lève 50 millions de dollars de crédit pour adopter le XRP dans le réseau pharmaceutique

Les poursuites contre XRP sont sur le point d’aboutir, la SEC a conclu un accord de règlement

Ripple et la SEC se rapprochent du règlement XRP, en attendant la décision finale du juge

En vogue
PlusPrix des cryptos
Plus








