Google Search utilise le contenu des éditeurs même après leur refus d’entraînement IA
Google fait face à une controverse concernant l’utilisation des contenus des éditeurs pour entraîner ses intelligences artificielles (IA), notamment dans le cadre de ses produits de Google Search. Malgré les demandes explicites des éditeurs d’exclure leurs contenus des bases d’entraînement IA, il semblerait que ces contenus restent exploités par certaines fonctions du géant technologique.
Différence de politique entre DeepMind et Search
Lors d’un témoignage dans le cadre du procès antitrust intenté par le Département de la Justice des États-Unis, un dirigeant de Google DeepMind a révélé que les règles de respect du choix des éditeurs qui optent pour le refus d’utilisation de leurs contenus dans l’entraînement d’IA sont distinctes entre les modèles développés par DeepMind et les produits liés à Google Search.
En effet, alors que les modèles IA de DeepMind ne prendraient pas en compte les contenus d’éditeurs ayant choisi le refus, les produits Search eux, continueraient à utiliser ces données tant que celles-ci sont accessibles via l’indexation web. Cette distinction est liée à un mécanisme différent de gestion des données, qui dépend notamment du standard web robots.txt.
L’impact des limitations techniques sur les éditeurs
Concrètement, pour empêcher Google Search d’exploiter leurs contenus, les éditeurs doivent désactiver le fichier robots.txt, ce qui empêche l’indexation de leurs pages dans les résultats de recherche Google. Une telle démarche a un coût important car elle repose sur l’acceptation de ne plus apparaître dans les résultats de recherche, ce qui réduit leur visibilité et leur trafic.
Par conséquent, la politique d’opt-out classique ne suffit pas pour protéger leurs contenus contre l’utilisation dans les outils IA liés à la recherche Google, notamment dans des modèles comme Gemini qui alimentent les fonctionnalités d’aperçu IA ou le mode IA récemment lancé.
Un débat au cœur d’un procès antitrust majeur
Le cas survient alors que Google est au centre d’une enquête pour abus de position dominante dans le secteur de la recherche et de l’IA. Le gouvernement américain cherche à contrer ce monopole, en allant jusqu’à demander la vente du navigateur Chrome et la mise en commun des données utilisées pour le moteur de recherche.
Il est cependant à noter que cette demande ne s’étend pas actuellement aux produits d’IA. Ce dossier illustre bien les enjeux liés à la protection des contenus originaux face aux technologies d’intelligence artificielle toujours plus intégrées dans les services en ligne.
En résumé, les éditeurs sont confrontés à un dilemme complexe : préserver leurs contenus de l’entraînement IA implique de renoncer à la visibilité offerte par Google Search. L’utilisation massive de données publiques par Google pour entraîner ses modèles soulève ainsi d’importantes questions éthiques et juridiques sur la propriété intellectuelle et la stratégie commerciale des géants du numérique.
👉 Source ici