OpenAI lance son Safety Evaluations Hub pour évaluer et renforcer la sécurité de ses IA

OpenAI dévoile son Safety Evaluations Hub pour renforcer la sécurité et la fiabilité de ses IA

À l’heure où les questions d’éthique et de sécurité autour de l’intelligence artificielle (IA) occupent le devant de la scène, OpenAI met en place une nouvelle initiative majeure : le Safety Evaluations Hub. Cette plateforme vise à accroître la transparence sur les méthodes d’évaluation et les mécanismes de protection qui encadrent ses modèles d’IA.

Des évaluations adaptées à l’évolution des modèles

OpenAI explique que, face à la montée en puissance de ses modèles, les méthodes classiques d’évaluation deviennent insuffisantes pour détecter les différences notables, un phénomène nommé « saturation ». Ainsi, le Safety Evaluations Hub intègre des protocoles régulièrement mis à jour pour prendre en compte les dernières avancées technologiques et les risques émergents.

Refuser les requêtes inappropriées pour éviter les abus

Un axe central de la plateforme est la capacité des modèles à rejeter les demandes nuisibles, comme les discours haineux ou les propositions illégales. Grâce à un système automatisé appelé autograder, les réponses sont notées selon deux critères majeurs. La majorité des modèles d’OpenAI obtiennent des scores très élevés, avoisinant 0,99, pour décliner les requêtes dangereuses. Cependant, leurs performances sont plus variables face à des questions bénignes, avec des scores allant de 0,65 à 0,80.

Résister aux tentatives de contournement des filtres

Le « jailbreaking » correspond aux efforts des utilisateurs pour manipuler l’IA et contourner ses filtres de sécurité. Pour évaluer cette résistance, OpenAI a testé ses modèles avec des attaques automatisées (StrongReject benchmark) et des attaques manuelles. Les résultats révèlent une bonne défense contre les attaques humaines (scores entre 0,90 et 1,00), mais une vulnérabilité plus marquée aux attaques automatisées, avec des scores allant de 0,23 à 0,85.

Limiter les hallucinations pour garantir la fiabilité

La production de réponses inexactes ou incohérentes, appelées « hallucinations », reste un défi. Les évaluations menées avec les benchmarks SimpleQA et PersonQA montrent une précision variable selon les modèles, de 0,09 à 0,70, tandis que les taux d’hallucination oscillent entre 0,13 et 0,86. Ces chiffres soulignent l’importance de continuer à améliorer la capacité des IA à fournir des réponses fiables, même pour des questions simples.

Une hiérarchie claire dans le traitement des instructions

Le hub analyse également la manière dont les modèles gèrent des consignes contradictoires entre le système, les développeurs et les utilisateurs. En général, les modèles respectent la hiérarchie en plaçant les instructions système en priorité, mais des écarts subsistent notamment dans l’équilibre entre directives des développeurs et demandes des utilisateurs.

Une avancée vers une IA plus responsable et transparente

Les données issues du Safety Evaluations Hub permettent à OpenAI de mieux identifier les points faibles et d’orienter le développement futur de ses technologies. Cette démarche favorise une intelligence artificielle plus sûre et plus transparente, offrant aux utilisateurs la possibilité de mieux comprendre les protocoles qui protègent leurs interactions avec ces outils puissants.

👉 Source ici

A lire ensuite