OpenAI: GPT-5 Is Less of a Suck-Up, But It Tolerates More Hateful Behavior

Le nouveau modèle phare s'avère moins "servile" dans les tests internes d'OpenAI, mais il se conforme davantage aux demandes inappropriées des utilisateurs concernant du contenu sexuel et haineux.

Le PDG d'OpenAI, Sam Altman, décrit le dernier modèle de son entreprise, GPT-5, comme « un véritable expert de niveau doctorat dans n'importe quel domaine, quel que soit le secteur dont vous avez besoin ». Cette expertise s'étend désormais à la réponse à des questions sur des sujets que le système évitait auparavant, notamment les discours de haine non violents, le harcèlement menaçant, le matériel sexuel illicite, le contenu sexuel impliquant des mineurs, l'extrémisme et les menaces haineuses.

L'entreprise a procédé à des examens manuels des réponses de GPT-5 dans ces catégories sensibles et a conclu que bien que les réponses contreviennent effectivement aux politiques établies, elles relèvent d'une classification de « faible gravité ». OpenAI n'a pas divulgué les critères spécifiques utilisés pour déterminer les niveaux de gravité, bien que l'entreprise déclare avoir l'intention d'améliorer les performances de GPT-5 « dans toutes les catégories », en se concentrant particulièrement sur les domaines présentant les résultats les plus faibles.

Bien qu'OpenAI qualifie la propension de GPT-5 à répondre aux demandes inappropriées de « régression », l'entreprise note que seules les réponses liées aux contenus haineux menaçants et au matériel sexuel illicite montrent des augmentations statistiquement significatives en matière de conformité. L'entreprise souligne également que « nous avons constaté qu'OpenAI o4-mini présente des performances similaires dans ce domaine ».

OpenAI n'a pas précisé si ces réponses problématiques concernent des images ou du texte, une distinction qui pourrait s'avérer significative, particulièrement en ce qui concerne le contenu sexuel ou les symboles haineux. L'entreprise a mis à jour ses politiques de génération d'images en mars pour autoriser la création d'images contenant des croix gammées.

Bien qu'OpenAI présente systématiquement chaque nouveau modèle comme le plus avancé à ce jour, ces lancements s'accompagnent fréquemment de problèmes inattendus. Les modèles de raisonnement o3 et o4 lancés en avril ont en réalité produit davantage d'hallucinations que les versions antérieures, selon les informations rapportées par TechCrunch.

Pourtant, on pourrait penser que la sophistication de « niveau doctorat » de GPT-5 le rendrait mieux adapté au respect des politiques. Une question d'intelligence académique ou de bon sens pratique ? Le comportement défaillant des chatbots constitue un problème persistant et troublant dans l'ensemble du secteur, surtout après que le Grok d'Elon Musk ait perdu la raison sur X.

Les utilisateurs de GPT-5 devraient également se méfier de la tromperie. En utilisant GPT-5-thinking, une version supérieure de GPT-5, OpenAI affirme avoir « pris des mesures pour réduire [la] propension à tromper, tricher ou pirater les problèmes, bien que nos mesures d'atténuation ne soient pas parfaites et que des recherches supplémentaires soient nécessaires ».

Les bonnes nouvelles concernant les hallucinations et la complaisance

Dans le même temps, GPT-5 apporte quelques améliorations notables. Certaines des habitudes les plus agaçantes de ChatGPT — la flagornerie et les hallucinations — devraient être atténuées.

OpenAI a été contrainte de refondre GPT-4o en mai 2025 après une épidémie de flatteries excessives du chatbot envers l'utilisateur. Le modèle s'était transformé en conseiller irresponsable, tentant « de satisfaire l'utilisateur, non seulement par la flatterie, mais aussi en apaisant les doutes, en inspirant la colère, en incitant à des actions imprudentes, ou en rassurant face à de mauvaises émotions d'une manière qui n'était pas voulue », avait déclaré OpenAI à l'époque. « Au-delà d'être simplement gênant ou troublant, ce type de comportement peut potentiellement créer des préoccupations sécuritaires — notamment en termes de problèmes comme la santé mentale, la dépendance émotionnelle, ou les comportements dangereux. »

Avec GPT-5, les instances de flagornerie sont réduites de 69 % pour la version gratuite de ChatGPT avec GPT-5 et de 75 % avec le modèle payant. OpenAI semble quelque peu satisfaite de cette « amélioration significative », mais considère ce comportement comme un « défi » qu'elle espère continuer à améliorer.

« Nous enquêtons également activement sur des domaines de préoccupation connexes, tels que les scénarios qui peuvent impliquer une dépendance émotionnelle ou d'autres formes de détresse mentale ou émotionnelle », déclare OpenAI.

Les hallucinations ont également diminué. Le GPT-5 principal génère 44 % d'erreurs factuelles « majeures » en moins. Lorsque les erreurs factuelles mineures et majeures sont incluses, l'amélioration est de 26 %. OpenAI ne précise pas ce qui constitue une erreur majeure et ce qui constitue une erreur mineure.

OpenAI: GPT-5 Est Moins Flagorneur, Mais Il Tolère Davantage Les Comportements Haineux

Les bonnes nouvelles concernant les hallucinations et la complaisance

Laisser un commentaire Annuler la réponse

Les bonnes nouvelles concernant les hallucinations et la complaisance

Articles Associés

Laisser un commentaire Annuler la réponse