Malgré ses avancées, GPT-5, lancé par OpenAI en août 2025, continue d’halluciner sur environ 1 à 3 % des tâches courantes, selon divers benchmarks – bien moins que ses prédécesseurs, mais toujours un risque pour les usages critiques comme la médecine ou les faits historiques.
Par exemple, sur le benchmark HealthBench, le taux d’hallucination tombe à 1,6 % avec mode « thinking » activé, contre 3,6 % sans.
Sur LongFact-Concepts, il n’est que de 1,0 %, une amélioration massive par rapport aux 5,2 % de o3.
Cela signifie qu’en moyenne, sur dix tâches factuelles, GPT-5 pourrait encore se tromper une fois, mais les tests montrent une réduction significative : 26 % de moins que GPT-4o globalement.
OpenAI met l’accent sur la réduction des hallucinations pour des réponses plus fiables, mais les devs rapportent encore des « maux de tête » en production, comme des inventions sporadiques dans les agents WhatsApp.
