12 Graphs That Explain the State of AI in 2025

Le 2025 AI Index de Stanford University est une somme de 500 pages où vous trouverez les principaux thèmes abordés dans cette veille. Vous aurez les meilleurs passages ici. Une chose que j’avais loupée : le Humanity Last Exam qui mesure la capacité de raisonnement humain. o1 le meilleur arrive à 8% de pertinence. En revanche, avec le Planbench qui mesure la disposition à résoudre des problèmes de planification, o1 arrive à 98%. On est donc loin de l’AGI, mais très proche des capacités de raisonnement nécessaire à la plupart des entreprises.

Large Language Models Pass the Turing Test

C’est un symbole plus qu’une réalité, mais il faut noter que les IA réussissent maintenant le test de Turing. Datant de 1950, on reconnait le génie du bonhomme, mais pas forcément sa pertinence aujourd’hui. À comparer à toutes les autres études récentes qui rejettent la notion d’intelligence dans l’IA beaucoup plus pertinente.

The AI Agent Index

Le MIT a fait l’effort de comptabiliser les 67 vrais “Agents” avec une définition précise. Intéressant de voir leur définition, l’historique et les pays d’origine. Pas de surprise, tout se passe aux US, mais attention, c’est la rupture la plus importante après l’ère du ChatGPT pour les entreprises.

AI search engines cite incorrect sources at an alarming 60% rate, study says

Après la BBC, une nouvelle étude qui pointe les erreurs des LLM sur le résumé d’informations des médias. 60% pour ChatGPT et 94% pour Grok. Il faut juste le savoir, et tout utilisateur professionnel ou intensif s’en rend vite compte. C’est presque normal vu la jeunesse de ces solutions. À prendre en compte si des décisions business sont prises sur ces “informations” ou, plus insidieux, que nos collaborateurs affirment des choses sans préciser la source…

30% of popular AI chatbots share data with third parties

Petit rappel sur l’importance d’éviter le Shadow IA dans l’entreprise (50% des collaborateurs ne disent pas à leur manager qu’ils utilisent des IA). Rappel : il vaut mieux payer des versions plus sécurisées. Voici une liste des données stockées par les principaux chatbot. C’est impressionnant, mais pas surprenant : on rappelle que gratuit = c’est vous le produit. Mais avec les données de l’entreprise, cela peut devenir terrifiant…

The GenAI App Step You’re Skimping On: Evaluations

De nombreuses entreprises oublient de mettre en place un outil de mesure de la progression ou de la régression des solutions IA. Elles ne sont pas si compliquées à mettre en œuvre bien que souvent consommatrice de temps. Tant de variables (entre LLM différents, prompting, RAG et fine-tuning) bougent qu’il parait dangereux de ne pas y prêter attention.

SaaS is being dismantled as we speak!

Un sujet que l’on voit de plus en plus : les agents IA vont disrupter le SaaS. Parce qu’ils vont devenir vraiment autonomes et qu’ils peuvent dans un premier temps opérer les logiciels SaaS. Et dans un second temps les remplacer. Une phase d’une vingtaine d’années qui s’achève ? Cela va impliquer beaucoup de choses dans les organisations des entreprises.

How Baby AGI 2 Reimagines AI’s Ability to Build Its Own Tools

Discussion impressionnante à écouter : Yohei montre son side project open source où à partir d’un prompt, le système code des fonctions pour activer des actions (aller chercher une information sur le web, envoyer un slack). Une sorte de système vivant qui écrit son propre code quand c’est nécessaire, sinon possède un catalogue de fonctions à utiliser. Pourrait être terrifiant, d’ailleurs Anthropic donne comme règle de ne jamais laisser une IA créer son propre code et l’exécuter en autonomie…

The Next 10 Years Will Be About the AI Agent Economy

Vision très intéressante de Nfx (comme toujours) : la création d’agent va devenir simple, ce n’est pas là que la valeur va se créer. Dommage pour toutes les boîtes financées cette année sur ce sujet ! Là où la valeur va résider, c’est dans les marketplace d’agents (le Malt des agents IA). Parce que le client principal, ce sera la petite et moyenne entreprise, le plus gros marché et de loin devant les grandes entreprises.