Meta Neuroscientist King: “Some of the concepts like reasoning may need to be re-evaluated”

Un chercheur en neuroscience chez Meta partage une idée déjà exprimée ailleurs : la course au plus gros LLM n’améliorera probablement pas les performances, notamment sur la partie raisonnement (le hype du moment). Il faudra sûrement une rupture technologique comme les Transformers en 2017. Vu le nombre de sociétés qui travaillent à une approche différente des LLM (notamment Deepmind) cela pourrait arriver rapidement. Avant ça, testons, mais restons prudents sur les capacités en conditions réelles en entreprises des agents autonomes…

Slopsquatting: One in five AI code snippets contains fake libraries

Au moment où toute la communauté de développeur se tourne vers la génération de code par l’IA, cette étude rappelle la nécessité de tout vérifier. 20% des “Packages” ajoutés dans le code n’existent pas. Cela donne une idée de la précision actuelle et reste cohérent avec le niveau d’hallucination constaté sur les cas précis. C’est aussi une brèche pour les hackers qui peuvent créer ces packages dont les noms reviennent souvent pour y mettre du code malicieux.

How People Are Really Using Gen AI in 2025

Une fois n’est pas coutume : intéressant de regarder l’évolution de l’IA du côté du grand public pour anticiper les usages dans l’entreprise. Toujours plus long à venir. On y découvre que l’accompagnement psychologique qui était déjà en deuxième place passe en premier en 2025. En entreprise, ça commence, mais on reste coincé dans la perception qu’une machine est moins bonne qu’un humain. Or à un niveau limité et contrôlé, c’est l’inverse. Y penser dans une réflexion sur le support client par exemple…

12 Graphs That Explain the State of AI in 2025

Le 2025 AI Index de Stanford University est une somme de 500 pages où vous trouverez les principaux thèmes abordés dans cette veille. Vous aurez les meilleurs passages ici. Une chose que j’avais loupée : le Humanity Last Exam qui mesure la capacité de raisonnement humain. o1 le meilleur arrive à 8% de pertinence. En revanche, avec le Planbench qui mesure la disposition à résoudre des problèmes de planification, o1 arrive à 98%. On est donc loin de l’AGI, mais très proche des capacités de raisonnement nécessaire à la plupart des entreprises.

Large Language Models Pass the Turing Test

C’est un symbole plus qu’une réalité, mais il faut noter que les IA réussissent maintenant le test de Turing. Datant de 1950, on reconnait le génie du bonhomme, mais pas forcément sa pertinence aujourd’hui. À comparer à toutes les autres études récentes qui rejettent la notion d’intelligence dans l’IA beaucoup plus pertinente.

The AI Agent Index

Le MIT a fait l’effort de comptabiliser les 67 vrais “Agents” avec une définition précise. Intéressant de voir leur définition, l’historique et les pays d’origine. Pas de surprise, tout se passe aux US, mais attention, c’est la rupture la plus importante après l’ère du ChatGPT pour les entreprises.

AI search engines cite incorrect sources at an alarming 60% rate, study says

Après la BBC, une nouvelle étude qui pointe les erreurs des LLM sur le résumé d’informations des médias. 60% pour ChatGPT et 94% pour Grok. Il faut juste le savoir, et tout utilisateur professionnel ou intensif s’en rend vite compte. C’est presque normal vu la jeunesse de ces solutions. À prendre en compte si des décisions business sont prises sur ces “informations” ou, plus insidieux, que nos collaborateurs affirment des choses sans préciser la source…

30% of popular AI chatbots share data with third parties

Petit rappel sur l’importance d’éviter le Shadow IA dans l’entreprise (50% des collaborateurs ne disent pas à leur manager qu’ils utilisent des IA). Rappel : il vaut mieux payer des versions plus sécurisées. Voici une liste des données stockées par les principaux chatbot. C’est impressionnant, mais pas surprenant : on rappelle que gratuit = c’est vous le produit. Mais avec les données de l’entreprise, cela peut devenir terrifiant…

The GenAI App Step You’re Skimping On: Evaluations

De nombreuses entreprises oublient de mettre en place un outil de mesure de la progression ou de la régression des solutions IA. Elles ne sont pas si compliquées à mettre en œuvre bien que souvent consommatrice de temps. Tant de variables (entre LLM différents, prompting, RAG et fine-tuning) bougent qu’il parait dangereux de ne pas y prêter attention.