The GenAI App Step You’re Skimping On: Evaluations

De nombreuses entreprises oublient de mettre en place un outil de mesure de la progression ou de la régression des solutions IA. Elles ne sont pas si compliquées à mettre en œuvre bien que souvent consommatrice de temps. Tant de variables (entre LLM différents, prompting, RAG et fine-tuning) bougent qu’il parait dangereux de ne pas y prêter attention.

SaaS is being dismantled as we speak!

Un sujet que l’on voit de plus en plus : les agents IA vont disrupter le SaaS. Parce qu’ils vont devenir vraiment autonomes et qu’ils peuvent dans un premier temps opérer les logiciels SaaS. Et dans un second temps les remplacer. Une phase d’une vingtaine d’années qui s’achève ? Cela va impliquer beaucoup de choses dans les organisations des entreprises.

How Baby AGI 2 Reimagines AI’s Ability to Build Its Own Tools

Discussion impressionnante à écouter : Yohei montre son side project open source où à partir d’un prompt, le système code des fonctions pour activer des actions (aller chercher une information sur le web, envoyer un slack). Une sorte de système vivant qui écrit son propre code quand c’est nécessaire, sinon possède un catalogue de fonctions à utiliser. Pourrait être terrifiant, d’ailleurs Anthropic donne comme règle de ne jamais laisser une IA créer son propre code et l’exécuter en autonomie…

The Next 10 Years Will Be About the AI Agent Economy

Vision très intéressante de Nfx (comme toujours) : la création d’agent va devenir simple, ce n’est pas là que la valeur va se créer. Dommage pour toutes les boîtes financées cette année sur ce sujet ! Là où la valeur va résider, c’est dans les marketplace d’agents (le Malt des agents IA). Parce que le client principal, ce sera la petite et moyenne entreprise, le plus gros marché et de loin devant les grandes entreprises.

AI chatbots unable to accurately summarise news, BBC finds

On le sait (nous), la GenAI n’est pas algorithmique, mais générative, elle propose à chaque question une version différente en mode bullshit (pas d’insulte, elle a été conçue pour convaincre sans comprendre de quoi elle parle). Donc quand la BBC mesure que 51% des résumés de news sont sujets à problème, personne ne devrait être surpris ? Surtout qu’elle ne sait pas faire la différence entre un article, une opinion ou une blague. Je trouve le résultat assez bon en fait !

LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!

Un papier de recherche un peu ardu qui éclaire un aspect intéressant des modèles de raisonnement (o1, Deepseek) : en générant des longs Chain of Thought par un autre LLM comme donnée d’entraînement, les capacités de raisonnement s’améliorent grandement. Cela semble rester un mystère même pour ces chercheurs… Un peu comme quand les Transformers créés pour de la traduction se sont mis à être capable de répondre à des questions pour amener à ChatGPT…

AI Agents Are Here. What Now?

Encore une clarification (bienvenue) de HuggingFace sur les agents et surtout les agents autonomes (agentic). Probablement la version la plus détaillée trouvée à date pour lister les différents agents, les bénéfices/risques et des recommandations fortez sur les règles notamment éthiques à respecter.

The Five Stages of AI Agent Evolution

NFX propose une vision détaillée sur l’évolution des “agents IA” en 5 étapes : du simple copilote à l’autopilote d’aujourd’hui, jusqu’aux agents créatifs capables d’innover en business. L’aboutissement ? Des entreprises 100% AI. Le timing reste le grand mystère : certains parient sur quelques années, d’autres jugent ça impossible. Perso, je mise sur un entre-deux !

On DeepSeek and Export Controls

Le PDG d’Anthropic (créateur de Claude) nous éclaire sur Deepseek : malgré une approche similaire à o1 via le reinforcement learning, les améliorations restent incrémentales plutôt que révolutionnaires. Ses inquiétudes d’un monde IA bipolaire (US-Chine, merci l’Europe n’est pas là !) s’il n’y a pas de restrictions américaines sur l’export des puces me font penser à Toyota. Après 1945, avec des moyens limités, ils ont dépassé le géant General Motors… Les contraintes sont parfois un cadeau. L’investissement infini, un frein.

MicroAgents: Exploring Agentic Architecture with Microservices

Microsoft se lance à son tour dans la définition des agents IA, introduisant les notions de mono-agents et micro-agents. Pas sûr que cela clarifie le marché : les micro-agents exécutent des tâches basiques sous la supervision d’un manager agent, tandis que les mono-agents gèrent tout d’un bloc. L’occasion pour eux de promouvoir leur approche de micro-services. Pourquoi pas, mais on aurait pu s’en passer !