Apple’s ‘AI Can’t Reason’ Claim Seen By 13M+, What You Need to Know

Une vidéo de 10 minutes qui démonte les conclusions du papier de recherche d’Apple sur les modèles de raisonnement. Ce qui est vraiment malaisant, c’est qu’elle doit réexpliquer ce qu’est un LLM aux chercheurs d’Apple. Certains y verront causalité avec leur position sur le marché de l’IA… C’est surtout l’occasion de mieux comprendre ce qu’on appelle raisonnement en IA : pour l’instant cela reste l’imitation d’un raisonnement. Et c’est déjà très impressionnant. L’AGI n’est effectivement pas pour demain.

How do you choose the right metrics for your AI evaluations?

Du bon brand content de Galileo qui en listant ses propres mesures d’évaluation de l’IA donne à voir une bonne liste de moyens de mesurer la qualité une fois la solution implémentée. Les “evals” sont probablement la partie le plus souvent oubliée dans une solution IA et pourtant la plus importante. On se trouve parfois mieux disant que des solutions à plusieurs milliards de dollars, mais on ne le sait pas…

Trends – Artificial Intelligence (AI)

La papesse du Web Mary Meeker continue avec l’IA. Un rapport de 340 pages ! Tellement de choses intéressantes que la synthèse est difficile à faire, mais une référence à garder sous le coude.

The Rise and Fall of Builder.ai: When AI Hype Met Human Hands—and a $445 Million Mirage

On peut lever 445 M$, intégré chez Microsoft, être valorisé 1,5 milliard et refaire le coup du “Mechanical Turk” du XVIIIème siècle en utilisant des humains pour faire croire à un miracle technologique. Un exemple récent dans le vibe coding avec Builder.ai. J’anticipe déjà les discours anti IA avec cet exemple, mais l’IA n’a rien inventé ici. Reste qu’il faut garder la tête froide, un esprit critique et bien regarder le pedigree des fondateurs sans oublier de soulever le capot…

Les 3 limites du MCP qui empêchent son explosion

Après les tonnes d’adrénaline générées par les MCP (comparé, à raison, à l’arrivée du TCP/IP sur Internet), il est toujours bon de conserver un esprit critique. Cet article revient sur les freins actuels, notamment sur l’usage en entreprise. Cela ne veut pas dire que cela ne va pas progresser ni que c’est effectivement un grand pas franchi, mais calme un peu les ardeurs sur son usage immédiat.

Perplexity and PayPal Team Up for AI Shopping: What It Means for You

Après Visa et Mastercard, c’est maintenant PayPal qui permet le paiement par un agent IA. Cela ouvre un nouveau monde où ce ne seront plus des humains qui iront sur les sites de shopping, mais des Agents IA. A quoi serviront les belles images de produits ? A mieux décrire le produit grâce à la Computer Vision ? Ou faudra-t-il encore les charger en méta-données…

IAcademie #6 – RAG, Agentic RAG &protocoles (MCP & A2A)

Pour celles et ceux, non tech qui voudraient avoir une explication très didactique sur comment fonctionne un RAG et les protocoles MCP et A2A, c’est une très bonne vidéo à regarder. Ces sujets évoluent tellement qu’il est souvent utile de revenir aux basiques et oser reconnaître qu’on ne comprend pas tout à fait comment ça marche.

These autistic people struggled to make sense of others. Then they found AI.

J’entends souvent dire dans les équipes en entreprise que l’IA ne peut pas interagir avec des humains. Oui bien sûr, elle n’a aucune intelligence émotionnelle ni compréhension de la situation. Mais est-ce toujours nécessaire ? Regardons du côté des autistes. Même si l’outil n’est pas parfait, un service développé sur ChatGPT par un autiste explique la différence de perception dans une situation décrite par l’utilisateur autiste, et l’aide à gérer la relation. L’IA ne se fatigue jamais, ne s’énerve pas, reste factuelle et sait simuler l’empathie. À garder en tête pour les sujets d’interaction avec les clients.

Meta aurait triché avec sa nouvelle intelligence artificielle Llama 4

Meta aurait benchmarké un autre modèle sur la LMArena que celui livré. Ce ne seraient pas les premiers, ni les derniers à optimiser leur modèle pour bien se positionner dans un benchmark qui reste imparfait. Cela a le mérite de mettre un peu de pression sur les fournisseurs de modèles et pour nous autres entreprises, de nous rappeler ne pas prendre ces benchmarks comme un fait, mais plutôt comme une hypothèse (à vérifier donc). En périphérie, on observe que le débat sur l’AGI sonne vraiment creux si on n’est même pas capables de se mettre d’accord sur la performance des modèles actuels.