Meta aurait triché avec sa nouvelle intelligence artificielle Llama 4

Meta aurait benchmarké un autre modèle sur la LMArena que celui livré. Ce ne seraient pas les premiers, ni les derniers à optimiser leur modèle pour bien se positionner dans un benchmark qui reste imparfait. Cela a le mérite de mettre un peu de pression sur les fournisseurs de modèles et pour nous autres entreprises, de nous rappeler ne pas prendre ces benchmarks comme un fait, mais plutôt comme une hypothèse (à vérifier donc). En périphérie, on observe que le débat sur l’AGI sonne vraiment creux si on n’est même pas capables de se mettre d’accord sur la performance des modèles actuels.

Meta Neuroscientist King: “Some of the concepts like reasoning may need to be re-evaluated”

Un chercheur en neuroscience chez Meta partage une idée déjà exprimée ailleurs : la course au plus gros LLM n’améliorera probablement pas les performances, notamment sur la partie raisonnement (le hype du moment). Il faudra sûrement une rupture technologique comme les Transformers en 2017. Vu le nombre de sociétés qui travaillent à une approche différente des LLM (notamment Deepmind) cela pourrait arriver rapidement. Avant ça, testons, mais restons prudents sur les capacités en conditions réelles en entreprises des agents autonomes…

AI search engines cite incorrect sources at an alarming 60% rate, study says

Après la BBC, une nouvelle étude qui pointe les erreurs des LLM sur le résumé d’informations des médias. 60% pour ChatGPT et 94% pour Grok. Il faut juste le savoir, et tout utilisateur professionnel ou intensif s’en rend vite compte. C’est presque normal vu la jeunesse de ces solutions. À prendre en compte si des décisions business sont prises sur ces “informations” ou, plus insidieux, que nos collaborateurs affirment des choses sans préciser la source…

The GenAI App Step You’re Skimping On: Evaluations

De nombreuses entreprises oublient de mettre en place un outil de mesure de la progression ou de la régression des solutions IA. Elles ne sont pas si compliquées à mettre en œuvre bien que souvent consommatrice de temps. Tant de variables (entre LLM différents, prompting, RAG et fine-tuning) bougent qu’il parait dangereux de ne pas y prêter attention.

AI chatbots unable to accurately summarise news, BBC finds

On le sait (nous), la GenAI n’est pas algorithmique, mais générative, elle propose à chaque question une version différente en mode bullshit (pas d’insulte, elle a été conçue pour convaincre sans comprendre de quoi elle parle). Donc quand la BBC mesure que 51% des résumés de news sont sujets à problème, personne ne devrait être surpris ? Surtout qu’elle ne sait pas faire la différence entre un article, une opinion ou une blague. Je trouve le résultat assez bon en fait !

Language models still can’t pass complex Theory of Mind tests, Meta shows

Dans la confusion du mot “intelligence” que peut donner l’impression qu’un perroquet stochastique pourrait avoir en imitant des réponses récupérées dans les données d’entraînement (un LLM donc), il est bon de revenir sur des tests plus précis. Celui-là mesure la capacité à comprendre un humain. Les performances restent à 9% pour l’instant. Cela ne veut pas dire que cela ne va jamais marcher, juste qu’on surestime les performances à court terme. Mais n’oublions pas qu’on sous-estime les performances à long terme selon la loi de Lamara.

Study of ChatGPT citations makes dismal reading for publishers

Le monde déterministe (if, then, else) ne comprend pas le monde probabiliste (GenAI). Une étude sur les contenus des médias dans ChatGPT regrette les erreurs dans les attributions de source, l’incapacité à citer à la lettre la source et la variabilité dans le temps. Mais ce n’est pas le job de la GenAI et encore moins ses points forts. On le voit souvent dans les discussions business sur l’IA : on parle en fait de GenAI (une partie de l’IA et des algorithmes) et on voudrait qu’elle réalise tous les rêves de la tech des 30 dernières années. Guest what ? On progresse, mais ça va prendre du temps.

DebunkBot : l’IA qui arrive à convaincre les complotistes qu’ils sont dans l’erreur

Un constat plutôt surprenant et pourtant assez logique : la GenAI sait être plus empathique, plus patiente et factuelle que les humains. Elle est donc plus efficace pour contrer les théories du complot. Appliqué à l’entreprise, qui connait aussi ses théories du complot locales, on pourrait s’en servir pour discuter des valeurs et des projets futurs pour embarquer ses équipes. L’alignement commun est clé dans un projet entrepreneurial…