AI search engines cite incorrect sources at an alarming 60% rate, study says

Après la BBC, une nouvelle étude qui pointe les erreurs des LLM sur le résumé d’informations des médias. 60% pour ChatGPT et 94% pour Grok. Il faut juste le savoir, et tout utilisateur professionnel ou intensif s’en rend vite compte. C’est presque normal vu la jeunesse de ces solutions. À prendre en compte si des décisions business sont prises sur ces “informations” ou, plus insidieux, que nos collaborateurs affirment des choses sans préciser la source…

The GenAI App Step You’re Skimping On: Evaluations

De nombreuses entreprises oublient de mettre en place un outil de mesure de la progression ou de la régression des solutions IA. Elles ne sont pas si compliquées à mettre en œuvre bien que souvent consommatrice de temps. Tant de variables (entre LLM différents, prompting, RAG et fine-tuning) bougent qu’il parait dangereux de ne pas y prêter attention.

AI chatbots unable to accurately summarise news, BBC finds

On le sait (nous), la GenAI n’est pas algorithmique, mais générative, elle propose à chaque question une version différente en mode bullshit (pas d’insulte, elle a été conçue pour convaincre sans comprendre de quoi elle parle). Donc quand la BBC mesure que 51% des résumés de news sont sujets à problème, personne ne devrait être surpris ? Surtout qu’elle ne sait pas faire la différence entre un article, une opinion ou une blague. Je trouve le résultat assez bon en fait !

Language models still can’t pass complex Theory of Mind tests, Meta shows

Dans la confusion du mot “intelligence” que peut donner l’impression qu’un perroquet stochastique pourrait avoir en imitant des réponses récupérées dans les données d’entraînement (un LLM donc), il est bon de revenir sur des tests plus précis. Celui-là mesure la capacité à comprendre un humain. Les performances restent à 9% pour l’instant. Cela ne veut pas dire que cela ne va jamais marcher, juste qu’on surestime les performances à court terme. Mais n’oublions pas qu’on sous-estime les performances à long terme selon la loi de Lamara.

Study of ChatGPT citations makes dismal reading for publishers

Le monde déterministe (if, then, else) ne comprend pas le monde probabiliste (GenAI). Une étude sur les contenus des médias dans ChatGPT regrette les erreurs dans les attributions de source, l’incapacité à citer à la lettre la source et la variabilité dans le temps. Mais ce n’est pas le job de la GenAI et encore moins ses points forts. On le voit souvent dans les discussions business sur l’IA : on parle en fait de GenAI (une partie de l’IA et des algorithmes) et on voudrait qu’elle réalise tous les rêves de la tech des 30 dernières années. Guest what ? On progresse, mais ça va prendre du temps.

DebunkBot : l’IA qui arrive à convaincre les complotistes qu’ils sont dans l’erreur

Un constat plutôt surprenant et pourtant assez logique : la GenAI sait être plus empathique, plus patiente et factuelle que les humains. Elle est donc plus efficace pour contrer les théories du complot. Appliqué à l’entreprise, qui connait aussi ses théories du complot locales, on pourrait s’en servir pour discuter des valeurs et des projets futurs pour embarquer ses équipes. L’alignement commun est clé dans un projet entrepreneurial…

Researchers say an AI-powered transcription tool used in hospitals invents things no one ever said

Ce n’est pas une nouveauté que les LLM font beaucoup d’erreurs. C’est même ok vu leur “âge”. Cela ne veut pas dire qu’il ne faut pas s’en servir, au contraire, il faut mesurer les erreurs et augmenter la précision sur des cas d’usages spécifiques et critiques. Ce qui est plus surprenant ici, c’est que Whisper est fourni à toutes les grandes entreprises mondiales via OpenAI, Oracle et Microsoft, qu’il a été téléchargé 4 millions de fois en open-source et 30 000 cliniciens l’utilisent aux États-Unis. Personne n’a testé la qualité avant de se jeter dessus ?

AI researchers discover “Law of the Weakest Link” in language models

Toujours utile de se référer aux travaux de recherche pour évaluer la situation actuelle en termes de qualité. Celle-ci a créé un benchmark pour mesure dans les LLM le “maillon faible” particulièrement dans les tâches nécessitant plus d’une compétence. Pour démontrer la distance qu’il nous reste à parcourir avant les Agents.