Researchers say an AI-powered transcription tool used in hospitals invents things no one ever said

Ce n’est pas une nouveauté que les LLM font beaucoup d’erreurs. C’est même ok vu leur “âge”. Cela ne veut pas dire qu’il ne faut pas s’en servir, au contraire, il faut mesurer les erreurs et augmenter la précision sur des cas d’usages spécifiques et critiques. Ce qui est plus surprenant ici, c’est que Whisper est fourni à toutes les grandes entreprises mondiales via OpenAI, Oracle et Microsoft, qu’il a été téléchargé 4 millions de fois en open-source et 30 000 cliniciens l’utilisent aux États-Unis. Personne n’a testé la qualité avant de se jeter dessus ?

AI researchers discover “Law of the Weakest Link” in language models

Toujours utile de se référer aux travaux de recherche pour évaluer la situation actuelle en termes de qualité. Celle-ci a créé un benchmark pour mesure dans les LLM le “maillon faible” particulièrement dans les tâches nécessitant plus d’une compétence. Pour démontrer la distance qu’il nous reste à parcourir avant les Agents.

Code competition Codeforces bans AI code as as it reaches “new heights that cannot be overlooked”

Il y a les différents tests plein de biais (on en parlait hier) mais là, c’est du concret : ChatGPT o1 avec son raisonnement logique en “Chain of thoughts” dépasse les humains sur les parties logiques, donc notamment sur le dév. Les compétitions ne peuvent plus accepter des IA, comme précédemment pour les Echecs et le jeu de Go. Clairement une étape de plus qui est franchie dans l’histoire de l’IA.

Stanford study finds AI legal research tools prone to hallucinations

Un rappel (contraire au marketing ambiant) : le RAG n’est pas la panacée. Grâce à lui un LLM fait moins d’erreurs, mais il en fait toujours. Cette étude qui teste les solutions professionnelles dans le juridique montre un taux d’erreur entre 17 et 33%. Les éditeurs rappellent à raison que le but n’est pas de remplacer les juristes, mais de les aider. Mais important de garder ce point en tête : l’IA générative n’atteint pas l’exactitude (et ce n’est pas son but).

Google’s AI summaries cause headaches and spawn memes

Un enseignement du cas Google, qui introduit l’IA dans son moteur de recherche : une IA générative (Gen AI) peut se tromper. Même s’il est facile de s’amuser des erreurs présentées, cela doit surtout nous faire réfléchir sur le fait que ces erreurs proviennent souvent de la qualité des données d’entraînement et de l’incapacité de l’IA à comprendre réellement le contenu qu’elle ingère. La Gen AI fonctionne, et fonctionnera encore probablement un temps, dans des domaines où l’erreur est permise, voire un avantage, comme dans la créativité. Mais elle n’est pas (encore) adaptée là où les résultats doivent être 100 % exacts et exhaustifs.