Performance IA

Language models still can’t pass complex Theory of Mind tests, Meta shows

Dans la confusion du mot “intelligence” que peut donner l’impression qu’un perroquet stochastique pourrait avoir en imitant des réponses récupérées dans les données d’entraînement (un LLM donc), il est bon de revenir sur des tests plus précis. Celui-là mesure la capacité à comprendre un humain. Les performances restent à 9% pour l’instant. Cela ne veut pas dire que cela ne va jamais marcher, juste qu’on surestime les performances à court terme. Mais n’oublions pas qu’on sous-estime les performances à long terme selon la loi de Lamara.

Performance IA

Study of ChatGPT citations makes dismal reading for publishers

Le monde déterministe (if, then, else) ne comprend pas le monde probabiliste (GenAI). Une étude sur les contenus des médias dans ChatGPT regrette les erreurs dans les attributions de source, l’incapacité à citer à la lettre la source et la variabilité dans le temps. Mais ce n’est pas le job de la GenAI et encore moins ses points forts. On le voit souvent dans les discussions business sur l’IA : on parle en fait de GenAI (une partie de l’IA et des algorithmes) et on voudrait qu’elle réalise tous les rêves de la tech des 30 dernières années. Guest what ? On progresse, mais ça va prendre du temps.

Performance IA

DebunkBot : l’IA qui arrive à convaincre les complotistes qu’ils sont dans l’erreur

Un constat plutôt surprenant et pourtant assez logique : la GenAI sait être plus empathique, plus patiente et factuelle que les humains. Elle est donc plus efficace pour contrer les théories du complot. Appliqué à l’entreprise, qui connait aussi ses théories du complot locales, on pourrait s’en servir pour discuter des valeurs et des projets futurs pour embarquer ses équipes. L’alignement commun est clé dans un projet entrepreneurial…

Performance IA

Jensen, Nvidia CEO, says solving AI hallucination problems is ‘several years away,’ requires increasing computation

Il va donc falloir vivre avec les hallucinations pendant encore plusieurs années d’après le CEO de Nvidia. On peut penser qu’il est bien informé et pas aussi biaisé que les fournisseurs d’IA. Au moins c’est transparent. Il vaut mieux ne pas miser dessus quand on développe une IA pour son entreprise, on évitera les mauvaises surprises.

Performance IA

95 % des entreprises font face à des obstacles lors de la mise en œuvre de l’IA

Dans la difficulté de mise en œuvre de l’IA on retombe sur la source : la data. D’après cette étude, 78% des entreprises n’ont pas les fondations de données suffisantes pour tirer parti de l’IA. Rien de bien surprenant, mais il est étonnant de voir que les dirigeants oublient souvent ce paramètre, voire pire, pensent que l’IA leur fera éviter cette étape.

Performance IA

Researchers say an AI-powered transcription tool used in hospitals invents things no one ever said

Ce n’est pas une nouveauté que les LLM font beaucoup d’erreurs. C’est même ok vu leur “âge”. Cela ne veut pas dire qu’il ne faut pas s’en servir, au contraire, il faut mesurer les erreurs et augmenter la précision sur des cas d’usages spécifiques et critiques. Ce qui est plus surprenant ici, c’est que Whisper est fourni à toutes les grandes entreprises mondiales via OpenAI, Oracle et Microsoft, qu’il a été téléchargé 4 millions de fois en open-source et 30 000 cliniciens l’utilisent aux États-Unis. Personne n’a testé la qualité avant de se jeter dessus ?

Performance IA

AI researchers discover “Law of the Weakest Link” in language models

Toujours utile de se référer aux travaux de recherche pour évaluer la situation actuelle en termes de qualité. Celle-ci a créé un benchmark pour mesure dans les LLM le “maillon faible” particulièrement dans les tâches nécessitant plus d’une compétence. Pour démontrer la distance qu’il nous reste à parcourir avant les Agents.

Performance IA

Code competition Codeforces bans AI code as as it reaches “new heights that cannot be overlooked”

Il y a les différents tests plein de biais (on en parlait hier) mais là, c’est du concret : ChatGPT o1 avec son raisonnement logique en “Chain of thoughts” dépasse les humains sur les parties logiques, donc notamment sur le dév. Les compétitions ne peuvent plus accepter des IA, comme précédemment pour les Echecs et le jeu de Go. Clairement une étape de plus qui est franchie dans l’histoire de l’IA.

Performance IA

Les performances des IA génératives sont-elles gonflées artificiellement ?

Les tests de performance LLM sont truffés de biais et utilisés par les fournisseurs de LLM. À garder en tête quand on doit faire le choix pour son entreprise. Un benchmark sur ses propres cas d’usages semble être malheureusement la seule solution.

Performance IA

Elon Musk’s chatbot Grok leans much further to the left than X might like

Cela devrait avoir peu d’impact pour l’implémentation de l’IA dans les entreprises mais c’est quand même à retenir : les LLM sont majoritairement de gauche. Ca montre surtout la précaution qu’il faut avoir quant aux biais qu’ils possèdent…

Catégorie : Performance IA