Performance IA

America’s top companies keep talking about AI — but can’t explain the upside

Etude du Financial Times sur les Earnings Calls du S&P 500. 75% mentionnent l’IA, tout en émettant des doutes sur la sécurité et l’impact business. Plus les sociétés sont importantes, plus la couverture est positive. Probablement corrélé à la crainte de voir leurs actions chuter… Il ne s’agit pas de questionner ici l’impact de l’IA, plutôt son agenda d’impact business. Ce n’est que le début, si on ne mesure pas, c’est peut-être que ça n’existe pas.

Performance IA

Inside the AI Prompts DOGE Used to “Munch” Contracts Related to Veterans’ Health

Les prompts utilisés pour analyser et annuler les contrats du département des Vétérans par le DOGE. On a souvent des exemple de comment prompter correctement un IA. Ici c’est l’inverse. Tout ce qu’il ne fallait pas faire dans le paramétrage d’une IA, sans oublier les biais politiques évident dans les instructions…

Performance IA

IA : 75 % des entreprises n’ont pas atteint leur retour sur investissement prévu

Encore un ajout à la collection des études qui montrent que la mise en place de l’IA est complexe et dans tous les cas, les gains attendus, sur-estimés. Elle montre aussi que 67% des dirigeants interrogés le font par peur de ne pas “rester à la traîne”. Le FOMO peut coûter cher… En plus du coût des investissements gâchés dans ces projets, perdre confiance dans l’IA pourrait ralentir les futures innovations.

Performance IA

Apple’s ‘AI Can’t Reason’ Claim Seen By 13M+, What You Need to Know

Une vidéo de 10 minutes qui démonte les conclusions du papier de recherche d’Apple sur les modèles de raisonnement. Ce qui est vraiment malaisant, c’est qu’elle doit réexpliquer ce qu’est un LLM aux chercheurs d’Apple. Certains y verront causalité avec leur position sur le marché de l’IA… C’est surtout l’occasion de mieux comprendre ce qu’on appelle raisonnement en IA : pour l’instant cela reste l’imitation d’un raisonnement. Et c’est déjà très impressionnant. L’AGI n’est effectivement pas pour demain.

Performance IA

How do you choose the right metrics for your AI evaluations?

Du bon brand content de Galileo qui en listant ses propres mesures d’évaluation de l’IA donne à voir une bonne liste de moyens de mesurer la qualité une fois la solution implémentée. Les “evals” sont probablement la partie le plus souvent oubliée dans une solution IA et pourtant la plus importante. On se trouve parfois mieux disant que des solutions à plusieurs milliards de dollars, mais on ne le sait pas…

Performance IA

Meta aurait triché avec sa nouvelle intelligence artificielle Llama 4

Meta aurait benchmarké un autre modèle sur la LMArena que celui livré. Ce ne seraient pas les premiers, ni les derniers à optimiser leur modèle pour bien se positionner dans un benchmark qui reste imparfait. Cela a le mérite de mettre un peu de pression sur les fournisseurs de modèles et pour nous autres entreprises, de nous rappeler ne pas prendre ces benchmarks comme un fait, mais plutôt comme une hypothèse (à vérifier donc). En périphérie, on observe que le débat sur l’AGI sonne vraiment creux si on n’est même pas capables de se mettre d’accord sur la performance des modèles actuels.

Performance IA

Meta Neuroscientist King: “Some of the concepts like reasoning may need to be re-evaluated”

Un chercheur en neuroscience chez Meta partage une idée déjà exprimée ailleurs : la course au plus gros LLM n’améliorera probablement pas les performances, notamment sur la partie raisonnement (le hype du moment). Il faudra sûrement une rupture technologique comme les Transformers en 2017. Vu le nombre de sociétés qui travaillent à une approche différente des LLM (notamment Deepmind) cela pourrait arriver rapidement. Avant ça, testons, mais restons prudents sur les capacités en conditions réelles en entreprises des agents autonomes…

Performance IA

AI search engines cite incorrect sources at an alarming 60% rate, study says

Après la BBC, une nouvelle étude qui pointe les erreurs des LLM sur le résumé d’informations des médias. 60% pour ChatGPT et 94% pour Grok. Il faut juste le savoir, et tout utilisateur professionnel ou intensif s’en rend vite compte. C’est presque normal vu la jeunesse de ces solutions. À prendre en compte si des décisions business sont prises sur ces “informations” ou, plus insidieux, que nos collaborateurs affirment des choses sans préciser la source…

Performance IA

The GenAI App Step You’re Skimping On: Evaluations

De nombreuses entreprises oublient de mettre en place un outil de mesure de la progression ou de la régression des solutions IA. Elles ne sont pas si compliquées à mettre en œuvre bien que souvent consommatrice de temps. Tant de variables (entre LLM différents, prompting, RAG et fine-tuning) bougent qu’il parait dangereux de ne pas y prêter attention.

Performance IA

AI chatbots unable to accurately summarise news, BBC finds

On le sait (nous), la GenAI n’est pas algorithmique, mais générative, elle propose à chaque question une version différente en mode bullshit (pas d’insulte, elle a été conçue pour convaincre sans comprendre de quoi elle parle). Donc quand la BBC mesure que 51% des résumés de news sont sujets à problème, personne ne devrait être surpris ? Surtout qu’elle ne sait pas faire la différence entre un article, une opinion ou une blague. Je trouve le résultat assez bon en fait !

Catégorie : Performance IA