Study of ChatGPT citations makes dismal reading for publishers

Le monde déterministe (if, then, else) ne comprend pas le monde probabiliste (GenAI). Une étude sur les contenus des médias dans ChatGPT regrette les erreurs dans les attributions de source, l’incapacité à citer à la lettre la source et la variabilité dans le temps. Mais ce n’est pas le job de la GenAI et encore moins ses points forts. On le voit souvent dans les discussions business sur l’IA : on parle en fait de GenAI (une partie de l’IA et des algorithmes) et on voudrait qu’elle réalise tous les rêves de la tech des 30 dernières années. Guest what ? On progresse, mais ça va prendre du temps.

A Chinese lab has released a ‘reasoning’ AI model to rival OpenAI’s o1

J’essaie ici d’éviter de suivre toutes les annonces de nouveaux modèles, mais celle-ci est importante pour deux raisons. Premier modèle Chinois à s’opposer aux américains et un changement majeur dans les applications avec des modèles qui raisonnent, ce que ne fait vraiment pas la première génération de LLM. Cela permettrait de développer des Agents IA plus ou moins autonomes parce que capables de prendre des décisions dans une situation inconnue. Beaucoup plus lent et coûteux que les modèles génératifs classiques, ils viennent en complément pour rendre possibles les Agentic Workflow dont toute la tech rêve depuis bien avant la GenAI.

DebunkBot : l’IA qui arrive à convaincre les complotistes qu’ils sont dans l’erreur

Un constat plutôt surprenant et pourtant assez logique : la GenAI sait être plus empathique, plus patiente et factuelle que les humains. Elle est donc plus efficace pour contrer les théories du complot. Appliqué à l’entreprise, qui connait aussi ses théories du complot locales, on pourrait s’en servir pour discuter des valeurs et des projets futurs pour embarquer ses équipes. L’alignement commun est clé dans un projet entrepreneurial…

OpenAI Email Archives (from Musk v. Altman)

Les emails entre Musk, Altam, Sutskever et Brockman rendus publics par la procédure en cours. Ca ne rentrerait même pas dans une série Netflix. Quelle violence dans les désaccords ! Le sujet le mérite bien sûr, et ça pourrait rassurer. À la lecture, on reste quand même perplexes sur la capacité de ce modèle basé sur des intérêts très personnels et d’égo à devenir responsable envers les gens et la planète.

Google AI chatbot responds with a threatening message: “Human … Please die.”

“Human… please die”, il faut dire que Gemini a du style. J’avoue avoir explosé de rire en voyant les médias se scandaliser alors que c’est juste la situation où nous sommes dans l’évolution des LLM. Et autant de progrès en si peu de temps est hallucinant (sans jeu de mots). Donc What do you expect ? Mais de l’autre côté, on se repose la question de la régulation. Que se passe-t-il si des sociétés vendent des services sans vérifier leur dangerosité. Au moment où Trump met à la poubelle les efforts de régulation très soft de la précédente administration. Un What do you expect? (mais moins drôle)

Agent d’IA : de quoi parle-t-on et quelles sont les possibilités actuelles ?

Bien que rien de très neuf dans cette définition des Agents IA, il est toujours utile de se mettre au clair sur les définitions précises des différents concepts poussés par les équipes marketing les plus puissantes du monde et repris parfois avec peu de précision dans les médias. C’est clairement l’étape du moment qui devrait éclipser l’IA Générative ou le positionner comme un outil IA parmi d’autres. A sa place donc.

Researchers say an AI-powered transcription tool used in hospitals invents things no one ever said

Ce n’est pas une nouveauté que les LLM font beaucoup d’erreurs. C’est même ok vu leur “âge”. Cela ne veut pas dire qu’il ne faut pas s’en servir, au contraire, il faut mesurer les erreurs et augmenter la précision sur des cas d’usages spécifiques et critiques. Ce qui est plus surprenant ici, c’est que Whisper est fourni à toutes les grandes entreprises mondiales via OpenAI, Oracle et Microsoft, qu’il a été téléchargé 4 millions de fois en open-source et 30 000 cliniciens l’utilisent aux États-Unis. Personne n’a testé la qualité avant de se jeter dessus ?