OpenAI Email Archives (from Musk v. Altman)

Les emails entre Musk, Altam, Sutskever et Brockman rendus publics par la procédure en cours. Ca ne rentrerait même pas dans une série Netflix. Quelle violence dans les désaccords ! Le sujet le mérite bien sûr, et ça pourrait rassurer. À la lecture, on reste quand même perplexes sur la capacité de ce modèle basé sur des intérêts très personnels et d’égo à devenir responsable envers les gens et la planète.

Google AI chatbot responds with a threatening message: “Human … Please die.”

“Human… please die”, il faut dire que Gemini a du style. J’avoue avoir explosé de rire en voyant les médias se scandaliser alors que c’est juste la situation où nous sommes dans l’évolution des LLM. Et autant de progrès en si peu de temps est hallucinant (sans jeu de mots). Donc What do you expect ? Mais de l’autre côté, on se repose la question de la régulation. Que se passe-t-il si des sociétés vendent des services sans vérifier leur dangerosité. Au moment où Trump met à la poubelle les efforts de régulation très soft de la précédente administration. Un What do you expect? (mais moins drôle)

Agent d’IA : de quoi parle-t-on et quelles sont les possibilités actuelles ?

Bien que rien de très neuf dans cette définition des Agents IA, il est toujours utile de se mettre au clair sur les définitions précises des différents concepts poussés par les équipes marketing les plus puissantes du monde et repris parfois avec peu de précision dans les médias. C’est clairement l’étape du moment qui devrait éclipser l’IA Générative ou le positionner comme un outil IA parmi d’autres. A sa place donc.

Researchers say an AI-powered transcription tool used in hospitals invents things no one ever said

Ce n’est pas une nouveauté que les LLM font beaucoup d’erreurs. C’est même ok vu leur “âge”. Cela ne veut pas dire qu’il ne faut pas s’en servir, au contraire, il faut mesurer les erreurs et augmenter la précision sur des cas d’usages spécifiques et critiques. Ce qui est plus surprenant ici, c’est que Whisper est fourni à toutes les grandes entreprises mondiales via OpenAI, Oracle et Microsoft, qu’il a été téléchargé 4 millions de fois en open-source et 30 000 cliniciens l’utilisent aux États-Unis. Personne n’a testé la qualité avant de se jeter dessus ?

Anthropic’s new AI model can control your PC

Ce n’est pas le premier qui s’y essaie, nombreux sont les services pour prendre la main sur votre ordinateur. Mais la différence ici, c’est que c’est un LLM avec le peu de précisions qu’on leur connait. Il peut faire des choses beaucoup plus dangereuses qu’un chatbot enfermé dans sa petite fenêtre. Cela va faire bien sûr avancer le sujet des Agents IA, mais avec quelle prise de risque ?

What is a “cognitive architecture”?

Sujet peut-être un peu technique : les “cognitive architecture” expliquée par LangChain. Cela reste simple et vaut le coup de bien comprendre les différents modèles, du 100% humain au 100% autonome. Aucune solution n’est meilleure qu’une autre, tout va dépendre du problème à résoudre. On visualise aussi qu’une confusion peut se créer : beaucoup de workflow sont connus et prévisibles, l’autonomie d’un agent pour décider quelle est la prochaine étape n’est pas nécessaire, un bon vieux (no)code est bien plus frugal et maîtrisable.

AI21 CEO says transformers not right for AI agents due to error perpetuation

Au moment où OpenAI pousse ses LLM (sur une technologie de Transformers) pour développer des Agents IA, on entend de plus en souvent la petite musique : trop d’erreurs, pas de mémoire, le perroquet stochastique ne pourra pas prendre des décisions fiables. Il faudrait attendre la fin de l’ère des LLM pour passer à la phase des Agents ? Il va falloir changer un peu le vocabulaire du marketing ambiant… Et refaire atterrir les entreprises qui croyaient à la baguette magique pour leurs opérations.

STATE OF AI REPORT 2024

Pour celles et ceux qui auraient passé l’année 2024 sur une autre planète ou jamais suivi les évolutions de l’IA, ce rapport (220 slides tout de même) n’oublie pas grand-chose. Pour les autres qui sont à jour, ils n’apprendront rien, mais ce genre de ressource est toujours utile. Même si cela consomme un temps non négligeable, comment comprendre ou anticiper ce qui va se passer sans faire cet effort de veille ?