Language models still can’t pass complex Theory of Mind tests, Meta shows
Dans la confusion du mot “intelligence” que peut donner l’impression qu’un perroquet stochastique pourrait avoir en imitant des réponses récupérées dans les données d’entraînement (un LLM donc), il est bon de revenir sur des tests plus précis. Celui-là mesure la capacité à comprendre un humain. Les performances restent à 9% pour l’instant. Cela ne veut pas dire que cela ne va jamais marcher, juste qu’on surestime les performances à court terme. Mais n’oublions pas qu’on sous-estime les performances à long terme selon la loi de Lamara.