LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!
Un papier de recherche un peu ardu qui éclaire un aspect intéressant des modèles de raisonnement (o1, Deepseek) : en générant des longs Chain of Thought par un autre LLM comme donnée d’entraînement, les capacités de raisonnement s’améliorent grandement. Cela semble rester un mystère même pour ces chercheurs… Un peu comme quand les Transformers créés pour de la traduction se sont mis à être capable de répondre à des questions pour amener à ChatGPT…