Introduction : qu’est-ce qui rend Claude 4 si spécial ?
Dans une interview avec Sholto Douglas et Trenton Bricken, tous deux chercheurs chez Anthropic, une chose est claire : Claude 4 représente un nouveau niveau de compétence et de traçabilité en matière d’IA. La conversation porte sur les recherches actuelles visant à mettre à l’échelle l’apprentissage par renforcement (RL) afin de construire des agents IA de plus en plus autonomes, ainsi que sur les nouvelles approches permettant de rendre visibles et compréhensibles les « processus de pensée » d’une IA telle que Claude 4.
Comment « pense » un LLM comme Claude 4 ?
Les grands modèles linguistiques tels que Claude 4 ne fonctionnent pas comme le cerveau humain : ils n’ont pas de pensées ou de sentiments réels. Leur « pensée » est basée sur des probabilités : pour chaque mot, le modèle prédit le mot le plus susceptible de suivre, en se basant sur des milliards d’exemples tirés de données d’entraînement. Ce qui est particulièrement intéressant, c’est que les capacités à résoudre des tâches complexes sont déjà présentes dans le modèle de base. Ce n’est que grâce à un apprentissage par renforcement ciblé, par exemple avec des signaux de récompense clairs tels que des problèmes mathématiques résolus ou des tests unitaires réussis, que ces capacités sont affinées et entraînées pour des applications spécifiques telles que la programmation ou la résolution de problèmes.
Interprétabilité mécanistique : observer l’IA « penser »
L’un des moments forts de l’interview est la discussion sur l’interprétabilité mécanistique. Les chercheurs sont désormais capables d’identifier des « circuits » et des caractéristiques individuels dans les réseaux neuronaux, et ainsi de comprendre comment Claude 4 établit des diagnostics médicaux ou effectue des raisonnements complexes. De nombreuses capacités résultent de l’interaction et de la « superposition » d’informations dans les poids du réseau. De nouveaux outils tels que les auto-encodeurs économiques permettent de démêler cette « compression des données » et de mieux comprendre comment l’IA parvient à ses réponses.
L’avenir : des collègues IA aux conséquences sociales
Les experts sont unanimes : grâce à des algorithmes toujours plus performants, à une puissance de calcul accrue et à de meilleures données d’entraînement, les agents IA pourraient bientôt automatiser de nombreuses tâches quotidiennes au bureau. Les principaux obstacles ne sont pas les algorithmes eux-mêmes, mais les ressources, les infrastructures et une réglementation adéquate. C’est pourquoi Sholto et Trenton appellent à intégrer très tôt les valeurs sociales dans le développement et à prendre au sérieux les risques, notamment liés à l’utilisation militaire. Leur conclusion : seule une interaction entre la recherche technique, la sécurité et la planification sociale permettra d’orienter le développement de l’IA dans une direction positive.