Le framework ESP-Claw d'Espressif transpose le concept d’agent IA au matériel de classe ESP32 : un appareil peut recevoir des instructions via une interface de chat, solliciter un LLM si besoin, puis convertir cette décision en règles Lua locales et en actions matérielles. C’est une évolution intéressante pour les développeurs qui utilisent déjà des cartes ESP32-S3, car elle fait évoluer la question de « un microcontrôleur peut-il appeler une API ? » vers « un petit appareil peut-il conserver un contexte, réagir à des événements et réaliser une tâche utile sans que chaque action soit pilotée depuis le cloud ? » Pour une comparaison concrète, Elektor a publié des articles sur les capteurs ESP32-S3, et ESP-Claw étend désormais ce type d’expérimentation vers des usages orientés agents.

Diagramme conceptuel montrant ESP-Claw reliant des appareils IoT, des capteurs, des services cloud et du traitement IA via un agent de périphérie basé sur ESP32.
ESP-Claw relie les appareils IoT locaux et les services cloud via un framework d'agent de périphérie intégrant l'IA.

Les fonctions du framework ESP-Claw

ESP-Claw est décrit comme un framework d'agent IA de type « Chat Coding » pour les appareils IoT. En pratique, cela signifie qu’un utilisateur peut décrire un comportement dans une interface de chat, tandis que le framework prend en charge toute la chaîne, de la détection au raisonnement, à la décision puis à l’exécution. Le LLM sert à l’interprétation souple et à l’utilisation des outils, tandis que les comportements validés peuvent être enregistrés sous forme de scripts Lua locaux exécutés de manière déterministe. Cette distinction est essentielle : il ne s’agit pas d’un modèle de langage complet exécuté sur un minuscule microcontrôleur, mais d’un environnement d’exécution d’agent local sur matériel Espressif, relié à des modèles externes lorsque du raisonnement est nécessaire, et à des scripts locaux lorsqu’une action prévisible est requise.

Interface de chat ESP-Claw confirmant qu'un script Lua a démarré un effet arc-en-ciel sur un ruban LED connecté au GPIO14.
ESP-Claw transforme une instruction de chat en un script d'effet arc-en-ciel actif sur un ruban LED connecté. Source : Espressif.

Selon la documentation du projet actuelle, ESP-Claw prend en charge la création par chat, le fonctionnement piloté par événements, le MCP bidirectionnel et la mémoire structurée locale. La liste des puces prises en charge mentionne actuellement les ESP32-S3, ESP32-P4 et ESP32-C5, avec un minimum requis de 8 Mo de Flash et 8 Mo de PSRAM. Un outil de flashage via navigateur est aussi disponible pour les cartes compatibles, même si les développeurs peuvent toujours compiler les sources avec ESP-IDF.

Architecture du framework ESP-Claw

L’architecture ne se limite heureusement pas à « prompt en entrée, GPIO en sortie ». Le projet combine une application ESP-IDF, des composants d’exécution réutilisables, un système de capacités, un routeur d’événements, un environnement d’exécution Lua, ainsi que des extensions matérielles et logicielles pour des périphériques comme les écrans, caméras, l’audio, les boutons, GPIO, PWM, I2C, ADC, rubans LED, stockage et UART. ESP-Claw peut exposer des capacités appelables par un LLM, une console ou des règles d’automatisation, tandis que le routeur d’événements peut répondre à des déclencheurs sans attendre une boucle d’interrogation.

La partie MCP mérite aussi l’attention. Le Model Context Protocol est devenu une méthode courante pour relier des applications IA à des outils et des sources de données. ESP-Claw peut fonctionner à la fois comme serveur MCP et comme client MCP, ce qui signifie qu’un appareil ESP32 peut montrer ses capacités matérielles à des agents externes tout en appelant des services externes. C’est là que le lien devient intéressant : la carte n’est plus seulement un terminal de capteur ou un nœud d’actionnement, mais un participant à part entière dans un workflow d’agent.

Ce que les développeurs peuvent tester

Les premiers exemples incluent le contrôle de rubans LED RGB, l'affichage, l'interaction avec une caméra, la sortie audio, la planification, les rappels et la mémoire. ESP-Claw peut être configuré pour des applications de chat telles que Telegram, QQ Bot, Feishu et WeChat ClawBot. Les options LLM mentionnées dans la documentation comprennent les API compatibles OpenAI, Qwen, Claude, DeepSeek et des points de terminaison personnalisés, avec Tavily disponible pour la recherche web. Cela offre aux expérimentateurs une pile fonctionnelle sans avoir à écrire chaque intégration de zéro.
 

Carte de développement ESP32-S3 sur une breadboard avec un écran, un anneau LED, un capteur DHT11, un module buzzer et un micro-servo pour une démonstration matérielle ESP-Claw.
Le tutoriel d'Espressif commence avec ESP-Claw fonctionnant sur une carte de développement ESP32-S3 équipée d'un écran, d'un éclairage, de capteurs, d'un module audio et de périphériques de commande servo.

Les cartes ESP32 sont déjà utilisées pour des capteurs Wi-Fi, des tableaux de bord, des caméras, des jouets, des robots, des projets audio et des nœuds Home Assistant. Le framework ESP-Claw ouvre une étape supplémentaire : des appareils compacts capables de mémoriser les préférences utilisateur, de réagir à des événements, d’exposer leurs capacités via des interfaces standard, tout en gardant les actions critiques en local. Cette approche paraît bien plus crédible que l’idée selon laquelle chaque appareil de périphérie devrait embarquer un modèle gigantesque compressé de force à grand renfort de marketing.

Le code source est disponible dans le dépôt GitHub du projet, où Espressif décrit l'implémentation comme inspirée d'OpenClaw et réécrite en C. Le projet est encore en développement actif et doit donc être considéré comme un framework à explorer plutôt que comme une plateforme de contrôle industriel finalisée. Néanmoins, pour les makers et les développeurs embarqués curieux des agents IA pratiques sur microcontrôleur, c'est un projet à suivre de près.