Les modèles vision-langage sont des modèles d’IA générative qui prennent en entrée des images et des invites textuelles. Certains des VLM les plus récents peuvent aussi être déployés sur du matériel edge à faible coût, comme le RUBIK Pi 3. Cette plateforme dispose de plusieurs accélérateurs pouvant être utilisés pour exécuter simultanément un VLM et un modèle de détection d’objets. Cela permet une technique appelée cascading de modèles, qui améliore la fiabilité et les performances pour des cas d’usage edge AI complexes.

RUBIK Pi 3 dev kit with powerful hardware acceleration in the form of GPUs and NPUs.
Figure 1. Un kit de développement RUBIK Pi 3 avec accélération matérielle puissante via GPU et NPU.

Au cours de l’année passée, nous avons observé une convergence de deux technologies permettant de nouvelles façons de concevoir des applications edge AI. La première concerne la performance du matériel edge. Des ordinateurs monocartes à bas prix sont désormais disponibles avec une accélération matérielle puissante, sous forme de GPU (Graphics Processin...