Android

Vos prochains écouteurs pourraient traduire du texte et identifier des objets pour vous

Des chercheurs de l'université de Washington ont mis au point un nouveau prototype de système susceptible de révolutionner la manière dont les gens interagissent avec l'intelligence artificielle au quotidien. Baptisé « VueBuds », ce système intègre de minuscules caméras dans des écouteurs sans fil classiques, permettant ainsi aux utilisateurs de poser à un modèle d'IA des questions sur le monde qui les entoure en temps quasi réel.

Le concept est simple mais puissant. Un utilisateur peut regarder un objet, tel qu'un emballage alimentaire rédigé dans une langue étrangère, et demander à l'IA de le traduire. En moins d'une seconde, le système répond via les écouteurs, créant ainsi une interaction fluide et mains libres.

Une approche différente des appareils portables dotés d'IA

Contrairement aux lunettes intelligentes, dont l'adoption a été freinée par des préoccupations liées à la vie privée et des limites de conception, VueBuds adopte une approche plus subtile. Le système utilise des caméras noir et blanc à basse résolution intégrées aux écouteurs pour capturer des images fixes plutôt que des vidéos en continu.

University of Washington
Université de Washington

Ces images sont transmises via Bluetooth à un appareil connecté, où un petit modèle d'IA les traite localement. Ce traitement sur l'appareil garantit que les données n'ont pas besoin d'être envoyées dans le cloud, ce qui répond à l'une des principales préoccupations concernant les caméras portables.

Vidéos recommandées

Pour renforcer encore la protection de la vie privée, les écouteurs sont équipés d'un voyant lumineux visible lors de l'enregistrement et permettent aux utilisateurs de supprimer instantanément les images capturées.

Ingénierie autour des limites de puissance et de performance

L'un des principaux défis auxquels l'équipe de recherche a été confrontée était la consommation d'énergie. Les caméras nécessitent beaucoup plus d'énergie que les microphones, ce qui rend peu pratique l'utilisation de capteurs haute résolution comme ceux que l'on trouve dans les lunettes intelligentes.

Pour résoudre ce problème, l'équipe a utilisé une caméra de la taille d'un grain de riz, capturant des images en niveaux de gris à basse résolution. Cette approche réduit la consommation de la batterie et permet une transmission Bluetooth efficace sans compromettre la réactivité.

Le placement était un autre élément clé à prendre en compte. En orientant légèrement les caméras vers l'extérieur, le système offre un champ de vision compris entre 98 et 108 degrés. Bien qu'il existe un petit angle mort pour les objets tenus très près, les chercheurs ont constaté que cela n'affectait pas l'utilisation courante.

Le système combine également les images des deux écouteurs en une seule image, ce qui améliore la vitesse de traitement. Cela permet aux VueBuds de réagir en environ une seconde, contre deux secondes lorsque les images sont traitées séparément.

Performances par rapport aux lunettes intelligentes

Lors des tests, 74 participants ont comparé les VueBuds à des lunettes connectées telles que les modèles Ray-Ban de Meta. Malgré l'utilisation d'images de plus faible résolution et un traitement local, les VueBuds ont affiché des performances globalement similaires.

Earbuds
Unsplash

Le rapport a montré que les participants préféraient les VueBuds pour les tâches de traduction, tandis que les lunettes intelligentes étaient plus performantes pour compter des objets. Lors d'essais distincts, les VueBuds ont atteint des taux de précision d'environ 83 à 84 % pour la traduction et l'identification d'objets, et jusqu'à 93 % pour l'identification des titres de livres et des auteurs.

Pourquoi est-ce important et quelle est la prochaine étape ?

Cette étude met en évidence un changement potentiel dans la conception des appareils portables alimentés par l'IA. En intégrant l'intelligence visuelle dans un appareil que les gens utilisent déjà, le système contourne bon nombre des obstacles rencontrés par les lunettes intelligentes.

Il subsiste toutefois des limites. Le système actuel ne peut pas interpréter les couleurs, et ses capacités en sont encore à leurs débuts. L'équipe prévoit d'étudier l'ajout de capteurs de couleur et de développer des modèles d'IA spécialisés pour des tâches telles que la traduction et l'aide à l'accessibilité.

Les chercheurs présenteront leurs conclusions lors de la conférence de l'Association for Computing Machinery sur les facteurs humains dans les systèmes informatiques, qui se tiendra à Barcelone, offrant ainsi un aperçu d'un avenir où les appareils du quotidien deviendront discrètement des assistants intelligents.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *