Aller au contenu

LA RECONNAISSANCE D'IMAGE avec Cloud Vision API

Cloud Vison API, l'api utilisé par google pour de la reconnaissance d'image.

Cloud Vision API

Cloud Vision API

L’API Cloud Vision est une plateforme de reconnaissance d’images basée sur l’IA, qui est offerte par Google Cloud Platform (GCP). Cette API permet aux développeurs d’intégrer facilement des fonctionnalités de détection et de reconnaissance d’images dans leurs applications. En utilisant des modèles de machine learning pré-entraînés, l’API Cloud Vision peut effectuer une reconnaissance d’images avancée, sans avoir besoin de développer des algorithmes à partir de zéro.

L’API Cloud Vision utilise plusieurs techniques de reconnaissance d’images : la détection de visages, la reconnaissance optique de caractères (OCR), la reconnaissance d’objets et de logos, ainsi que la reconnaissance de textes dans des images. Grâce à ces fonctionnalités, les développeurs peuvent créer des applications qui sont capables de classer des images, de détecter des éléments spécifiques dans des images et même de générer des descriptions d’images. Avec l’API Cloud Vision, les développeurs peuvent créer des applications plus  avancées qui répondent aux besoins des utilisateurs, tout en réduisant le temps et les coûts de développement.

Dans quels domaine utilise-t-on Cloud Vision API ?

Les fonctionnalités de Cloud Vision API

Détection de texte

Cloud Vision API est capable de détecter et de reconnaître le texte présent dans une image. Pour cela des techniques de reconnaissance optique de caractères (OCR) sont utilisées.

Cloud Vision API est capable de détecter les zones de texte éparses dans une image, comme le texte sur les panneaux de signalisation urbains. Dans ce cas, elle retournera le texte extrait, les mots individuels et les coordonnées des sommets du polygone englobant le texte (bounding box).

Détection de logo

Cloud Vision API est capable de détecter les logos populaires dans une image. Pour chaque logo, la Cloud Vision API fournit le nom de l’entité identifiée, les coordonnées des sommets du polygone englobant le logo (bounding box), un score de confiance.

Détection de visage

Cloud Vision API est capable de localiser de multiples visages dans une image. Pour chaque visage détecté elle fournit notamment les coordonnées des sommets du polygone englobant l’objet (bounding box), les coordonnées des emplacements faciaux tels que les yeux, le nez, la bouche, ainsi que les scores de confiance associés.

Cloud Vision API est également capable de fournir la probabilité pour les émotions telles que la joie, la tristesse, la colère, la surprise.

Indication des propriétés des couleurs

Cloud Vision API est capable de détecter les propriétés générales d’une image, telles que les couleurs dominantes.

Détection des objets

Il affiche un cadre de délimitation autour de chaque objet identifié sur une photo ou vidéo.
l’objet identifié est illustré à l’aide d’une description textuelle.

Détection de landmarks

Cloud Vision API peut également détecter les landmarks, c’est à dire les les structures naturelles ou crées par l’homme. Cela correspond par exemple à des entités géographiques telles que les bâtiments et les lieux. Pour chaque landmark, la Cloud Vision API fournit le nom du landmark, les coordonnées des sommets du polygone englobant l’objet (bounding box), un score de confiance. La Cloud Vision API fournit également les coordonnées géographique de l’entité détectée

Recommandation de recadrage

Cloud Vision API est capable de fournir des recommandations de recadrage d’une image, sous la forme des coordonnées des sommets du polygone de recadrage (bounding box), du ratio par rapport à l’image originale et d’un indice de confiance.

Les cas d’usage de Cloud Vision API

Cette technologie peut être utilisée dans plusieurs domaines et cas de figures diverses et variés, tel que:

  • détecter et extraire du texte d’une image
  • classer des visages
  • détecter logos et labels
  • bloquer le téléchargement des contenus inappropriés

Les points positifs de cloud Vision API

L’analyse d’images est devenue un élément clé pour de nombreuses entreprises et organisations qui cherchent à extraire des informations utiles à partir de vastes collections d’images. Cloud Vision API est un service d’analyse d’images offert par Google qui utilise des algorithmes d’apprentissage automatique pour la reconnaissance et l’analyse d’images. Les avantages de cette API sont nombreux et variés.

Tout d’abord, Cloud Vision API est extrêmement précis

En utilisant des algorithmes d’apprentissage automatique, cette API peut fournir des résultats de reconnaissance précis qui sont adaptés aux besoins de chaque entreprise. Cette précision peut aider les entreprises à prendre des décisions plus éclairées, à automatiser des processus et à améliorer l’efficacité opérationnelle.

De plus, Cloud Vision API est rapide

Elle peut traiter des images en temps réel ou en batch, ce qui permet d’analyser de grandes quantités de données rapidement. Cela signifie que les entreprises peuvent traiter des images en temps réel, sans avoir à attendre des heures ou des jours pour obtenir des résultats. Cela peut être particulièrement utile pour les entreprises qui doivent prendre des décisions rapides en fonction des images qu’elles analysent.

Enfin, Cloud Vision API est facile à utiliser

Elle peut être intégrée dans différentes applications, ce qui la rend accessible à un large éventail d’utilisateurs, même ceux qui ne sont pas experts en analyse d’images. Cela signifie que les entreprises peuvent facilement commencer à utiliser l’API et bénéficier de ses avantages dès le départ.

Les limites de Cloud Vision API

Bien que Cloud Vision API offre de nombreux avantages pour la reconnaissance et l’analyse d’images, il y a aussi des points négatifs à prendre en compte, en particulier en ce qui concerne la détection d’objet.

La première limite est la limitation de la précision de la détection

Même si Cloud Vision API a une précision élevée pour la détection d’objets, cette précision peut varier en fonction de la taille de l’objet ou de la complexité de son arrière-plan. Par conséquent, il est possible que certains objets ne soient pas détectés avec précision. Cela peut être un problème pour les entreprises qui ont besoin d’une précision absolue dans la détection d’objets.

Pour illustrer mes propos, dans le cadre de la production de pièces automobiles en usine, la détection des défauts sur la chaîne de production peut être mauvaise par deux facteurs critiques : la difficulté de distinguer la couleur de la pièce par rapport à l'arrière-plan et une mauvaise position de la pièce. Une couleur qui ne ressort pas clairement peut résulter de variations d'éclairage ou de teintes similaires entre la pièce et l'environnement, rendant difficile l'identification précise des défauts ou des caractéristiques souhaitées. De plus, une mauvaise position de la pièce, même légèrement décalée ou inclinée, peut compromettre la précision de la détection.

La seconde limite est que Cloud Vision API peut nécessiter un entraînement supplémentaire pour détecter des objets spécifiques qui ne sont pas inclus dans la bibliothèque d’objets pré-entraînés

Si une entreprise souhaite détecter un objet qui n’est pas présent dans la bibliothèque, elle devra entraîner l’API à reconnaître cet objet spécifique. Cela peut prendre du temps et des ressources supplémentaires pour l’entreprise.

Pour conclure...

... sur l'API Cloud Vision, elle offre aux développeurs une puissante plateforme de reconnaissance d'images basée sur l'IA. Grâce à ses fonctionnalités avancées de détection , elle permet aux entreprises d'automatiser des tâches complexes et d'extraire des informations utiles à partir de bases de données d'images. Bien que l'API présente de gros avantages en termes de précision, de rapidité et de facilité d'utilisation, il est important de noter certaines limites, notamment en ce qui concerne la détection précise d'objets spécifiques et le besoin d'un entraînement supplémentaire pour des cas d'utilisation spécifiques. Dans l'ensemble, l'API Cloud Vision est un outil précieux pour les entreprises qui souhaitent se servir de la reconnaissance d'images.

Dernier