Bildbeschriftung

Mit den Image Labeling APIs von ML Kit können Sie Informationen zu Entitäten in einem Bild unterschiedlicher Kategorien erkennen und extrahieren. Mit dem Standardmodell für Bildlabels lassen sich allgemeine Objekte, Orte, Aktivitäten, Tierarten, Produkte und mehr identifizieren.

Sie können auch ein benutzerdefiniertes Bildklassifizierungsmodell verwenden, um die Erkennung an einen bestimmten Anwendungsfall anzupassen. Weitere Informationen finden Sie unter Benutzerdefiniertes TensorFlow Lite-Modell verwenden.

Hauptmerkmale

  • Leistungsstarker Basisklassifikator für allgemeine Zwecke: Erkennt mehr als 400 Kategorien, die die am häufigsten auf Fotos gefundenen Objekte beschreiben.
  • Mit benutzerdefinierten Modellen auf Ihren Anwendungsfall zugeschnitten Sie können andere vortrainierte Modelle aus TensorFlow Hub oder Ihr eigenes benutzerdefiniertes Modell verwenden, das mit TensorFlow, AutoML Vision Edge oder TensorFlow Lite Model Maker trainiert wurde.
  • Nutzerfreundliche High-Level-APIs Sie müssen sich nicht um die Low-Level-Modelleingabe/-ausgabe, die Bildvor- und Nachverarbeitung oder das Erstellen einer Verarbeitungspipeline kümmern. ML Kit extrahiert die Labels aus dem TensorFlow Lite-Modell und stellt sie als Textbeschreibung bereit.

Beachten Sie, dass diese API für Bildklassifizierungsmodelle vorgesehen ist, die das vollständige Bild beschreiben. Wenn Sie ein oder mehrere Objekte in einem Bild klassifizieren möchten, z. B. Schuhe oder Möbel, eignet sich die Object Detection & Tracking API möglicherweise besser.

Unterstützte Bildklassifizierungsmodelle

Die Image Labeling APIs unterstützen verschiedene Bildklassifizierungsmodelle:

Unterstützte Bildklassifizierungsmodelle
Basismodell Standardmäßig verwendet die API ein leistungsstarkes Modell zur allgemeinen Bildbeschriftung, das mehr als 400 Entitäten erkennt, die die gängigsten Konzepte in Fotos abdecken.
Benutzerdefinierte TensorFlow Lite-Modelle Für die Ausrichtung anwendungsspezifischer Konzepte akzeptiert die API benutzerdefinierte Bildklassifizierungsmodelle aus einer Vielzahl von Quellen. Dabei kann es sich um vortrainierte Modelle handeln, die von TensorFlow Hub heruntergeladen werden, oder um eigene Modelle, die mit AutoML Vision Edge, TensorFlow Lite Model Maker oder TensorFlow selbst trainiert wurden. Modelle können mit Ihrer App gebündelt oder mit Firebase Machine Learning gehostet und zur Laufzeit heruntergeladen werden.

Basismodell verwenden

Das Basismodell von ML Kit gibt eine Liste von Entitäten zurück, die Personen, Dinge, Orte, Aktivitäten usw. identifizieren. Jede Entität hat einen Wert, der angibt, wie hoch das Vertrauen des ML-Modells in seine Relevanz ist. Mit diesen Informationen können Sie Aufgaben wie die automatische Generierung von Metadaten und die Inhaltsmoderation ausführen. Das mit ML Kit bereitgestellte Standardmodell erkennt mehr als 400 verschiedene Entitäten.

iOS Android

Beispiellabels

Das Basismodell in der Image Labeling API unterstützt mehr als 400 Labels, wie in den folgenden Beispielen:

KategorieBeispiellabels
Personen Crowd
Selfie
Smile
Aktivitäten Dancing
Eating
Surfing
Dinge Car
Piano
Receipt
Tiere Bird
Cat
Dog
Pflanzen Flower
Fruit
Vegetable
Places Beach
Lake
Mountain

Beispielergebnisse

Hier sehen Sie ein Beispiel für die Objekte, die auf dem begleitenden Foto erkannt wurden.

Foto: Clément Bucco-Lechat / Wikimedia Commons / CC BY-SA 3.0
Label 0
Text Stadion
Verlässlichkeit 0,9205354
Label 1
Text Sport
Verlässlichkeit 0,7531109
Label 2
Text Veranstaltung
Verlässlichkeit 0,66905296
Label 3
Text Freizeit
Verlässlichkeit 0,59904146
Label 4
Text Fußball
Verlässlichkeit 0,56384534
Label 5
Text Netto
Verlässlichkeit 0,54679185
Label 6
Text Pflanze
Verlässlichkeit 0,524364

Benutzerdefiniertes TensorFlow Lite-Modell verwenden

Das Basis-Labeling-Modell für Bilder von ML Kit wurde für den allgemeinen Gebrauch entwickelt. Er ist darauf trainiert, 400 Kategorien zu erkennen, die die am häufigsten gefundenen Objekte auf Fotos beschreiben. Ihre App benötigt möglicherweise ein spezielles Bildklassifizierungsmodell, das eine kleinere Anzahl von Kategorien im Detail erkennt, z. B. ein Modell, das zwischen Blumenarten oder Lebensmitteln unterscheidet.

Mit dieser API können Sie Anpassungen an einen bestimmten Anwendungsfall vornehmen, indem Sie benutzerdefinierte Bildklassifizierungsmodelle aus einer Vielzahl von Quellen unterstützen. Weitere Informationen finden Sie unter Benutzerdefinierte Modelle mit ML Kit. Benutzerdefinierte Modelle können mit Ihrer Anwendung gebündelt oder mithilfe des Modellbereitstellungsdiensts von Firebase Machine Learning dynamisch aus der Cloud heruntergeladen werden.

iOS Android

Bildvorverarbeitung der Eingabe

Bei Bedarf werden für Image Labeling die Größe und das Seitenverhältnis des Eingabebilds mithilfe von bilinearer Bildskalierung und -Stretchung so angepasst, dass sie den Anforderungen des zugrunde liegenden Modells entsprechen.