Rilevamento e monitoraggio degli oggetti

Con l'API di rilevamento e monitoraggio di oggetti on-device di ML Kit, puoi rilevare e monitorare gli oggetti in un'immagine o nel feed videocamera dal vivo.

Facoltativamente, puoi classificare gli oggetti rilevati utilizzando il classificatore generico integrato nell'API o utilizzando il tuo modello di classificazione delle immagini personalizzato. Per ulteriori informazioni, consulta Utilizzo di un modello TensorFlow Lite personalizzato.

Poiché il rilevamento e il monitoraggio degli oggetti avviene sul dispositivo, funziona bene come il front-end della pipeline di ricerca visiva. Dopo aver rilevato e filtrato gli oggetti, puoi passarli a un backend cloud, come Cloud Vision Product Search.

iOS Android

Funzionalità chiave

  • Rilevamento e tracciamento rapido degli oggetti Rileva gli oggetti e individua la loro posizione nell'immagine. Consente di tenere traccia degli oggetti tra cornici di immagini successive.
  • Modello on-device ottimizzato Il modello di rilevamento e monitoraggio degli oggetti è ottimizzato per i dispositivi mobili e destinato all'uso in applicazioni in tempo reale, anche su dispositivi di fascia inferiore.
  • Rilevamento di oggetti in evidenza Determina automaticamente l'oggetto più in evidenza in un'immagine.
  • Classificazione approssimativa Classifica gli oggetti in ampie categorie, che puoi utilizzare per filtrare gli oggetti che non ti interessano. Sono supportate le seguenti categorie: articoli per la casa, articoli di moda, cibo, piante e luoghi.
  • Classificazione con un modello personalizzato Utilizza il tuo modello di classificazione delle immagini personalizzato per identificare o filtrare categorie di oggetti specifiche. Migliora il rendimento del tuo modello personalizzato escludendo lo sfondo dell'immagine.

Risultati di esempio

Monitoraggio dell'oggetto più in evidenza nelle immagini

L'esempio di seguito mostra i dati di monitoraggio di tre frame successivi con il classificatore approssimativo predefinito fornito da ML Kit.

ID monitoraggio 0
Limiti (95; 45), (496; 45), (496, 240), (95, 240)
Categoria LUOGO
Affidabilità della classificazione 0,9296875
ID monitoraggio 0
Limiti (84, 46), (478, 46), (478, 247), (84, 247)
Categoria LUOGO
Affidabilità della classificazione 0,8710938
ID monitoraggio 0
Limiti (53; 45), (519; 45), (519, 240), (53, 240)
Categoria LUOGO
Affidabilità della classificazione 0,8828125

Foto: Christian Ferrer [CC BY-SA 4.0]

Più oggetti in un'immagine statica

L'esempio seguente mostra i dati per i quattro oggetti rilevati nell'immagine con il classificatore approssimativo predefinito fornito da ML Kit.

Oggetto 0
Limiti (1; 97), (332, 97), (332, 332), (1, 332)
Categoria FASHION_GOOD
Affidabilità della classificazione 0,95703125
Oggetto 1
Limiti (186; 80), (337, 80), (337, 226), (186, 226)
Categoria FASHION_GOOD
Affidabilità della classificazione 0,84375
Oggetto 2
Limiti (296; 80), (472, 80), (472, 388), (296, 388)
Categoria FASHION_GOOD
Affidabilità della classificazione 0,94921875
Oggetto 3
Limiti (439; 83), (615, 83), (615, 306), (439, 306)
Categoria FASHION_GOOD
Affidabilità della classificazione 0,9375

Utilizzo di un modello TensorFlow Lite personalizzato

Il classificatore generico predefinito è composto da cinque categorie e fornisce informazioni limitate sugli oggetti rilevati. Potresti aver bisogno di un modello di classificazione più specializzato che copra un dominio più ristretto di concetti in modo più dettagliato; ad esempio, un modello per distinguere tra specie di fiori o tipi di alimenti.

Questa API ti consente di adattare il sistema a un caso d'uso particolare supportando modelli di classificazione delle immagini personalizzati da un'ampia gamma di origini. Per saperne di più, consulta Modelli personalizzati con ML Kit. I modelli personalizzati possono essere abbinati alla tua app o scaricati dinamicamente dal cloud utilizzando il servizio di deployment dei modelli di Firebase Machine Learning.

iOS Android

Pre-elaborazione dell'immagine di input

Se necessario, il rilevamento e il tracciamento degli oggetti utilizzano il ridimensionamento e lo allungamento dell'immagine bilineare per regolare le dimensioni e le proporzioni dell'immagine di input in modo che si adattino ai requisiti del modello sottostante.