Questa pagina è stata tradotta dall'API Cloud Translation.

Rilevamento e monitoraggio degli oggetti

Con l'API di rilevamento e monitoraggio di oggetti on-device di ML Kit, puoi rilevare e monitorare gli oggetti in un'immagine o nel feed videocamera dal vivo.

Facoltativamente, puoi classificare gli oggetti rilevati utilizzando il classificatore generico integrato nell'API o utilizzando il tuo modello di classificazione delle immagini personalizzato. Per ulteriori informazioni, consulta Utilizzo di un modello TensorFlow Lite personalizzato.

Poiché il rilevamento e il monitoraggio degli oggetti avviene sul dispositivo, funziona bene come il front-end della pipeline di ricerca visiva. Dopo aver rilevato e filtrato gli oggetti, puoi passarli a un backend cloud, come Cloud Vision Product Search.

iOS Android

Funzionalità chiave

Rilevamento e tracciamento rapido degli oggetti Rileva gli oggetti e individua la loro posizione nell'immagine. Consente di tenere traccia degli oggetti tra cornici di immagini successive.
Modello on-device ottimizzato Il modello di rilevamento e monitoraggio degli oggetti è ottimizzato per i dispositivi mobili e destinato all'uso in applicazioni in tempo reale, anche su dispositivi di fascia inferiore.
Rilevamento di oggetti in evidenza Determina automaticamente l'oggetto più in evidenza in un'immagine.
Classificazione approssimativa Classifica gli oggetti in ampie categorie, che puoi utilizzare per filtrare gli oggetti che non ti interessano. Sono supportate le seguenti categorie: articoli per la casa, articoli di moda, cibo, piante e luoghi.
Classificazione con un modello personalizzato Utilizza il tuo modello di classificazione delle immagini personalizzato per identificare o filtrare categorie di oggetti specifiche. Migliora il rendimento del tuo modello personalizzato escludendo lo sfondo dell'immagine.

Risultati di esempio

Monitoraggio dell'oggetto più in evidenza nelle immagini

L'esempio di seguito mostra i dati di monitoraggio di tre frame successivi con il classificatore approssimativo predefinito fornito da ML Kit.

ID monitoraggio	0
Limiti	(95; 45), (496; 45), (496, 240), (95, 240)
Categoria	LUOGO
Affidabilità della classificazione	0,9296875

ID monitoraggio	0
Limiti	(84, 46), (478, 46), (478, 247), (84, 247)
Categoria	LUOGO
Affidabilità della classificazione	0,8710938

ID monitoraggio	0
Limiti	(53; 45), (519; 45), (519, 240), (53, 240)
Categoria	LUOGO
Affidabilità della classificazione	0,8828125

Foto: Christian Ferrer [CC BY-SA 4.0]

Più oggetti in un'immagine statica

L'esempio seguente mostra i dati per i quattro oggetti rilevati nell'immagine con il classificatore approssimativo predefinito fornito da ML Kit.

Oggetto 0
Limiti	(1; 97), (332, 97), (332, 332), (1, 332)
Categoria	FASHION_GOOD
Affidabilità della classificazione	0,95703125
Oggetto 1
Limiti	(186; 80), (337, 80), (337, 226), (186, 226)
Categoria	FASHION_GOOD
Affidabilità della classificazione	0,84375
Oggetto 2
Limiti	(296; 80), (472, 80), (472, 388), (296, 388)
Categoria	FASHION_GOOD
Affidabilità della classificazione	0,94921875
Oggetto 3
Limiti	(439; 83), (615, 83), (615, 306), (439, 306)
Categoria	FASHION_GOOD
Affidabilità della classificazione	0,9375

Utilizzo di un modello TensorFlow Lite personalizzato

Il classificatore generico predefinito è composto da cinque categorie e fornisce informazioni limitate sugli oggetti rilevati. Potresti aver bisogno di un modello di classificazione più specializzato che copra un dominio più ristretto di concetti in modo più dettagliato; ad esempio, un modello per distinguere tra specie di fiori o tipi di alimenti.

Questa API ti consente di adattare il sistema a un caso d'uso particolare supportando modelli di classificazione delle immagini personalizzati da un'ampia gamma di origini. Per saperne di più, consulta Modelli personalizzati con ML Kit. I modelli personalizzati possono essere abbinati alla tua app o scaricati dinamicamente dal cloud utilizzando il servizio di deployment dei modelli di Firebase Machine Learning.

iOS Android

Pre-elaborazione dell'immagine di input

Se necessario, il rilevamento e il tracciamento degli oggetti utilizzano il ridimensionamento e lo allungamento dell'immagine bilineare per regolare le dimensioni e le proporzioni dell'immagine di input in modo che si adattino ai requisiti del modello sottostante.