Scopri come utilizzare l'API Scene Semantics nelle tue app.
L'API Scene Semantics consente agli sviluppatori di comprendere la scena circostante l'utente, fornendo informazioni semantiche in tempo reale basate su modello ML. Data l'immagine di una scena all'aperto, l'API restituisce un'etichetta per ogni pixel in una serie di utili classi semantiche, come cielo, edificio, albero, strada, marciapiede, veicolo, persona e altro ancora. Oltre alle etichette dei pixel, l'API Scene Semantics offre anche valori di confidenza per ciascuna etichetta dei pixel e un modo facile da usare per interrogare la prevalenza di una determinata etichetta in una scena all'aperto.
Da sinistra a destra, esempi di un'immagine di input, l'immagine semantica delle etichette di pixel e l'immagine di confidenza corrispondente:
Prerequisiti
Assicurati di comprendere i concetti fondamentali della realtà aumentata e su come configurare una sessione ARCore prima di procedere.
Attiva la semantica della scena
In una nuova sessione ARCore, verifica se il dispositivo di un utente supporta l'API Scene Semantics. Non tutti i dispositivi compatibili con ARCore supportano l'API Scene Semantics a causa di limitazioni della potenza di elaborazione.
Per risparmiare risorse, Scene Semantics è disattivata per impostazione predefinita su ARCore. Attiva la modalità semantica per fare in modo che la tua app usi l'API Scene Semantics.
GARSessionConfiguration *configuration = [[GARSessionConfiguration alloc] init];
if ([self.garSession isSemanticModeSupported:GARSemanticModeEnabled]) {
configuration.semanticMode = GARSemanticModeEnabled;
}
NSError *error;
[self.garSession setConfiguration:configuration error:&error];
Ottieni l'immagine semantica
Una volta attivata la semantica della scena, è possibile recuperare l'immagine semantica. L'immagine semantica è un'immagine kCVPixelFormatType_OneComponent8
, in cui ogni pixel corrisponde a un'etichetta semantica definita da GARSemanticLabel
.
Utilizza GARFrame.semanticImage
per acquisire l'immagine semantica:
CVPixelBuffer semanticImage = garFrame.semanticImage;
if (semanticImage) {
// Use the semantic image here
} else {
// Semantic images are not available.
// The output image may be missing for the first couple frames before the model has had a
// chance to run yet.
}
Le immagini semantiche di output dovrebbero essere disponibili dopo circa 1-3 frame dall'inizio della sessione, a seconda del dispositivo.
Ottenere l'immagine di affidabilità
Oltre all'immagine semantica, che fornisce un'etichetta per ogni pixel, l'API fornisce anche un'immagine di confidenza dei valori di confidenza dei pixel corrispondenti. L'immagine di confidenza è un'immagine kCVPixelFormatType_OneComponent8
, in cui ogni pixel corrisponde a un valore nell'intervallo [0, 255]
, corrispondente alla probabilità associata all'etichetta semantica per ogni pixel.
Utilizza GARFrame.semanticConfidenceImage
per acquisire l'immagine di confidenza semantica:
CVPixelBuffer confidenceImage = garFrame.semanticConfidenceImage;
if (confidenceImage) {
// Use the semantic image here
} else {
// Semantic images are not available.
// The output image may be missing for the first couple frames before the model has had a
// chance to run yet.
}
Le immagini di confidenza di output dovrebbero essere disponibili dopo circa 1-3 frame dall'inizio della sessione, a seconda del dispositivo.
Query sulla frazione di pixel per un'etichetta semantica
Puoi anche eseguire query sulla frazione di pixel nel frame corrente che appartengono a una determinata classe, ad esempio "sky". Questa query è più efficiente che restituire l'immagine semantica ed eseguire una ricerca a livello di pixel per un'etichetta specifica. La frazione restituita è un valore in virgola mobile nell'intervallo [0.0, 1.0]
.
Utilizza fractionForSemanticLabel:
per acquisire la frazione per una determinata etichetta:
// Ensure that semantic data is present for the GARFrame.
if (garFrame.semanticImage) {
float fraction = [garFrame fractionForSemanticLabel:GARSemanticLabelSky];
}