Вы можете использовать ML Kit для обнаружения и отслеживания объектов в последовательных видеокадрах.
При передаче изображения в ML Kit он обнаруживает до пяти объектов на изображении и определяет положение каждого из них. При обнаружении объектов в видеопотоках каждый объект получает уникальный идентификатор, который можно использовать для отслеживания объекта от кадра к кадру. При желании можно включить грубую классификацию объектов, которая присваивает объектам общие описания категорий.
Попробуйте это
- Поэкспериментируйте с образцом приложения , чтобы увидеть пример использования этого API.
- Полную реализацию этого API можно увидеть в демонстрационном приложении Material Design .
Прежде чем начать
- В файле
build.gradle
уровня проекта обязательно включите репозиторий Maven от Google в разделыbuildscript
иallprojects
. - Добавьте зависимости для библиотек ML Kit Android в файл Gradle уровня приложения вашего модуля, который обычно называется
app/build.gradle
:dependencies { // ... implementation 'com.google.mlkit:object-detection:17.0.2' }
1. Настройте детектор объектов
Для обнаружения и отслеживания объектов сначала создайте экземпляр ObjectDetector
и при необходимости укажите любые настройки детектора, которые вы хотите изменить по сравнению со значениями по умолчанию.
Настройте детектор объектов для вашего варианта использования с помощью объекта
ObjectDetectorOptions
. Вы можете изменить следующие параметры:Настройки детектора объектов Режим обнаружения STREAM_MODE
(по умолчанию) |SINGLE_IMAGE_MODE
В
STREAM_MODE
(по умолчанию) детектор объектов работает с малой задержкой, но может выдавать неполные результаты (например, неуказанные ограничивающие рамки или метки категорий) при первых нескольких вызовах детектора. Кроме того, вSTREAM_MODE
детектор присваивает объектам идентификаторы отслеживания, которые можно использовать для отслеживания объектов в кадрах. Используйте этот режим, если требуется отслеживать объекты или когда важна малая задержка, например, при обработке видеопотоков в реальном времени.В
SINGLE_IMAGE_MODE
детектор объектов возвращает результат после определения ограничивающего прямоугольника объекта. Если также включена классификация, результат возвращается после того, как будут доступны ограничивающий прямоугольник и метка категории. В результате задержка обнаружения потенциально увеличивается. Кроме того, вSINGLE_IMAGE_MODE
идентификаторы отслеживания не назначаются. Используйте этот режим, если задержка не критична и вы не хотите иметь дело с частичными результатами.Обнаружение и отслеживание нескольких объектов false
(по умолчанию) |true
Обнаруживать и отслеживать до пяти объектов или только наиболее заметный объект (по умолчанию).
Классифицировать объекты false
(по умолчанию) |true
Классифицировать обнаруженные объекты по грубым категориям. При включении детектор объектов классифицирует объекты по следующим категориям: модные товары, продукты питания, товары для дома, места и растения.
API обнаружения и отслеживания объектов оптимизирован для двух основных вариантов использования:
- Обнаружение и отслеживание в реальном времени наиболее заметного объекта в видоискателе камеры.
- Обнаружение нескольких объектов на статическом изображении.
Чтобы настроить API для этих вариантов использования:
Котлин
// Live detection and tracking val options = ObjectDetectorOptions.Builder() .setDetectorMode(ObjectDetectorOptions.STREAM_MODE) .enableClassification() // Optional .build() // Multiple object detection in static images val options = ObjectDetectorOptions.Builder() .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE) .enableMultipleObjects() .enableClassification() // Optional .build()
Ява
// Live detection and tracking ObjectDetectorOptions options = new ObjectDetectorOptions.Builder() .setDetectorMode(ObjectDetectorOptions.STREAM_MODE) .enableClassification() // Optional .build(); // Multiple object detection in static images ObjectDetectorOptions options = new ObjectDetectorOptions.Builder() .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE) .enableMultipleObjects() .enableClassification() // Optional .build();
Получите экземпляр
ObjectDetector
:Котлин
val objectDetector = ObjectDetection.getClient(options)
Ява
ObjectDetector objectDetector = ObjectDetection.getClient(options);
2. Подготовьте входное изображение.
Для обнаружения и отслеживания объектов передайте изображения в методprocess()
экземпляра ObjectDetector
. Детектор объектов работает непосредственно с Bitmap
, NV21 ByteBuffer
или YUV_420_888 media.Image
. Рекомендуется создавать InputImage
из этих источников, если у вас есть прямой доступ к одному из них. Если вы создаете InputImage
из других источников, мы выполним преобразование автоматически, и это может быть менее эффективно.
Для каждого кадра видео или изображения в последовательности выполните следующие действия:
Вы можете создать объект InputImage
из разных источников, каждый из которых описан ниже.
Использование media.Image
Чтобы создать объект InputImage
из объекта media.Image
, например, при захвате изображения с камеры устройства, передайте объект media.Image
и поворот изображения в InputImage.fromMediaImage()
.
Если вы используете библиотеку CameraX , классы OnImageCapturedListener
и ImageAnalysis.Analyzer
рассчитывают значение поворота автоматически.
Котлин
private class YourImageAnalyzer : ImageAnalysis.Analyzer { override fun analyze(imageProxy: ImageProxy) { val mediaImage = imageProxy.image if (mediaImage != null) { val image = InputImage.fromMediaImage(mediaImage, imageProxy.imageInfo.rotationDegrees) // Pass image to an ML Kit Vision API // ... } } }
Ява
private class YourAnalyzer implements ImageAnalysis.Analyzer { @Override public void analyze(ImageProxy imageProxy) { Image mediaImage = imageProxy.getImage(); if (mediaImage != null) { InputImage image = InputImage.fromMediaImage(mediaImage, imageProxy.getImageInfo().getRotationDegrees()); // Pass image to an ML Kit Vision API // ... } } }
Если вы не используете библиотеку камеры, которая вычисляет угол поворота изображения, вы можете рассчитать его на основе угла поворота устройства и ориентации датчика камеры в устройстве:
Котлин
private val ORIENTATIONS = SparseIntArray() init { ORIENTATIONS.append(Surface.ROTATION_0, 0) ORIENTATIONS.append(Surface.ROTATION_90, 90) ORIENTATIONS.append(Surface.ROTATION_180, 180) ORIENTATIONS.append(Surface.ROTATION_270, 270) } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) @Throws(CameraAccessException::class) private fun getRotationCompensation(cameraId: String, activity: Activity, isFrontFacing: Boolean): Int { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. val deviceRotation = activity.windowManager.defaultDisplay.rotation var rotationCompensation = ORIENTATIONS.get(deviceRotation) // Get the device's sensor orientation. val cameraManager = activity.getSystemService(CAMERA_SERVICE) as CameraManager val sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION)!! if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360 } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360 } return rotationCompensation }
Ява
private static final SparseIntArray ORIENTATIONS = new SparseIntArray(); static { ORIENTATIONS.append(Surface.ROTATION_0, 0); ORIENTATIONS.append(Surface.ROTATION_90, 90); ORIENTATIONS.append(Surface.ROTATION_180, 180); ORIENTATIONS.append(Surface.ROTATION_270, 270); } /** * Get the angle by which an image must be rotated given the device's current * orientation. */ @RequiresApi(api = Build.VERSION_CODES.LOLLIPOP) private int getRotationCompensation(String cameraId, Activity activity, boolean isFrontFacing) throws CameraAccessException { // Get the device's current rotation relative to its "native" orientation. // Then, from the ORIENTATIONS table, look up the angle the image must be // rotated to compensate for the device's rotation. int deviceRotation = activity.getWindowManager().getDefaultDisplay().getRotation(); int rotationCompensation = ORIENTATIONS.get(deviceRotation); // Get the device's sensor orientation. CameraManager cameraManager = (CameraManager) activity.getSystemService(CAMERA_SERVICE); int sensorOrientation = cameraManager .getCameraCharacteristics(cameraId) .get(CameraCharacteristics.SENSOR_ORIENTATION); if (isFrontFacing) { rotationCompensation = (sensorOrientation + rotationCompensation) % 360; } else { // back-facing rotationCompensation = (sensorOrientation - rotationCompensation + 360) % 360; } return rotationCompensation; }
Затем передайте объект media.Image
и значение угла поворота в InputImage.fromMediaImage()
:
Котлин
val image = InputImage.fromMediaImage(mediaImage, rotation)
Java
InputImage image = InputImage.fromMediaImage(mediaImage, rotation);
Использование URI файла
Чтобы создать объект InputImage
из URI файла, передайте контекст приложения и URI файла методу InputImage.fromFilePath()
. Это полезно при использовании намерения ACTION_GET_CONTENT
, чтобы предложить пользователю выбрать изображение из приложения-галереи.
Котлин
val image: InputImage try { image = InputImage.fromFilePath(context, uri) } catch (e: IOException) { e.printStackTrace() }
Java
InputImage image; try { image = InputImage.fromFilePath(context, uri); } catch (IOException e) { e.printStackTrace(); }
Использование ByteBuffer
или ByteArray
Чтобы создать объект InputImage
из ByteBuffer
или ByteArray
, сначала вычислите угол поворота изображения, как описано ранее для ввода media.Image
. Затем создайте объект InputImage
с буфером или массивом, а также с указанием высоты, ширины, формата кодировки цвета и угла поворота изображения:
Котлин
val image = InputImage.fromByteBuffer( byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ) // Or: val image = InputImage.fromByteArray( byteArray, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 )
Ява
InputImage image = InputImage.fromByteBuffer(byteBuffer, /* image width */ 480, /* image height */ 360, rotationDegrees, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 ); // Or: InputImage image = InputImage.fromByteArray( byteArray, /* image width */480, /* image height */360, rotation, InputImage.IMAGE_FORMAT_NV21 // or IMAGE_FORMAT_YV12 );
Использование Bitmap
Чтобы создать объект InputImage
из объекта Bitmap
, сделайте следующее объявление:
Котлин
val image = InputImage.fromBitmap(bitmap, 0)
Java
InputImage image = InputImage.fromBitmap(bitmap, rotationDegree);
Изображение представлено объектом Bitmap
вместе с градусами поворота.
3. Обработайте изображение.
Передайте изображение методуprocess()
: Котлин
objectDetector.process(image) .addOnSuccessListener { detectedObjects -> // Task completed successfully // ... } .addOnFailureListener { e -> // Task failed with an exception // ... }
Ява
objectDetector.process(image) .addOnSuccessListener( new OnSuccessListener<List<DetectedObject>>() { @Override public void onSuccess(List<DetectedObject> detectedObjects) { // Task completed successfully // ... } }) .addOnFailureListener( new OnFailureListener() { @Override public void onFailure(@NonNull Exception e) { // Task failed with an exception // ... } });
4. Получите информацию об обнаруженных объектах
Если вызов process()
завершается успешно, список DetectedObject
передается прослушивателю успешного завершения.
Каждый DetectedObject
содержит следующие свойства:
Ограничительная рамка | Rect , указывающий положение объекта на изображении. | ||||||
Идентификатор отслеживания | Целое число, идентифицирующее объект на изображениях. Значение NULL в SINGLE_IMAGE_MODE. | ||||||
Этикетки |
|
Котлин
for (detectedObject in detectedObjects) { val boundingBox = detectedObject.boundingBox val trackingId = detectedObject.trackingId for (label in detectedObject.labels) { val text = label.text if (PredefinedCategory.FOOD == text) { ... } val index = label.index if (PredefinedCategory.FOOD_INDEX == index) { ... } val confidence = label.confidence } }
Ява
// The list of detected objects contains one item if multiple // object detection wasn't enabled. for (DetectedObject detectedObject : detectedObjects) { Rect boundingBox = detectedObject.getBoundingBox(); Integer trackingId = detectedObject.getTrackingId(); for (Label label : detectedObject.getLabels()) { String text = label.getText(); if (PredefinedCategory.FOOD.equals(text)) { ... } int index = label.getIndex(); if (PredefinedCategory.FOOD_INDEX == index) { ... } float confidence = label.getConfidence(); } }
Обеспечение отличного пользовательского опыта
Для обеспечения наилучшего пользовательского опыта следуйте этим рекомендациям в своем приложении:
- Успешность обнаружения объектов зависит от их визуальной сложности. Для обнаружения объектов с небольшим количеством визуальных характеристик может потребоваться, чтобы они занимали большую часть изображения. Необходимо предоставить пользователям рекомендации по сбору входных данных, которые хорошо подходят для объектов, которые вы хотите обнаружить.
- Если при использовании классификации вы хотите обнаружить объекты, которые не попадают однозначно в поддерживаемые категории, реализуйте специальную обработку для неизвестных объектов.
Также ознакомьтесь с демонстрационным приложением ML Kit Material Design и коллекцией шаблонов Material Design для функций на базе машинного обучения .
Повышение производительности
Если вы хотите использовать обнаружение объектов в приложении реального времени, следуйте этим рекомендациям для достижения наилучшей частоты кадров:
При использовании потокового режима в приложении реального времени не используйте функцию обнаружения нескольких объектов, так как большинство устройств не смогут обеспечить адекватную частоту кадров.
Отключите классификацию, если она вам не нужна.
- Если вы используете API
Camera
илиcamera2
, ограничивайте количество вызовов детектора. Если во время работы детектора появляется новый видеокадр, удалите его. См. пример классаVisionProcessorBase
в примере приложения для быстрого старта. - Если вы используете API
CameraX
, убедитесь, что стратегия обратного давления установлена на значение по умолчаниюImageAnalysis.STRATEGY_KEEP_ONLY_LATEST
. Это гарантирует, что для анализа будет отправлено только одно изображение за раз. Если во время работы анализатора будут получены дополнительные изображения, они будут автоматически удалены и не будут поставлены в очередь на отправку. После закрытия анализируемого изображения вызовом ImageProxy.close() будет отправлено следующее по времени изображение. - Если вы используете выходные данные детектора для наложения графики на входное изображение, сначала получите результат из ML Kit, а затем визуализируйте изображение и наложение за один шаг. В этом случае визуализация на поверхности дисплея выполняется только один раз для каждого входного кадра. Пример см. в классах
CameraSourcePreview
иGraphicOverlay
в примере приложения для быстрого старта. - Если вы используете API Camera2, снимайте изображения в формате
ImageFormat.YUV_420_888
. Если вы используете более старую версию API Camera, снимайте изображения в форматеImageFormat.NV21
.