Detección y seguimiento de objetos
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.

Con la API de detección y seguimiento de objetos en el dispositivo del Kit de AA, puedes detectar objetos y hacerles seguimiento en una imagen o un feed de cámara en vivo.
De manera opcional, puedes clasificar los objetos detectados, ya sea mediante el clasificador general integrado en la API o tu propio modelo de clasificación de imágenes personalizado. Para obtener más información, consulta Usa un modelo personalizado de TensorFlow Lite.
Debido a que la detección y el seguimiento de objetos se realiza en el dispositivo, funciona bien como frontend de la canalización de búsqueda visual. Después de detectar y filtrar objetos, puedes pasarlos a un backend en la nube, como Cloud Vision Product Search.
iOS
Android
Funciones clave
- Detección y seguimiento rápido de objetos
Detecta objetos y obtén sus ubicaciones en la imagen. Realiza un seguimiento de los objetos en marcos de imagen sucesivos.
- Modelo optimizado en el dispositivo
El modelo de detección y seguimiento de objetos está optimizado para dispositivos móviles y diseñado para usarse en aplicaciones en tiempo real, incluso en dispositivos de gama baja.
- Detección de objetos destacados Determina automáticamente el objeto más destacado en una imagen.
- Clasificación general: Clasifica objetos en categorías amplias, que puedes usar para filtrar los objetos que no te interesan. Se admiten las siguientes categorías: artículos para el hogar, artículos de moda, alimentos, plantas y lugares.
- Clasificación con un modelo personalizado. Usa tu propio modelo de clasificación de imágenes personalizado para identificar o filtrar categorías de objetos específicas. Para mejorar el rendimiento de tu modelo personalizado, omite el fondo de la imagen.
Resultados de ejemplo
Haz un seguimiento del objeto más prominente en las imágenes
En el siguiente ejemplo, se muestran los datos de seguimiento de tres fotogramas sucesivos con el clasificador general predeterminado que proporciona el ML Kit.
 |
ID de seguimiento |
0 |
Límites |
(95, 45), (496, 45), (496, 240), (95, 240) |
Categoría |
LUGAR |
Confianza de la clasificación |
0,9296875 |
|
 |
ID de seguimiento |
0 |
Límites |
(84, 46), (478, 46), (478, 247), (84, 247) |
Categoría |
LUGAR |
Confianza de la clasificación |
0,8710938 |
|
 |
ID de seguimiento |
0 |
Límites |
(53, 45), (519, 45), (519, 240), (53, 240) |
Categoría |
LUGAR |
Confianza de la clasificación |
0,8828125 |
|
Foto: Christian Ferrer [CC BY-SA 4.0]
Varios objetos en una imagen estática
En el siguiente ejemplo, se muestran los datos de los cuatro objetos detectados en la imagen con el clasificador generalizado predeterminado que proporciona el ML Kit.

Objeto 0 |
Límites |
(1, 97), (332, 97), (332, 332), (1, 332) |
Categoría |
FASHION_GOOD |
Confianza de la clasificación |
0,95703125 |
Objeto 1 |
Límites |
(186, 80), (337, 80), (337, 226), (186, 226) |
Categoría |
FASHION_GOOD |
Confianza de la clasificación |
0,84375 |
Objeto 2 |
Límites |
(296, 80), (472, 80), (472, 388), (296, 388) |
Categoría |
FASHION_GOOD |
Confianza de la clasificación |
0,94921875 |
Objeto 3 |
Límites |
(439, 83), (615, 83), (615, 306), (439, 306) |
Categoría |
FASHION_GOOD |
Confianza de la clasificación |
0,9375 |
Usa un modelo personalizado de TensorFlow Lite
El clasificador general predeterminado se compila para cinco categorías que proporciona información limitada sobre los objetos detectados. Es posible que necesites un modelo clasificador más especializado que abarque un dominio de conceptos más reducido con mayor detalle; por ejemplo, un modelo para distinguir entre especies de flores o tipos de comida.
Esta API te permite adaptar a un caso de uso particular, ya que admite modelos personalizados de clasificación de imágenes de una amplia gama de fuentes. Consulta Modelos personalizados con ML Kit para obtener más información. Los modelos personalizados
se pueden empaquetar con tu app o descargarlos de forma dinámica de la nube con
el servicio de implementación de modelos de aprendizaje automático de Firebase.
iOS
Android
Si es necesario, la detección y el seguimiento de objetos usa el escalamiento y estiramiento de imágenes bilineales para ajustar el tamaño de la imagen de entrada y la relación de aspecto, de modo que se ajusten a los requisitos del modelo subyacente.
Salvo que se indique lo contrario, el contenido de esta página está sujeto a la licencia Atribución 4.0 de Creative Commons, y los ejemplos de código están sujetos a la licencia Apache 2.0. Para obtener más información, consulta las políticas del sitio de Google Developers. Java es una marca registrada de Oracle o sus afiliados.
Última actualización: 2025-08-29 (UTC)
[null,null,["Última actualización: 2025-08-29 (UTC)"],[[["\u003cp\u003eML Kit's on-device API enables detection and tracking of objects within images or live camera feeds, working efficiently even on lower-end mobile devices.\u003c/p\u003e\n"],["\u003cp\u003eIt offers optional object classification using a built-in coarse classifier or your own custom TensorFlow Lite model for more specialized categorization.\u003c/p\u003e\n"],["\u003cp\u003eThe API can identify the most prominent object in an image and track it across frames, making it suitable for visual search applications.\u003c/p\u003e\n"],["\u003cp\u003eCustom models can be integrated to classify objects into specific categories, enhancing the functionality for tailored use cases.\u003c/p\u003e\n"],["\u003cp\u003eInput images are automatically preprocessed to fit model requirements, using bilinear scaling and stretching if necessary.\u003c/p\u003e\n"]]],["ML Kit's API enables on-device object detection and tracking in images or live feeds, optionally classifying them. It features fast detection, an optimized model for mobile, and prominent object identification. Objects can be classified into broad categories or with custom models. The API supports custom image classification models, including ones dynamically downloaded. Detected objects are tracked across frames, and the system adjusts input image size and aspect ratio as needed.\n"],null,["With ML Kit's on-device object detection and tracking API, you can detect\nand track objects in an image or live camera feed.\n\nOptionally, you can classify detected objects, either by using the coarse\nclassifier built into the API, or using your own custom image classification\nmodel. See [Using a custom TensorFlow Lite model](#custom-tflite) for more\ninformation.\n\nBecause object detection and tracking happens on the device, it works well as\nthe front end of the visual search pipeline. After you detect and filter\nobjects, you can pass them to a cloud backend, such as\n[Cloud Vision Product Search](https://cloud.google.com/vision/product-search/docs/).\n\n[iOS](/ml-kit/vision/object-detection/ios)\n[Android](/ml-kit/vision/object-detection/android)\n\nKey capabilities\n\n- **Fast object detection and tracking** Detect objects and get their locations in the image. Track objects across successive image frames.\n- **Optimized on-device model** The object detection and tracking model is optimized for mobile devices and intended for use in real-time applications, even on lower-end devices.\n- **Prominent object detection** Automatically determine the most prominent object in an image.\n- **Coarse classification** Classify objects into broad categories, which you can use to filter out objects you're not interested in. The following categories are supported: home goods, fashion goods, food, plants, and places.\n- **Classification with a custom model** Use your own custom image classification model to identify or filter specific object categories. Make your custom model perform better by leaving out background of the image.\n\nExample results\n\nTracking the most prominent object across images\n\nThe example below shows the tracking data from three successive frames with the\ndefault coarse classifier provided by ML Kit.\n\n|---|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| | |---------------------------|--------------------------------------------| | Tracking ID | 0 | | Bounds | (95, 45), (496, 45), (496, 240), (95, 240) | | Category | PLACE | | Classification confidence | 0.9296875 | |\n| | |---------------------------|--------------------------------------------| | Tracking ID | 0 | | Bounds | (84, 46), (478, 46), (478, 247), (84, 247) | | Category | PLACE | | Classification confidence | 0.8710938 | |\n| | |---------------------------|--------------------------------------------| | Tracking ID | 0 | | Bounds | (53, 45), (519, 45), (519, 240), (53, 240) | | Category | PLACE | | Classification confidence | 0.8828125 | |\n\nPhoto: Christian Ferrer \\[CC BY-SA 4.0\\]\n\nMultiple objects in a static image\n\nThe example below shows the data for the four objects detected in the image with\nthe default coarse classifier provided by ML Kit.\n\n| Object 0 ||\n|---------------------------|----------------------------------------------|\n| Bounds | (1, 97), (332, 97), (332, 332), (1, 332) |\n| Category | FASHION_GOOD |\n| Classification confidence | 0.95703125 |\n| Bounds | (186, 80), (337, 80), (337, 226), (186, 226) |\n| Category | FASHION_GOOD |\n| Classification confidence | 0.84375 |\n| Bounds | (296, 80), (472, 80), (472, 388), (296, 388) |\n| Category | FASHION_GOOD |\n| Classification confidence | 0.94921875 |\n| Bounds | (439, 83), (615, 83), (615, 306), (439, 306) |\n| Category | FASHION_GOOD |\n| Classification confidence | 0.9375 |\n\nUsing a custom TensorFlow Lite model\n\nThe default coarse classifier is built for five categories, providing limited\ninformation about the detected objects. You might need a more specialized\nclassifier model that covers a narrower domain of concepts in more detail;\nfor example, a model to distinguish between species of flowers or types of\nfood.\n\nThis API lets you tailor to a particular use case by by supporting custom image\nclassification models from a wide range of sources. Please refer to\n[Custom models with ML Kit](/ml-kit/custom-models) to learn more. Custom models\ncan be bundled with your app or dynamically downloaded from the cloud using\nFirebase Machine Learning's Model deployment service.\n\n[iOS](/ml-kit/vision/object-detection/custom-models/ios)\n[Android](/ml-kit/vision/object-detection/custom-models/android)\n\nInput image preprocessing\n\nIf needed, object detection and tracking uses bilinear image scaling and\nstretching to adjust the input image size and aspect ratio so that they fit the\nrequirements of the underlying model."]]