Phát hiện và theo dõi đối tượng
Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Với API theo dõi và phát hiện đối tượng trên thiết bị của Bộ công cụ học máy, bạn có thể phát hiện và theo dõi các đối tượng trong nguồn cấp dữ liệu hình ảnh hoặc máy ảnh trực tiếp.
Bạn có thể tuỳ ý phân loại các đối tượng đã phát hiện bằng cách sử dụng trình phân loại thô được tích hợp trong API hoặc sử dụng mô hình phân loại hình ảnh tuỳ chỉnh của riêng bạn. Hãy xem bài viết Sử dụng mô hình TensorFlow Lite tuỳ chỉnh để biết thêm thông tin.
Vì tính năng phát hiện và theo dõi đối tượng diễn ra trên thiết bị, nên tính năng này hoạt động tốt như giao diện người dùng của quy trình tìm kiếm bằng hình ảnh. Sau khi phát hiện và lọc đối tượng, bạn có thể truyền các đối tượng đó đến một phần phụ trợ của đám mây, chẳng hạn như Cloud Vision Product Search.
iOS
Android
Các khả năng chính
- Phát hiện và theo dõi đối tượng nhanh
Phát hiện đối tượng và định vị vị trí của đối tượng trong hình ảnh. Theo dõi các đối tượng trên các khung hình ảnh liên tiếp.
- Mô hình trên thiết bị được tối ưu hoá Mô hình phát hiện và theo dõi đối tượng được tối ưu hoá cho thiết bị di động và nhằm sử dụng trong các ứng dụng theo thời gian thực, ngay cả trên các thiết bị cấp thấp hơn.
- Phát hiện đối tượng nổi bật
Tự động xác định đối tượng nổi bật nhất trong hình ảnh.
- Phân loại thô Phân loại đối tượng thành các danh mục rộng. Bạn có thể sử dụng phương pháp này để lọc ra các đối tượng mà bạn không quan tâm. Các danh mục sau được hỗ trợ: hàng gia dụng, hàng thời trang, thực phẩm, cây cối và địa điểm.
- Phân loại bằng mô hình tuỳ chỉnh Sử dụng mô hình phân loại hình ảnh tuỳ chỉnh của riêng bạn để xác định hoặc lọc các danh mục đối tượng cụ thể. Giúp mô hình tuỳ chỉnh hoạt động hiệu quả hơn bằng cách bỏ qua nền của hình ảnh.
Kết quả mẫu
Theo dõi đối tượng nổi bật nhất trên hình ảnh
Ví dụ bên dưới cho thấy dữ liệu theo dõi từ 3 khung liên tiếp bằng thuật toán phân loại thô mặc định do Bộ công cụ học máy cung cấp.
 |
Mã theo dõi |
0 |
Giới hạn |
(95, 45), (496, 45), (496, 240), (95, 240) |
Danh mục |
ĐỊA ĐIỂM |
Độ tin cậy của phân loại |
0,9296875 |
|
 |
Mã theo dõi |
0 |
Giới hạn |
(84, 46), (478, 46), (478, 247), (84, 247) |
Danh mục |
ĐỊA ĐIỂM |
Độ tin cậy của phân loại |
0,8710938 |
|
 |
Mã theo dõi |
0 |
Giới hạn |
(53, 45), (519, 45), (519, 240), (53, 240) |
Danh mục |
ĐỊA ĐIỂM |
Độ tin cậy của phân loại |
0,8828125 |
|
Ảnh: Christian Ferrer [CC BY-SA 4.0]
Nhiều đối tượng trong một hình ảnh tĩnh
Ví dụ bên dưới cho thấy dữ liệu cho 4 đối tượng được phát hiện trong hình ảnh, thông qua thuật toán phân loại thô mặc định do Bộ công cụ học máy cung cấp.

Đối tượng 0 |
Giới hạn |
(1, 97), (332, 97), (332, 332), (1, 332) |
Danh mục |
FASHION_GOOD |
Độ tin cậy của phân loại |
0,95703125 |
Đối tượng 1 |
Giới hạn |
(186, 80), (337, 80), (337, 226), (186, 226) |
Danh mục |
FASHION_GOOD |
Độ tin cậy của phân loại |
0,84375 |
Đối tượng 2 |
Giới hạn |
(296, 80), (472, 80), (472, 388), (296, 388) |
Danh mục |
FASHION_GOOD |
Độ tin cậy của phân loại |
0,94921875 |
Đối tượng 3 |
Giới hạn |
(439, 83), (615, 83), (615, 306), (439, 306) |
Danh mục |
FASHION_GOOD |
Độ tin cậy của phân loại |
0,9375 |
Sử dụng mô hình TensorFlow Lite tuỳ chỉnh
Thuật toán phân loại thô mặc định được xây dựng cho 5 danh mục, cung cấp thông tin hạn chế về các đối tượng được phát hiện. Có thể bạn cần một mô hình phân loại chuyên biệt hơn bao gồm một miền khái niệm hẹp hơn; ví dụ: một mô hình để phân biệt giữa các loài hoa hoặc loại thức ăn.
API này cho phép bạn điều chỉnh cho phù hợp với một trường hợp sử dụng cụ thể bằng cách hỗ trợ các mô hình phân loại hình ảnh tuỳ chỉnh từ nhiều nguồn. Vui lòng tham khảo bài viết Mô hình tuỳ chỉnh đi kèm Bộ công cụ học máy để tìm hiểu thêm. Bạn có thể đóng gói các mô hình tuỳ chỉnh với ứng dụng của mình hoặc tự động tải xuống từ đám mây bằng cách sử dụng dịch vụ triển khai mô hình của Học máy trong Firebase.
iOS
Android
Nếu cần, tính năng phát hiện và theo dõi đối tượng sẽ sử dụng tỷ lệ và độ kéo giãn của hình ảnh song tuyến tính để điều chỉnh kích thước và tỷ lệ khung hình hình ảnh đầu vào sao cho phù hợp với các yêu cầu của mô hình cơ bản.
Trừ phi có lưu ý khác, nội dung của trang này được cấp phép theo Giấy phép ghi nhận tác giả 4.0 của Creative Commons và các mẫu mã lập trình được cấp phép theo Giấy phép Apache 2.0. Để biết thông tin chi tiết, vui lòng tham khảo Chính sách trang web của Google Developers. Java là nhãn hiệu đã đăng ký của Oracle và/hoặc các đơn vị liên kết với Oracle.
Cập nhật lần gần đây nhất: 2025-08-29 UTC.
[null,null,["Cập nhật lần gần đây nhất: 2025-08-29 UTC."],[[["\u003cp\u003eML Kit's on-device API enables detection and tracking of objects within images or live camera feeds, working efficiently even on lower-end mobile devices.\u003c/p\u003e\n"],["\u003cp\u003eIt offers optional object classification using a built-in coarse classifier or your own custom TensorFlow Lite model for more specialized categorization.\u003c/p\u003e\n"],["\u003cp\u003eThe API can identify the most prominent object in an image and track it across frames, making it suitable for visual search applications.\u003c/p\u003e\n"],["\u003cp\u003eCustom models can be integrated to classify objects into specific categories, enhancing the functionality for tailored use cases.\u003c/p\u003e\n"],["\u003cp\u003eInput images are automatically preprocessed to fit model requirements, using bilinear scaling and stretching if necessary.\u003c/p\u003e\n"]]],["ML Kit's API enables on-device object detection and tracking in images or live feeds, optionally classifying them. It features fast detection, an optimized model for mobile, and prominent object identification. Objects can be classified into broad categories or with custom models. The API supports custom image classification models, including ones dynamically downloaded. Detected objects are tracked across frames, and the system adjusts input image size and aspect ratio as needed.\n"],null,["With ML Kit's on-device object detection and tracking API, you can detect\nand track objects in an image or live camera feed.\n\nOptionally, you can classify detected objects, either by using the coarse\nclassifier built into the API, or using your own custom image classification\nmodel. See [Using a custom TensorFlow Lite model](#custom-tflite) for more\ninformation.\n\nBecause object detection and tracking happens on the device, it works well as\nthe front end of the visual search pipeline. After you detect and filter\nobjects, you can pass them to a cloud backend, such as\n[Cloud Vision Product Search](https://cloud.google.com/vision/product-search/docs/).\n\n[iOS](/ml-kit/vision/object-detection/ios)\n[Android](/ml-kit/vision/object-detection/android)\n\nKey capabilities\n\n- **Fast object detection and tracking** Detect objects and get their locations in the image. Track objects across successive image frames.\n- **Optimized on-device model** The object detection and tracking model is optimized for mobile devices and intended for use in real-time applications, even on lower-end devices.\n- **Prominent object detection** Automatically determine the most prominent object in an image.\n- **Coarse classification** Classify objects into broad categories, which you can use to filter out objects you're not interested in. The following categories are supported: home goods, fashion goods, food, plants, and places.\n- **Classification with a custom model** Use your own custom image classification model to identify or filter specific object categories. Make your custom model perform better by leaving out background of the image.\n\nExample results\n\nTracking the most prominent object across images\n\nThe example below shows the tracking data from three successive frames with the\ndefault coarse classifier provided by ML Kit.\n\n|---|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| | |---------------------------|--------------------------------------------| | Tracking ID | 0 | | Bounds | (95, 45), (496, 45), (496, 240), (95, 240) | | Category | PLACE | | Classification confidence | 0.9296875 | |\n| | |---------------------------|--------------------------------------------| | Tracking ID | 0 | | Bounds | (84, 46), (478, 46), (478, 247), (84, 247) | | Category | PLACE | | Classification confidence | 0.8710938 | |\n| | |---------------------------|--------------------------------------------| | Tracking ID | 0 | | Bounds | (53, 45), (519, 45), (519, 240), (53, 240) | | Category | PLACE | | Classification confidence | 0.8828125 | |\n\nPhoto: Christian Ferrer \\[CC BY-SA 4.0\\]\n\nMultiple objects in a static image\n\nThe example below shows the data for the four objects detected in the image with\nthe default coarse classifier provided by ML Kit.\n\n| Object 0 ||\n|---------------------------|----------------------------------------------|\n| Bounds | (1, 97), (332, 97), (332, 332), (1, 332) |\n| Category | FASHION_GOOD |\n| Classification confidence | 0.95703125 |\n| Bounds | (186, 80), (337, 80), (337, 226), (186, 226) |\n| Category | FASHION_GOOD |\n| Classification confidence | 0.84375 |\n| Bounds | (296, 80), (472, 80), (472, 388), (296, 388) |\n| Category | FASHION_GOOD |\n| Classification confidence | 0.94921875 |\n| Bounds | (439, 83), (615, 83), (615, 306), (439, 306) |\n| Category | FASHION_GOOD |\n| Classification confidence | 0.9375 |\n\nUsing a custom TensorFlow Lite model\n\nThe default coarse classifier is built for five categories, providing limited\ninformation about the detected objects. You might need a more specialized\nclassifier model that covers a narrower domain of concepts in more detail;\nfor example, a model to distinguish between species of flowers or types of\nfood.\n\nThis API lets you tailor to a particular use case by by supporting custom image\nclassification models from a wide range of sources. Please refer to\n[Custom models with ML Kit](/ml-kit/custom-models) to learn more. Custom models\ncan be bundled with your app or dynamically downloaded from the cloud using\nFirebase Machine Learning's Model deployment service.\n\n[iOS](/ml-kit/vision/object-detection/custom-models/ios)\n[Android](/ml-kit/vision/object-detection/custom-models/android)\n\nInput image preprocessing\n\nIf needed, object detection and tracking uses bilinear image scaling and\nstretching to adjust the input image size and aspect ratio so that they fit the\nrequirements of the underlying model."]]