iOS पर ML Kit की मदद से पोज़ का पता लगाएं

ML Kit, पोज़ की पहचान करने के लिए ऑप्टिमाइज़ किए गए दो SDK टूल देता है.

SDK टूल का नामPoseDetectionPoseDetectionAccurate
कार्यान्वयनबेस डिटेक्टर की ऐसेट, बिल्ड के दौरान आपके ऐप्लिकेशन के साथ स्टैटिक रूप से लिंक होती हैं.सटीक डिटेक्टर के एसेट, बिल्ड के दौरान आपके ऐप्लिकेशन से स्टैटिक रूप से लिंक होते हैं.
ऐप्लिकेशन का साइज़ज़्यादा से ज़्यादा 29.6 एमबीज़्यादा से ज़्यादा 33.2 एमबी
परफ़ॉर्मेंसiPhone X: ~45FPSiPhone X: ~29 फ़्रेम प्रति सेकंड

इसे आज़माएं

वेब कंटेनर इंस्टॉल करने से पहले

  1. अपनी Podfile में, नीचे दिए गए ML Kit पॉड शामिल करें:

    # If you want to use the base implementation:
    pod 'GoogleMLKit/PoseDetection', '3.2.0'
    # If you want to use the accurate implementation:
    pod 'GoogleMLKit/PoseDetectionAccurate', '3.2.0'
  2. अपने प्रोजेक्ट के पॉड को इंस्टॉल या अपडेट करने के बाद, Xcode प्रोजेक्ट के xcworkspace का इस्तेमाल करके उसे खोलें. ML Kit, Xcode के 13.2.1 या इसके बाद के वर्शन पर काम करता है.

1. PoseDetector का इंस्टेंस बनाएं

किसी इमेज में पोज़ का पता लगाने के लिए, पहले PoseDetector का इंस्टेंस बनाएं. साथ ही, ज़रूरत पड़ने पर डिटेक्टर की सेटिंग तय करें.

PoseDetector के विकल्प

पहचान मोड

PoseDetector, पहचान करने वाले दो मोड में काम करता है. पक्का करें कि आपने वह विकल्प चुना हो जो आपके इस्तेमाल के उदाहरण से मेल खाता हो.

stream (डिफ़ॉल्ट)
पोज़ डिटेक्टर, सबसे पहले इमेज में मौजूद मुख्य व्यक्ति की पहचान करेगा और फिर पोज़ डिटेक्शन को चलाएगा. बाद के फ़्रेम में, व्यक्ति की पहचान करने का तरीका तब तक नहीं चलाया जाएगा, जब तक कि व्यक्ति धुंधला न हो जाए या भरोसेमंद न हो. पोज़ डिटेक्टर, मुख्य व्यक्ति को ट्रैक करने की कोशिश करेगा और हर अनुमान में उनके पोज़ को दिखाएगा. इससे इंतज़ार का समय कम होता है और बेहतर तरीके से पता लगाया जाता है. इस मोड का इस्तेमाल तब करें, जब आपको वीडियो स्ट्रीम में पोज़ (हाव-भाव) को पहचानना हो.
पोज़ डिटेक्टर, किसी व्यक्ति का पता लगाएगा और फिर पोज़ की पहचान करेगा. हर इमेज के लिए, व्यक्ति की पहचान करने का तरीका चलाया जाएगा. इसलिए, इंतज़ार का समय ज़्यादा होगा और व्यक्ति को ट्रैक करने की ज़रूरत नहीं होगी. इस मोड का इस्तेमाल तब करें, जब स्टैटिक इमेज पर पोज़ की पहचान करने की सुविधा का इस्तेमाल किया जा रहा हो या जहां ट्रैकिंग की ज़रूरत न हो.

पोज़ डिटेक्टर के विकल्प तय करें:


// Base pose detector with streaming, when depending on the PoseDetection SDK
let options = PoseDetectorOptions()
options.detectorMode = .stream

// Accurate pose detector on static images, when depending on the
// PoseDetectionAccurate SDK
let options = AccuratePoseDetectorOptions()
options.detectorMode = .singleImage


// Base pose detector with streaming, when depending on the PoseDetection SDK
MLKPoseDetectorOptions *options = [[MLKPoseDetectorOptions alloc] init];
options.detectorMode = MLKPoseDetectorModeStream;

// Accurate pose detector on static images, when depending on the
// PoseDetectionAccurate SDK
MLKAccuratePoseDetectorOptions *options =
    [[MLKAccuratePoseDetectorOptions alloc] init];
options.detectorMode = MLKPoseDetectorModeSingleImage;

आखिर में, PoseDetector का इंस्टेंस पाएं. तय किए गए विकल्पों को पास करें:


let poseDetector = PoseDetector.poseDetector(options: options)


MLKPoseDetector *poseDetector =
    [MLKPoseDetector poseDetectorWithOptions:options];

2. इनपुट इमेज तैयार करें

पोज़ का पता लगाने के लिए, वीडियो की हर इमेज या फ़्रेम के लिए यह तरीका अपनाएं. अगर आपने स्ट्रीम मोड चालू किया है, तो आपको CMSampleBuffer से VisionImage ऑब्जेक्ट बनाने होंगे.

UIImage या CMSampleBuffer का इस्तेमाल करके, VisionImage ऑब्जेक्ट बनाएं.

अगर UIImage का इस्तेमाल किया जाता है, तो यह तरीका अपनाएं:

  • UIImage के साथ एक VisionImage ऑब्जेक्ट बनाएं. पक्का करें कि आपने सही .orientation तय किया हो.


    let image = VisionImage(image: UIImage)
    visionImage.orientation = image.imageOrientation


    MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image];
    visionImage.orientation = image.imageOrientation;

अगर CMSampleBuffer का इस्तेमाल किया जाता है, तो यह तरीका अपनाएं:

  • CMSampleBuffer में शामिल इमेज डेटा का ओरिएंटेशन बताएं.

    इमेज का ओरिएंटेशन पाने के लिए:


    func imageOrientation(
      deviceOrientation: UIDeviceOrientation,
      cameraPosition: AVCaptureDevice.Position
    ) -> UIImage.Orientation {
      switch deviceOrientation {
      case .portrait:
        return cameraPosition == .front ? .leftMirrored : .right
      case .landscapeLeft:
        return cameraPosition == .front ? .downMirrored : .up
      case .portraitUpsideDown:
        return cameraPosition == .front ? .rightMirrored : .left
      case .landscapeRight:
        return cameraPosition == .front ? .upMirrored : .down
      case .faceDown, .faceUp, .unknown:
        return .up


    - (UIImageOrientation)
                             cameraPosition:(AVCaptureDevicePosition)cameraPosition {
      switch (deviceOrientation) {
        case UIDeviceOrientationPortrait:
          return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored
                                                                : UIImageOrientationRight;
        case UIDeviceOrientationLandscapeLeft:
          return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored
                                                                : UIImageOrientationUp;
        case UIDeviceOrientationPortraitUpsideDown:
          return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored
                                                                : UIImageOrientationLeft;
        case UIDeviceOrientationLandscapeRight:
          return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored
                                                                : UIImageOrientationDown;
        case UIDeviceOrientationUnknown:
        case UIDeviceOrientationFaceUp:
        case UIDeviceOrientationFaceDown:
          return UIImageOrientationUp;
  • CMSampleBuffer ऑब्जेक्ट और ओरिएंटेशन का इस्तेमाल करके, VisionImage ऑब्जेक्ट बनाएं:


    let image = VisionImage(buffer: sampleBuffer)
    image.orientation = imageOrientation(
      deviceOrientation: UIDevice.current.orientation,
      cameraPosition: cameraPosition)


     MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer];
     image.orientation =
       [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation

3. इमेज प्रोसेस करें

VisionImage को पोज डिटेक्टर के इमेज प्रोसेसिंग के तरीकों में से किसी एक पर पास करें. आपके पास एसिंक्रोनस process(image:) तरीके या सिंक्रोनस results() तरीके का इस्तेमाल करने का विकल्प होता है.

ऑब्जेक्ट का सिंक्रोनस रूप से पता लगाने के लिए:


var results: [Pose]
do {
  results = try poseDetector.results(in: image)
} catch let error {
  print("Failed to detect pose with error: \(error.localizedDescription).")
guard let detectedPoses = results, !detectedPoses.isEmpty else {
  print("Pose detector returned no results.")

// Success. Get pose landmarks here.


NSError *error;
NSArray *poses = [poseDetector resultsInImage:image error:&error];
if (error != nil) {
  // Error.
if (poses.count == 0) {
  // No pose detected.

// Success. Get pose landmarks here.

एसिंक्रोनस तरीके से ऑब्जेक्ट का पता लगाने के लिए:


poseDetector.process(image) { detectedPoses, error in
  guard error == nil else {
    // Error.
  guard !detectedPoses.isEmpty else {
    // No pose detected.

  // Success. Get pose landmarks here.


[poseDetector processImage:image
                completion:^(NSArray * _Nullable poses,
                             NSError * _Nullable error) {
                    if (error != nil) {
                      // Error.
                    if (poses.count == 0) {
                      // No pose detected.

                    // Success. Get pose landmarks here.

4. पहचाने गए पोज़ के बारे में जानकारी पाएं

अगर इमेज में किसी व्यक्ति की पहचान होती है, तो पोज़ डिटेक्शन एपीआई, Pose ऑब्जेक्ट की एक कैटगरी को पूरा करने वाले हैंडलर में पास करता है या अरे को दिखाता है. यह इस बात पर निर्भर करता है कि आपने एसिंक्रोनस तरीका कॉल किया है या सिंक्रोनस तरीका.

अगर वह व्यक्ति पूरी तरह से इमेज के अंदर नहीं था, तो मॉडल फ़्रेम के बाहर गायब लैंडमार्क कोऑर्डिनेट असाइन करता है और उन्हें कम InFrameConफ़िडेंस वैल्यू देता है.

अगर किसी भी व्यक्ति को जानकारी नहीं मिली, तो कलेक्शन खाली है.


for pose in detectedPoses {
  let leftAnkleLandmark = pose.landmark(ofType: .leftAnkle)
  if leftAnkleLandmark.inFrameLikelihood > 0.5 {
    let position = leftAnkleLandmark.position


for (MLKPose *pose in detectedPoses) {
  MLKPoseLandmark *leftAnkleLandmark =
      [pose landmarkOfType:MLKPoseLandmarkTypeLeftAnkle];
  if (leftAnkleLandmark.inFrameLikelihood > 0.5) {
    MLKVision3DPoint *position = leftAnkleLandmark.position;

परफ़ॉर्मेंस को बेहतर बनाने के लिए सलाह

आपके नतीजों की क्वालिटी, इनपुट इमेज की क्वालिटी पर निर्भर करती है:

  • ML Kit को पोज़ के सही तरीके से पहचानने के लिए, इमेज में दिख रहे व्यक्ति को ज़रूरत के मुताबिक पिक्सल डेटा दिखना चाहिए. सबसे अच्छी परफ़ॉर्मेंस के लिए, सब्जेक्ट की इमेज कम से कम 256x256 पिक्सल की होनी चाहिए.
  • अगर आपको किसी रीयल-टाइम ऐप्लिकेशन में पोज़ का पता चलता है, तो शायद आप इनपुट इमेज के सभी डाइमेंशन पर भी ध्यान देना चाहें. छोटी इमेज को तेज़ी से प्रोसेस किया जा सकता है. इसलिए, इंतज़ार का समय कम करने के लिए, कम रिज़ॉल्यूशन पर इमेज कैप्चर करें. हालांकि, ऊपर बताई गई रिज़ॉल्यूशन की ज़रूरी शर्तों को ध्यान में रखें. साथ ही, यह भी पक्का करें कि विषय, इमेज के ज़्यादा से ज़्यादा हिस्से में हो.
  • खराब इमेज फ़ोकस की वजह से भी सटीक जानकारी पर असर पड़ सकता है. अगर आपको स्वीकार किए जाने वाले नतीजे नहीं मिलते हैं, तो उपयोगकर्ता से इमेज फिर से कैप्चर करने के लिए कहें.

अगर आपको रीयल-टाइम ऐप्लिकेशन में पोज़ डिटेक्शन का इस्तेमाल करना है, तो सबसे सही फ़्रेमरेट पाने के लिए, इन दिशा-निर्देशों का पालन करें:

  • बेस PoseDetection SDK और stream डिटेक्शन मोड का इस्तेमाल करें.
  • कम रिज़ॉल्यूशन वाली इमेज कैप्चर करें. हालांकि, इस एपीआई की इमेज डाइमेंशन से जुड़ी ज़रूरी शर्तों का भी ध्यान रखें.
  • वीडियो फ़्रेम प्रोसेस करने के लिए, डिटेक्टर के results(in:) सिंक्रोनस एपीआई का इस्तेमाल करें. दिए गए वीडियो फ़्रेम के नतीजे सिंक करने के लिए, AVCaptureVideoDataOutputSampleBufferDelegate के captureOutput(_, didOutput:from:) फ़ंक्शन से इस तरीके का इस्तेमाल करें. डिटेक्टर को कॉल थ्रॉटल करने के लिए, AVCaptureVideoDataOutput के alwaysDiscardsLateVideoFrames रखें जिसे आप चुनना चाहते हैं. अगर डिटेक्टर के चलने के दौरान कोई नया वीडियो फ़्रेम उपलब्ध होता है, तो उसे छोड़ दिया जाएगा.
  • अगर इनपुट इमेज पर ग्राफ़िक ओवरले करने के लिए, डिटेक्टर के आउटपुट का इस्तेमाल किया जाता है, तो सबसे पहले एमएल किट से नतीजा पाएं. इसके बाद, एक ही चरण में इमेज और ओवरले को रेंडर करें. ऐसा करने पर, प्रोसेस किए गए हर इनपुट फ़्रेम के लिए, डिसप्ले सरफ़ेस पर सिर्फ़ एक बार रेंडर होता है. उदाहरण के लिए, शोकेस सैंपल ऐप्लिकेशन में previewOverlayView और MLKDetectionOverlayView क्लास देखें.

अगले चरण