이 페이지는 Cloud Translation API를 통해 번역되었습니다.

iOS에서 ML Kit를 사용한 이미지 속 텍스트 인식

ML Kit를 사용하면 이미지 또는 동영상의 거리 표지판 텍스트와 같은 텍스트를 인식할 수 있습니다. 이 기능의 주요 특징은 다음과 같습니다.

텍스트 인식 API
설명	이미지 또는 동영상의 라틴 자모 텍스트 인식
SDK 이름	`GoogleMLKit/TextRecognition (version 2.2.0)`
구현	애셋은 빌드 시간에 정적으로 앱에 연결됩니다.
앱 크기 영향	약 20MB
성능	대부분의 기기에서 실시간으로 작동합니다.

사용해 보기

샘플 앱을 사용해 보고 이 API의 사용 예를 확인하세요.
Codelab을 사용하여 직접 코드를 사용해 보세요.

시작하기 전에

Podfile에 다음 ML Kit 포드를 포함합니다.
```
pod 'GoogleMLKit/TextRecognition','2.2.0'
```
프로젝트의 포드를 설치하거나 업데이트한 후 .xcworkspace를 사용하여 Xcode 프로젝트를 엽니다. ML Kit는 Xcode 버전 12.4 이상에서 지원됩니다.

1. `TextRecognizer` 인스턴스 만들기

+textRecognizer를 호출하여 TextRecognizer 인스턴스를 만듭니다.

Swift

let textRecognizer = TextRecognizer.textRecognizer()

Objective-C

MLKTextRecognizer *textRecognizer = [MLKTextRecognizer textRecognizer];

2. 입력 이미지 준비

이미지를 UIImage 또는 CMSampleBufferRef로 TextRecognizer의 process(_:completion:) 메서드에 전달합니다.

UIImage 또는 CMSampleBuffer를 사용하여 VisionImage 객체를 만듭니다.

UIImage를 사용하는 경우 다음 단계를 따르세요.

UIImage를 사용하여 VisionImage 객체를 만듭니다. 올바른 .orientation을 지정해야 합니다.

Swift

let image = VisionImage(image: UIImage)
visionImage.orientation = image.imageOrientation

Objective-C

MLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image];
visionImage.orientation = image.imageOrientation;

CMSampleBuffer를 사용하는 경우 다음 단계를 따르세요.

CMSampleBuffer에 포함된 이미지 데이터의 방향을 지정합니다.

이미지 방향을 가져오는 방법은 다음과 같습니다.

Swift

func imageOrientation(
  deviceOrientation: UIDeviceOrientation,
  cameraPosition: AVCaptureDevice.Position
) -> UIImage.Orientation {
  switch deviceOrientation {
  case .portrait:
    return cameraPosition == .front ? .leftMirrored : .right
  case .landscapeLeft:
    return cameraPosition == .front ? .downMirrored : .up
  case .portraitUpsideDown:
    return cameraPosition == .front ? .rightMirrored : .left
  case .landscapeRight:
    return cameraPosition == .front ? .upMirrored : .down
  case .faceDown, .faceUp, .unknown:
    return .up
  }
}

Objective-C

- (UIImageOrientation)
  imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation
                         cameraPosition:(AVCaptureDevicePosition)cameraPosition {
  switch (deviceOrientation) {
    case UIDeviceOrientationPortrait:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored
                                                            : UIImageOrientationRight;

    case UIDeviceOrientationLandscapeLeft:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored
                                                            : UIImageOrientationUp;
    case UIDeviceOrientationPortraitUpsideDown:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored
                                                            : UIImageOrientationLeft;
    case UIDeviceOrientationLandscapeRight:
      return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored
                                                            : UIImageOrientationDown;
    case UIDeviceOrientationUnknown:
    case UIDeviceOrientationFaceUp:
    case UIDeviceOrientationFaceDown:
      return UIImageOrientationUp;
  }
}

CMSampleBuffer 객체 및 방향을 사용하여 VisionImage 객체를 만듭니다.

Swift

let image = VisionImage(buffer: sampleBuffer)
image.orientation = imageOrientation(
  deviceOrientation: UIDevice.current.orientation,
  cameraPosition: cameraPosition)

Objective-C

 MLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer];
 image.orientation =
   [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation
                                cameraPosition:cameraPosition];

3. 이미지 처리

그런 다음 이미지를 process(_:completion:) 메서드에 전달합니다.

Swift

textRecognizer.process(visionImage) { result, error in
  guard error == nil, let result = result else {
    // Error handling
    return
  }
  // Recognized text
}

Objective-C

[textRecognizer processImage:image
                  completion:^(MLKText *_Nullable result,
                               NSError *_Nullable error) {
  if (error != nil || result == nil) {
    // Error handling
    return;
  }
  // Recognized text
}];

4. 인식된 텍스트 블록에서 텍스트 추출

텍스트 인식 작업이 성공하면 Text 객체가 반환됩니다. Text 객체에는 이미지에서 인식된 전체 텍스트 및 TextBlock 객체가 0개 이상 포함됩니다.

각 TextBlock은 TextLine 객체를 0개 이상 포함하는 사각형 모양의 텍스트 블록을 나타냅니다. 각 TextLine 객체는 0개 이상의 TextElement 객체를 포함하며, 이 객체는 단어 및 숫자와 같은 단어와 유사한 항목을 나타냅니다.

각 TextBlock, TextLine, TextElement 객체에 대해 해당 영역에서 인식된 텍스트와 영역의 경계 좌표를 가져올 수 있습니다.

예를 들면 다음과 같습니다.

Swift

let resultText = result.text
for block in result.blocks {
    let blockText = block.text
    let blockLanguages = block.recognizedLanguages
    let blockCornerPoints = block.cornerPoints
    let blockFrame = block.frame
    for line in block.lines {
        let lineText = line.text
        let lineLanguages = line.recognizedLanguages
        let lineCornerPoints = line.cornerPoints
        let lineFrame = line.frame
        for element in line.elements {
            let elementText = element.text
            let elementCornerPoints = element.cornerPoints
            let elementFrame = element.frame
        }
    }
}

Objective-C

NSString *resultText = result.text;
for (MLKTextBlock *block in result.blocks) {
  NSString *blockText = block.text;
  NSArray<MLKTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages;
  NSArray<NSValue *> *blockCornerPoints = block.cornerPoints;
  CGRect blockFrame = block.frame;
  for (MLKTextLine *line in block.lines) {
    NSString *lineText = line.text;
    NSArray<MLKTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages;
    NSArray<NSValue *> *lineCornerPoints = line.cornerPoints;
    CGRect lineFrame = line.frame;
    for (MLKTextElement *element in line.elements) {
      NSString *elementText = element.text;
      NSArray<NSValue *> *elementCornerPoints = element.cornerPoints;
      CGRect elementFrame = element.frame;
    }
  }
}

입력 이미지 가이드라인

ML Kit가 텍스트를 정확하게 인식하려면 입력 이미지에 충분한 픽셀 데이터로 표시된 텍스트가 있어야 합니다. 각 문자가 16x16픽셀 이상인 것이 좋습니다. 일반적으로 문자가 24x24픽셀보다 크면 정확도가 더 이상 향상되지 않습니다.

예를 들어 640x480 이미지는 이미지의 전체 너비를 차지하는 명함을 스캔하는 데 적합합니다. 편지 용지에 인쇄된 문서를 스캔하려면 720x1280픽셀 이미지가 필요할 수 있습니다.
이미지 초점이 잘 맞지 않으면 텍스트 인식 정확도가 저하될 수 있습니다. 허용 가능한 수준의 결과를 얻지 못하는 경우 사용자에게 이미지를 다시 캡처하도록 요청합니다.
실시간 애플리케이션에서 텍스트를 인식하는 경우 입력 이미지의 전체 크기를 고려해야 합니다. 작은 이미지는 더 빠르게 처리할 수 있습니다. 지연 시간을 줄이려면 텍스트가 가능한 한 많은 이미지를 차지하도록 하고 낮은 해상도에서 이미지를 캡처합니다 (위에서 언급한 정확도 요구사항에 유의). 자세한 내용은 성능 개선을 위한 팁을 참고하세요.

실적 개선을 위한 도움말

동영상 프레임 처리에는 감지기의 results(in:) 동기 API를 사용합니다. AVCaptureVideoDataOutputSampleBufferDelegate의 captureOutput(_, didOutput:from:) 함수에서 이 메서드를 호출하여 지정된 동영상 프레임에서 동기식으로 결과를 가져옵니다. 감지기 호출을 제한하기 위해 AVCaptureVideoDataOutput의 alwaysDiscardsLateVideoFrames를 true으로 유지합니다. 인식기가 실행 중일 때 새 동영상 프레임이 제공되는 경우 프레임이 삭제됩니다.
인식기 출력을 사용하여 입력 이미지에 그래픽을 오버레이하는 경우 먼저 ML Kit에서 결과를 가져온 후 이미지를 렌더링하고 단일 단계로 오버레이합니다. 이렇게 하면 처리된 각 입력 프레임에 대해 한 번만 디스플레이 표면에 렌더링됩니다. 예시는 ML Kit 빠른 시작 샘플에서 updatePreviewOverlayViewWithLastFrame을 참조하세요.
낮은 해상도에서 이미지 캡처를 고려합니다. 하지만 이 API의 이미지 크기 요구사항도 유의해야 합니다.

iOS에서 ML Kit를 사용한 이미지 속 텍스트 인식

사용해 보기

시작하기 전에

1. TextRecognizer 인스턴스 만들기

Swift

Objective-C

2. 입력 이미지 준비

Swift

Objective-C

Swift

Objective-C

Swift

Objective-C

3. 이미지 처리

Swift

Objective-C

4. 인식된 텍스트 블록에서 텍스트 추출

Swift

Objective-C

입력 이미지 가이드라인

실적 개선을 위한 도움말

1. `TextRecognizer` 인스턴스 만들기