Za pomocą ML Kit możesz rozpoznawać tekst na obrazach lub w filmach, np. tekst na znaku drogowym. Główne cechy tej funkcji:
| Text Recognition v2 API | |
|---|---|
| Opis | Rozpoznawanie tekstu na obrazach i w filmach, obsługa alfabetów łacińskiego, chińskiego, dewanagari, japońskiego i koreańskiego oraz szerokiego zakresu języków. | 
| Nazwy pakietów SDK | GoogleMLKit/TextRecognition | 
| Implementacja | Komponenty są statycznie połączone z aplikacją w momencie jej tworzenia. | 
| Wpływ na rozmiar aplikacji | Około 38 MB na pakiet SDK skryptu | 
| Wyniki | W czasie rzeczywistym na większości urządzeń w przypadku pakietu SDK z alfabetem łacińskim, wolniej w przypadku innych. | 
Wypróbuj
- Wypróbuj przykładową aplikację, aby zobaczyć przykład użycia tego interfejsu API.
- Wypróbuj kod, korzystając z ćwiczeń z programowania.
Zanim zaczniesz
- W pliku Podfile umieść te pody ML Kit:
  # To recognize Latin script pod 'GoogleMLKit/TextRecognition', '8.0.0' # To recognize Chinese script pod 'GoogleMLKit/TextRecognitionChinese', '8.0.0' # To recognize Devanagari script pod 'GoogleMLKit/TextRecognitionDevanagari', '8.0.0' # To recognize Japanese script pod 'GoogleMLKit/TextRecognitionJapanese', '8.0.0' # To recognize Korean script pod 'GoogleMLKit/TextRecognitionKorean', '8.0.0' 
-  Po zainstalowaniu lub zaktualizowaniu Pods w projekcie otwórz projekt Xcode za pomocą pliku .xcworkspace. ML Kit jest obsługiwany w Xcode w wersji 12.4 lub nowszej.
1. Tworzenie instancji TextRecognizer
Utwórz instancję TextRecognizer, wywołując funkcję +textRecognizer(options:) i przekazując opcje związane z pakietem SDK, który został zadeklarowany jako zależność powyżej:
Swift
// When using Latin script recognition SDK let latinOptions = TextRecognizerOptions() let latinTextRecognizer = TextRecognizer.textRecognizer(options:options) // When using Chinese script recognition SDK let chineseOptions = ChineseTextRecognizerOptions() let chineseTextRecognizer = TextRecognizer.textRecognizer(options:options) // When using Devanagari script recognition SDK let devanagariOptions = DevanagariTextRecognizerOptions() let devanagariTextRecognizer = TextRecognizer.textRecognizer(options:options) // When using Japanese script recognition SDK let japaneseOptions = JapaneseTextRecognizerOptions() let japaneseTextRecognizer = TextRecognizer.textRecognizer(options:options) // When using Korean script recognition SDK let koreanOptions = KoreanTextRecognizerOptions() let koreanTextRecognizer = TextRecognizer.textRecognizer(options:options)
Objective-C
// When using Latin script recognition SDK MLKTextRecognizerOptions *latinOptions = [[MLKTextRecognizerOptions alloc] init]; MLKTextRecognizer *latinTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options]; // When using Chinese script recognition SDK MLKChineseTextRecognizerOptions *chineseOptions = [[MLKChineseTextRecognizerOptions alloc] init]; MLKTextRecognizer *chineseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options]; // When using Devanagari script recognition SDK MLKDevanagariTextRecognizerOptions *devanagariOptions = [[MLKDevanagariTextRecognizerOptions alloc] init]; MLKTextRecognizer *devanagariTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options]; // When using Japanese script recognition SDK MLKJapaneseTextRecognizerOptions *japaneseOptions = [[MLKJapaneseTextRecognizerOptions alloc] init]; MLKTextRecognizer *japaneseTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options]; // When using Korean script recognition SDK MLKKoreanTextRecognizerOptions *koreanOptions = [[MLKKoreanTextRecognizerOptions alloc] init]; MLKTextRecognizer *koreanTextRecognizer = [MLKTextRecognizer textRecognizerWithOptions:options];
2. Przygotowywanie obrazu wejściowego
Przekaż obraz jakoUIImage lub CMSampleBufferRef do metody process(_:completion:)TextRecognizer:
Utwórz obiekt VisionImage za pomocą UIImage lub CMSampleBuffer.
Jeśli używasz UIImage, wykonaj te czynności:
- Utwórz obiekt VisionImagez wartościąUIImage. Pamiętaj, aby podać prawidłowy.orientation.Swiftlet image = VisionImage(image: UIImage) visionImage.orientation = image.imageOrientation Objective-CMLKVisionImage *visionImage = [[MLKVisionImage alloc] initWithImage:image]; visionImage.orientation = image.imageOrientation; 
Jeśli używasz CMSampleBuffer, wykonaj te czynności:
- 
    Określ orientację danych obrazu zawartych w elemencie CMSampleBuffer.Aby uzyskać orientację obrazu: Swiftfunc imageOrientation( deviceOrientation: UIDeviceOrientation, cameraPosition: AVCaptureDevice.Position ) -> UIImage.Orientation { switch deviceOrientation { case .portrait: return cameraPosition == .front ? .leftMirrored : .right case .landscapeLeft: return cameraPosition == .front ? .downMirrored : .up case .portraitUpsideDown: return cameraPosition == .front ? .rightMirrored : .left case .landscapeRight: return cameraPosition == .front ? .upMirrored : .down case .faceDown, .faceUp, .unknown: return .up } } Objective-C- (UIImageOrientation) imageOrientationFromDeviceOrientation:(UIDeviceOrientation)deviceOrientation cameraPosition:(AVCaptureDevicePosition)cameraPosition { switch (deviceOrientation) { case UIDeviceOrientationPortrait: return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationLeftMirrored : UIImageOrientationRight; case UIDeviceOrientationLandscapeLeft: return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationDownMirrored : UIImageOrientationUp; case UIDeviceOrientationPortraitUpsideDown: return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationRightMirrored : UIImageOrientationLeft; case UIDeviceOrientationLandscapeRight: return cameraPosition == AVCaptureDevicePositionFront ? UIImageOrientationUpMirrored : UIImageOrientationDown; case UIDeviceOrientationUnknown: case UIDeviceOrientationFaceUp: case UIDeviceOrientationFaceDown: return UIImageOrientationUp; } } 
- Utwórz obiekt VisionImage, używając obiektuCMSampleBufferi orientacji:Swiftlet image = VisionImage(buffer: sampleBuffer) image.orientation = imageOrientation( deviceOrientation: UIDevice.current.orientation, cameraPosition: cameraPosition) Objective-CMLKVisionImage *image = [[MLKVisionImage alloc] initWithBuffer:sampleBuffer]; image.orientation = [self imageOrientationFromDeviceOrientation:UIDevice.currentDevice.orientation cameraPosition:cameraPosition]; 
3. Przetwarzanie obrazu
Następnie przekaż obraz do metody process(_:completion:):
Swift
textRecognizer.process(visionImage) { result, error in
  guard error == nil, let result = result else {
    // Error handling
    return
  }
  // Recognized text
}Objective-C
[textRecognizer processImage:image completion:^(MLKText *_Nullable result, NSError *_Nullable error) { if (error != nil || result == nil) { // Error handling return; } // Recognized text }];
4. Wyodrębnianie tekstu z bloków rozpoznanego tekstu
Jeśli operacja rozpoznawania tekstu się powiedzie, zwraca obiekt Text. Obiekt Text zawiera pełny tekst rozpoznany na obrazie oraz co najmniej 1 obiekt TextBlock.
Każdy element TextBlock reprezentuje prostokątny blok tekstu, który zawiera 0 lub więcej obiektów TextLine. Każdy TextLineobiekt zawiera 0 lub więcej obiektów TextElement, które reprezentują słowa i podmioty podobne do słów, takie jak daty i liczby.
W przypadku każdego obiektu TextBlock, TextLine i TextElement możesz uzyskać tekst rozpoznany w regionie i współrzędne ograniczające region.
Na przykład:
Swift
let resultText = result.text
for block in result.blocks {
    let blockText = block.text
    let blockLanguages = block.recognizedLanguages
    let blockCornerPoints = block.cornerPoints
    let blockFrame = block.frame
    for line in block.lines {
        let lineText = line.text
        let lineLanguages = line.recognizedLanguages
        let lineCornerPoints = line.cornerPoints
        let lineFrame = line.frame
        for element in line.elements {
            let elementText = element.text
            let elementCornerPoints = element.cornerPoints
            let elementFrame = element.frame
        }
    }
}Objective-C
NSString *resultText = result.text;
for (MLKTextBlock *block in result.blocks) {
  NSString *blockText = block.text;
  NSArray<MLKTextRecognizedLanguage *> *blockLanguages = block.recognizedLanguages;
  NSArray<NSValue *> *blockCornerPoints = block.cornerPoints;
  CGRect blockFrame = block.frame;
  for (MLKTextLine *line in block.lines) {
    NSString *lineText = line.text;
    NSArray<MLKTextRecognizedLanguage *> *lineLanguages = line.recognizedLanguages;
    NSArray<NSValue *> *lineCornerPoints = line.cornerPoints;
    CGRect lineFrame = line.frame;
    for (MLKTextElement *element in line.elements) {
      NSString *elementText = element.text;
      NSArray<NSValue *> *elementCornerPoints = element.cornerPoints;
      CGRect elementFrame = element.frame;
    }
  }
}Wytyczne dotyczące obrazu wejściowego
- 
    Aby ML Kit mógł dokładnie rozpoznawać tekst, obrazy wejściowe muszą zawierać tekst reprezentowany przez wystarczającą ilość danych pikseli. Najlepiej, aby każdy znak miał co najmniej 16 x 16 pikseli. Zwykle nie ma korzyści w zakresie dokładności, jeśli znaki mają więcej niż 24 x 24 piksele. Na przykład obraz o wymiarach 640 x 480 może być odpowiedni do skanowania wizytówki, która zajmuje całą szerokość obrazu. Aby zeskanować dokument wydrukowany na papierze w formacie Letter, może być wymagany obraz o rozmiarze 720 × 1280 pikseli. 
- 
    Słaba ostrość obrazu może wpływać na dokładność rozpoznawania tekstu. Jeśli wyniki nie są zadowalające, poproś użytkownika o ponowne zrobienie zdjęcia. 
- 
    Jeśli rozpoznajesz tekst w aplikacji działającej w czasie rzeczywistym, weź pod uwagę ogólne wymiary obrazów wejściowych. Mniejsze obrazy można przetwarzać szybciej. Aby zmniejszyć opóźnienie, zadbaj o to, aby tekst zajmował jak największą część obrazu, i rób zdjęcia w niższych rozdzielczościach (pamiętając o wymaganiach dotyczących dokładności wspomnianych powyżej). Więcej informacji znajdziesz w artykule Wskazówki dotyczące zwiększania skuteczności. 
Wskazówki dotyczące poprawy skuteczności
- Do przetwarzania klatek wideo użyj results(in:)synchronicznego interfejsu API detektora. Wywołaj tę metodę z funkcjiAVCaptureVideoDataOutputSampleBufferDelegatecaptureOutput(_, didOutput:from:), aby synchronicznie uzyskać wyniki z danej klatki filmu. Ustaw wartośćAVCaptureVideoDataOutput'salwaysDiscardsLateVideoFramesnatrue, aby ograniczyć liczbę wywołań detektora. Jeśli podczas działania detektora pojawi się nowa klatka wideo, zostanie ona odrzucona.
- Jeśli używasz danych wyjściowych detektora do nakładania grafiki na obraz wejściowy, najpierw uzyskaj wynik z ML Kit, a następnie w jednym kroku wyrenderuj obraz i nałóż na niego grafikę. Dzięki temu renderujesz na powierzchnię wyświetlania tylko raz dla każdej przetworzonej klatki wejściowej. Przykład znajdziesz w funkcji updatePreviewOverlayViewWithLastFrame w przykładowym projekcie ML Kit.
- Rozważ robienie zdjęć w niższej rozdzielczości. Pamiętaj jednak o wymaganiach dotyczących wymiarów obrazu w tym interfejsie API.
- Aby uniknąć potencjalnego pogorszenia wydajności, nie uruchamiaj jednocześnie wielu instancji TextRecognizerz różnymi opcjami skryptu.
