텍스트 추출을 지원하는 파일 형식

Cloud Search는 파일 유형(MIME 또는 콘텐츠 유형)에 관계없이 전송된 모든 항목의 색인을 생성합니다. 색인 생성은 파일의 메타데이터와 지원되는 경우 콘텐츠에 대해 실행됩니다. 다음은 콘텐츠 색인 생성이 지원되는 파일 형식 목록입니다.

  • Microsoft Word (DOC)
  • Microsoft Word(DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel(XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint(PPTX)
  • Adobe의 Portable Document Format (PDF)
  • Rich Text Format (RTF)
  • 텍스트 형식 (TXT)
  • 하이퍼텍스트 마크업 언어 (HTML)
  • 확장 마크업 언어 (XML)

이러한 파일 형식 외에도 Cloud Search는 일반 텍스트 파일 내 콘텐츠의 색인 생성을 지원합니다.

광학 문자 인식 (OCR) 파일 형식 및 특성

Google Cloud Search는 OCR을 사용하여 다음 파일 유형에서 텍스트를 추출합니다.

파일 형식 최대 크기
Joint Photographic Experts Group (JPG) 10MB
Graphic Interchange Format (GIF) 10MB
Tagged Image File Format (TIFF) 10MB
Scalable Vector Graphics (SVG) 10MB
PostScript 이미지 형식 (PS) 10MB
Portable Document Format (PDF) 30MB

OCR은 다음 특성을 가진 파일에서도 작동합니다.

  • 손으로 작성한 문서 라틴 자모, 일본어, 한국어로 작성된 문서가 가장 좋은 결과를 제공합니다.
  • 일본어와 같이 세로로 작성된 문서
  • 히브리어와 같이 오른쪽에서 왼쪽으로 작성된 문서