Поддерживаемые типы файлов для извлечения текста

Cloud Search индексирует все отправляемые элементы, независимо от типа файла (MIME или типа содержимого). Индексация выполняется на основе метаданных файла и, если поддерживается, его содержимого. Ниже приведен список типов файлов, для которых поддерживается индексация содержимого.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Формат переносимых документов Adobe (PDF)
  • Формат расширенного текста (RTF)
  • Текстовый формат (TXT)
  • Язык разметки гипертекста (HTML)
  • Расширяемый язык разметки (XML)

Помимо этих типов файлов, Cloud Search поддерживает индексацию содержимого любого текстового файла.

Типы и характеристики файлов оптического распознавания символов (OCR)

Google Cloud Search также использует OCR для извлечения текста из следующих типов файлов:

Тип файла Максимальный размер
Объединенная группа экспертов по фотографии (JPG) 10 МБ
Формат графического обмена (GIF) 10 МБ
Формат файла тегированного изображения (TIFF) 10 МБ
Масштабируемая векторная графика (SVG) 10 МБ
Формат изображения PostScript (PS) 10 МБ
Формат переносимого документа (PDF) 30 МБ

OCR также работает с файлами со следующими характеристиками:

  • Рукописные документы. Наилучшие результаты дают документы, написанные латиницей, на японском и корейском языках.
  • Документы с вертикальным текстом, например, на японском языке.
  • Документы с письмом справа налево, например, на иврите.