Поддерживаемые типы файлов для извлечения текста

Cloud Search индексирует все отправляемые элементы независимо от типа файла (MIME или тип контента). Индексирование выполняется на основе метаданных файла и, если поддерживается, его содержимого. Ниже приведен список типов файлов, для которых поддерживается индексирование контента.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Формат переносимых документов Adobe (PDF)
  • Расширенный текстовый формат (RTF)
  • Текстовый формат (TXT)
  • Язык разметки гипертекста (HTML)
  • Расширяемый язык разметки (XML)

В дополнение к этим типам файлов Cloud Search поддерживает индексирование контента в любом текстовом файле.

Типы и характеристики файлов оптического распознавания символов (OCR)

Google Cloud Search также использует OCR для извлечения текста из файлов следующих типов:

Тип файла Максимальный размер
Объединенная группа экспертов по фотографии (JPG) 10 МБ
Формат графического обмена (GIF) 10 МБ
Формат файла изображения с тегами (TIFF) 10 МБ
Масштабируемая векторная графика (SVG) 10 МБ
Формат изображения PostScript (PS) 10 МБ
Портативный формат документов (PDF) 30 МБ

OCR также работает с файлами со следующими характеристиками:

  • Рукописные документы. Документы на латинице, японском и корейском языках дают наилучшие результаты.
  • Вертикально написанные документы, например, на японском языке.
  • Документы, написанные справа налево, например на иврите.