Эта страница переведена с помощью Cloud Translation API.

Поддерживаемые типы файлов для извлечения текста

Cloud Search индексирует все отправляемые элементы, независимо от типа файла (MIME или content-type). Индексирование выполняется на основе метаданных файла и, если это поддерживается, его содержимого. Ниже приведен список типов файлов, для которых поддерживается индексирование содержимого.

Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft PowerPoint (PPT)
Microsoft PowerPoint (PPTX)
Портативный формат документов (PDF) от Adobe
Формат форматированного текста (RTF)
Текстовый формат (TXT)
Язык разметки гипертекста (HTML)
Расширяемый язык разметки (XML)

Помимо этих типов файлов, Cloud Search поддерживает индексирование содержимого любых текстовых файлов.

Типы и характеристики файлов оптического распознавания символов (OCR).

Google Cloud Search также использует OCR для извлечения текста из следующих типов файлов:

Тип файла	Максимальный размер
Объединенная группа экспертов в области фотографии (JPG)	10 МБ
Графический формат обмена файлами (GIF)	10 МБ
Формат файла изображения с тегами (TIFF)	10 МБ
Масштабируемая векторная графика (SVG)	10 МБ
Формат изображений PostScript (PS)	10 МБ
Формат портативных документов (PDF)	30 МБ

OCR также работает с файлами, обладающими следующими характеристиками:

Рукописные документы. Наилучшие результаты дают документы, написанные латинским алфавитом, на японском и корейском языках.
Документы, написанные вертикально, например, на японском языке.
Документы, написанные справа налево, например, на иврите.

Поддерживаемые типы файлов для извлечения текста Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Типы и характеристики файлов оптического распознавания символов (OCR).

Поддерживаемые типы файлов для извлечения текста