Tipos de arquivos com suporte para extração de texto
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O Cloud Search indexa todos os itens enviados, independentemente do tipo de arquivo (MIME ou content-type). A indexação é realizada nos dados de metadados de um arquivo e, se compatível, no conteúdo dele. A seguir, confira uma lista de tipos de arquivo em que a indexação de conteúdo é compatível.
Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft PowerPoint (PPT)
Microsoft PowerPoint (PPTX)
Formato de documento portátil (PDF) da Adobe
Formato Rich Text (RTF)
Formato de texto (TXT)
Linguagem de marcação de hipertexto (HTML)
Linguagem de marcação extensível (XML)
Além desses tipos de arquivo, o Cloud Search oferece suporte à indexação de conteúdo
em qualquer arquivo de texto simples.
Tipos e características de arquivos de reconhecimento óptico de caracteres (OCR)
O Google Cloud Search também usa o OCR para extrair texto dos seguintes tipos de arquivo:
Tipo de arquivo
Tamanho máximo
Joint Photographic Experts Group (JPG)
10 MB
Formato de troca de gráficos (GIF)
10 MB
Formato de arquivo de imagem com tag (TIFF)
10 MB
Gráficos vetoriais escaláveis (SVG)
10 MB
Formato de imagem PostScript (PS)
10 MB
Formato de documento portátil (PDF)
30 MB
O OCR também funciona em arquivos com estas características:
Documentos escritos à mão. Documentos em alfabeto latino, japonês e coreano geram os melhores resultados.
Documentos escritos verticalmente, como os em japonês.
Documentos escritos da direita para a esquerda, como o hebraico.
[null,null,["Última atualização 2025-08-29 UTC."],[],[],null,["# Supported file types for text extraction\n\nCloud Search indexes all items that are sent, regardless of file type\n(MIME or content-type). Indexing is performed on a file's metadata data and,\nif supported, its content. Following is a list of file types for which content\nindexing *is* supported.\n\n- Microsoft Word (DOC)\n- Microsoft Word (DOCX)\n- Microsoft Excel (XLS)\n- Microsoft Excel (XLSX)\n- Microsoft Powerpoint (PPT)\n- Microsoft Powerpoint (PPTX)\n- Adobe's Portable Document Format (PDF)\n- Rich Text Format (RTF)\n- Text Format (TXT)\n- Hypertext Markup Language (HTML)\n- Extensible Markup Language (XML)\n\nIn addition to these file types, Cloud Search supports indexing of content\nwithin any plain text file.\n\nOptical Character Recognition (OCR) file types and characteristics\n------------------------------------------------------------------\n\nGoogle Cloud Search also uses OCR to extract text from the following file types:\n\n| File type | Maximum size |\n|----------------------------------------|--------------|\n| Joint Photographic Experts Group (JPG) | 10 MB |\n| Graphic Interchange Format (GIF) | 10 MB |\n| Tagged Image File Format (TIFF) | 10 MB |\n| Scalable Vector Graphics (SVG) | 10 MB |\n| PostScript Image Format (PS) | 10 MB |\n| Portable Document Format (PDF) | 30 MB |\n\n| **Note:** Cloud Search uses OCR for PDF files only when indexing in `ASYNCHRONOUS` mode, and applies OCR to the first 80 pages of the PDF file. To be eligible for OCR, the [`ItemMetadata.mimeType`](/workspace/cloud-search/docs/reference/rest/v1/indexing.datasources.items#ItemMetadata) for the item must be specified as `application/pdf` and a PDF file must contain only scanned images. If the PDF file contains any native text content, Cloud Search indexes the native content and does not apply OCR to images.\n\nOCR also works on files with these characteristics:\n\n- Hand-written documents. Documents in Latin script, Japanese, and Korean yield the best results.\n- Vertically-written documents, such as those in Japanese.\n- Right-to-left-written documents, such as Hebrew."]]