Tipos de archivos admitidos para la extracción de texto
Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Cloud Search indexa todos los elementos que se envían, independientemente del tipo de archivo (MIME o content-type). La indexación se realiza en los datos de metadatos de un archivo y, si se admite, en su contenido. A continuación, se incluye una lista de los tipos de archivos para los que se admite la indexación de contenido.
Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft PowerPoint (PPT)
Microsoft PowerPoint (PPTX)
Formato de documento portátil (PDF) de Adobe
Formato de texto enriquecido (RTF)
Formato de texto (TXT)
Lenguaje de marcado de hipertexto (HTML)
Lenguaje de marcado extensible (XML)
Además de estos tipos de archivos, Cloud Search admite la indexación de contenido en cualquier archivo de texto sin formato.
Tipos y características de archivos de reconocimiento óptico de caracteres (OCR)
Google Cloud Search también usa el OCR para extraer texto de los siguientes tipos de archivos:
File type
Tamaño máximo
Joint Photographic Experts Group (JPG)
10 MB
Formato de intercambio de gráficos (GIF)
10 MB
Formato de archivo de imagen con etiquetas (TIFF)
10 MB
Gráficos vectoriales escalables (SVG)
10 MB
Formato de imagen PostScript (PS)
10 MB
Formato de documento portátil (PDF)
30 MB
El OCR también funciona en archivos con las siguientes características:
Documentos escritos a mano Los documentos en alfabeto latino, japonés y coreano arrojan los mejores resultados.
Documentos escritos verticalmente, como los que están en japonés
Documentos escritos de derecha a izquierda, como el hebreo
[null,null,["Última actualización: 2025-08-29 (UTC)"],[],[],null,["# Supported file types for text extraction\n\nCloud Search indexes all items that are sent, regardless of file type\n(MIME or content-type). Indexing is performed on a file's metadata data and,\nif supported, its content. Following is a list of file types for which content\nindexing *is* supported.\n\n- Microsoft Word (DOC)\n- Microsoft Word (DOCX)\n- Microsoft Excel (XLS)\n- Microsoft Excel (XLSX)\n- Microsoft Powerpoint (PPT)\n- Microsoft Powerpoint (PPTX)\n- Adobe's Portable Document Format (PDF)\n- Rich Text Format (RTF)\n- Text Format (TXT)\n- Hypertext Markup Language (HTML)\n- Extensible Markup Language (XML)\n\nIn addition to these file types, Cloud Search supports indexing of content\nwithin any plain text file.\n\nOptical Character Recognition (OCR) file types and characteristics\n------------------------------------------------------------------\n\nGoogle Cloud Search also uses OCR to extract text from the following file types:\n\n| File type | Maximum size |\n|----------------------------------------|--------------|\n| Joint Photographic Experts Group (JPG) | 10 MB |\n| Graphic Interchange Format (GIF) | 10 MB |\n| Tagged Image File Format (TIFF) | 10 MB |\n| Scalable Vector Graphics (SVG) | 10 MB |\n| PostScript Image Format (PS) | 10 MB |\n| Portable Document Format (PDF) | 30 MB |\n\n| **Note:** Cloud Search uses OCR for PDF files only when indexing in `ASYNCHRONOUS` mode, and applies OCR to the first 80 pages of the PDF file. To be eligible for OCR, the [`ItemMetadata.mimeType`](/workspace/cloud-search/docs/reference/rest/v1/indexing.datasources.items#ItemMetadata) for the item must be specified as `application/pdf` and a PDF file must contain only scanned images. If the PDF file contains any native text content, Cloud Search indexes the native content and does not apply OCR to images.\n\nOCR also works on files with these characteristics:\n\n- Hand-written documents. Documents in Latin script, Japanese, and Korean yield the best results.\n- Vertically-written documents, such as those in Japanese.\n- Right-to-left-written documents, such as Hebrew."]]