Cloud Search indexa todos los elementos que se envían, independientemente del tipo de archivo (MIME o tipo de contenido). La indexación se realiza en los datos de metadatos de un archivo y, si es compatible, en su contenido. A continuación, se muestra una lista de los tipos de archivos para los que se admite la indexación de contenido.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft Powerpoint (PPT)
- Microsoft PowerPoint (PPTX)
- Formato de documento portátil (PDF) de Adobe
- Formato de texto enriquecido (RTF)
- Formato de texto (TXT)
- Lenguaje de marcado de hipertexto (HTML)
- Lenguaje de marcación extensible (XML)
Además de estos tipos de archivos, Cloud Search admite la indexación de contenido dentro de cualquier archivo de texto sin formato.
Tipos de archivos y características del reconocimiento óptico de caracteres (OCR)
La Búsqueda de Google Cloud también usa OCR para extraer texto de los siguientes tipos de archivos:
File type | Tamaño máximo |
---|---|
Joint Photographic Experts Group (JPG) | 10 MB |
Formato de intercambio gráfico (GIF) | 10 MB |
Formato de archivo de imagen con etiquetas (TIFF) | 10 MB |
Gráficos vectoriales escalables (SVG) | 10 MB |
Formato de imagen PostScript (PS) | 10 MB |
Formato de documento portátil (PDF) | 30 MB |
El OCR también funciona en archivos con las siguientes características:
- Documentos escritos a mano Los documentos en alfabeto latino, japonés y coreano proporcionan los mejores resultados.
- Documentos escritos verticalmente, como los que están en japonés.
- Documentos escritos de derecha a izquierda, como el hebreo