Cloud Search mengindeks semua item yang dikirim, apa pun jenis filenya (MIME atau content-type). Pengindeksan dilakukan pada data metadata file dan, jika didukung, kontennya. Berikut ini adalah daftar jenis file untuk jenis {i>file<i} pengindeksan didukung.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft Powerpoint (PPT)
- Microsoft Powerpoint (PPTX)
- Portable Document Format Adobe (PDF)
- Format Teks Kaya (RTF)
- Format Teks (TXT)
- Bahasa Markup Hiperteks (HTML)
- {i>Extensible Markup Language<i} (XML)
Selain jenis file ini, Cloud Search mendukung pengindeksan konten dalam file teks biasa.
Jenis dan karakteristik file Pengenalan Karakter Optik (OCR)
Google Cloud Search juga menggunakan OCR untuk mengekstrak teks dari jenis file berikut:
Jenis file | Ukuran maksimum |
---|---|
Grup Pakar Fotografi Bersama (JPG) | 10 MB |
Format Pertukaran Grafis (GIF) | 10 MB |
Format File Gambar (TIFF) yang Diberi Tag | 10 MB |
Scalable Vector Graphics (SVG) | 10 MB |
Format Gambar PostScript (PS) | 10 MB |
Format Dokumen Portabel (PDF) | 30 MB |
OCR juga berfungsi pada file dengan karakteristik berikut:
- Dokumen tulisan tangan. Dokumen dalam skrip Latin, Jepang, dan Korea hasil terbaik.
- Dokumen yang ditulis secara vertikal, seperti dokumen dalam bahasa Jepang.
- Dokumen yang ditulis dari kanan ke kiri, seperti bahasa Ibrani.