Cloud Search จะจัดทำดัชนีรายการทั้งหมดที่ส่ง ไม่ว่าจะเป็นประเภทไฟล์ใดก็ตาม (MIME หรือ Content-Type) การจัดทำดัชนีจะดำเนินการกับข้อมูลเมตาของไฟล์และเนื้อหา (หากรองรับ) ต่อไปนี้คือรายการประเภทไฟล์ที่รองรับการจัดทำดัชนีเนื้อหา
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft Powerpoint (PPT)
- Microsoft Powerpoint (PPTX)
- Portable Document Format (PDF) ของ Adobe
- Rich Text Format (RTF)
- รูปแบบข้อความ (TXT)
- Hypertext Markup Language (HTML)
- ภาษามาร์กอัปที่ขยายได้ (XML)
นอกจากประเภทไฟล์เหล่านี้แล้ว Cloud Search ยังรองรับการจัดทำดัชนีเนื้อหา ภายในไฟล์ข้อความธรรมดาด้วย
ประเภทไฟล์และการรู้จำอักขระด้วยภาพ (OCR)
นอกจากนี้ Google Cloud Search ยังใช้ OCR เพื่อดึงข้อความจากไฟล์ประเภทต่อไปนี้ด้วย
| ประเภทไฟล์ | ขนาดสูงสุด |
|---|---|
| Joint Photographic Experts Group (JPG) | 10 MB |
| รูปแบบการแลกเปลี่ยนกราฟิก (GIF) | 10 MB |
| รูปแบบไฟล์รูปภาพที่ติดแท็ก (TIFF) | 10 MB |
| กราฟิกเวกเตอร์ที่ปรับขนาดได้ (SVG) | 10 MB |
| รูปแบบรูปภาพ PostScript (PS) | 10 MB |
| Portable Document Format (PDF) | 30 MB |
นอกจากนี้ OCR ยังใช้ได้กับไฟล์ที่มีลักษณะต่อไปนี้ด้วย
- เอกสารที่เขียนด้วยลายมือ เอกสารที่เป็นอักษรละติน ญี่ปุ่น และเกาหลีจะให้ผลลัพธ์ที่ดีที่สุด
- เอกสารที่เขียนในแนวตั้ง เช่น เอกสารภาษาญี่ปุ่น
- เอกสารที่เขียนจากขวาไปซ้าย เช่น ภาษาฮีบรู