מערכת Cloud Search מוסיפה לאינדקס את כל הפריטים שנשלחים, בלי קשר לסוג הקובץ (MIME או content-type). האינדוקס מתבצע על נתוני המטא-נתונים של הקובץ, ועל התוכן שלו אם הוא נתמך. בהמשך מופיעה רשימה של סוגי קבצים שנתמכים בהם תהליך הוספת התוכן לאינדקס.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft Powerpoint (PPT)
- Microsoft Powerpoint (PPTX)
- פורמט מסמך נייד (PDF) של Adobe
- פורמט Rich Text(.rtf)
- פורמט טקסט (TXT)
- Hypertext Markup Language (HTML)
- שפת סימון מורחבת (XML)
בנוסף לסוגי הקבצים האלה, Cloud Search תומך בהוספה לאינדקס של תוכן בכל קובץ טקסט פשוט.
סוגי קבצים ומאפיינים של זיהוי תווים אופטי (OCR)
ב-Google Cloud Search נעשה שימוש ב-OCR גם כדי לחלץ טקסט מסוגי הקבצים הבאים:
| סוג הקובץ | גודל מקסימלי |
|---|---|
| Joint Photographic Experts Group (JPG) | 10MB |
| פורמט GIF | 10MB |
| Tagged Image File Format (TIFF) | 10MB |
| Scalable Vector Graphics (SVG) | 10MB |
| פורמט תמונה של PostScript (PS) | 10MB |
| Portable Document Format (PDF) | 30 MB |
זיהוי התווים האופטי (OCR) פועל גם בקבצים עם המאפיינים הבאים:
- מסמכים בכתב יד. התוצאות הכי טובות מתקבלות ממסמכים בכתב לטיני, ביפנית ובקוריאנית.
- מסמכים שנכתבים בצורה אנכית, כמו מסמכים ביפנית.
- מסמכים שנכתבים מימין לשמאל, כמו עברית.