Cloud Search יוסיף לאינדקס את כל הפריטים שנשלחים, ללא קשר לסוג הקובץ (MIME או סוג התוכן). ההוספה לאינדקס מתבצעת על נתוני מטא-נתונים של קובץ, אם הוא נתמך, יוצג התוכן שלו. בהמשך יש רשימה של סוגי הקבצים הרלוונטיים הוספה לאינדקס כן נתמכת.
- Microsoft Word (DOC)
- Microsoft Word (DOCX)
- Microsoft Excel (XLS)
- Microsoft Excel (XLSX)
- Microsoft PowerPoint (PPT)
- Microsoft PowerPoint (PPTX)
- Adobe's Portable Document Format (PDF)
- פורמט טקסט עשיר (RTF)
- פורמט טקסט (TXT)
- שפת סימון של היפר-טקסט (HTML)
- שפת סימון ניתנת להרחבה (XML)
בנוסף לסוגי הקבצים האלו, Cloud Search תומך בהוספת תוכן לאינדקס בתוך כל קובץ טקסט פשוט.
סוגי הקבצים והמאפיינים של זיהוי תווים אופטי (OCR)
ב-Google Cloud Search נעשה גם שימוש ב-OCR כדי לחלץ טקסט מסוגי הקבצים הבאים:
סוג הקובץ | גודל מקסימלי |
---|---|
קבוצת מומחי הצילום המשותפת (JPG) | 10 MB |
פורמט של החלפה גרפית (GIF) | 10 MB |
פורמט קובץ תמונה מתויג (TIFF) | 10 MB |
Scalable Vector Graphics (SVG) | 10 MB |
PostScript Image Format (PS) | 10 MB |
Portable Document Format (PDF) | 30 MB |
OCR פועל גם בקבצים עם המאפיינים הבאים:
- מסמכים בכתב יד מסמכים בכתב לטיני, תפוקה ביפנית ובקוריאנית את התוצאות הטובות ביותר.
- מסמכים שנכתבו בפורמט אנכי, כמו המסמכים ביפנית.
- מסמכים שנכתבו מימין לשמאל, כמו עברית.