टेक्स्ट निकालने के लिए काम करने वाले फ़ाइल टाइप

Cloud Search, भेजे गए सभी आइटम को इंडेक्स करता है. भले ही, फ़ाइल का टाइप कुछ भी हो (MIME या कॉन्टेंट-टाइप). इंडेक्सिंग, किसी फ़ाइल के मेटाडेटा और उसके कॉन्टेंट पर की जाती है. हालांकि, कॉन्टेंट को इंडेक्स करने की सुविधा सिर्फ़ कुछ फ़ाइल फ़ॉर्मैट के लिए उपलब्ध है. यहां उन फ़ाइल टाइप की सूची दी गई है जिनके कॉन्टेंट को इंडेक्स किया जा सकता है.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft Powerpoint (PPT)
  • Microsoft Powerpoint (PPTX)
  • Adobe का पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF)
  • रिच टेक्स्ट फ़ॉर्मैट (आरटीएफ़)
  • टेक्स्ट फ़ॉर्मैट (TXT)
  • हाइपरटेक्स्ट मार्कअप लैंग्वेज (एचटीएमएल)
  • एक्सटेंसिबल मार्कअप लैंग्वेज (एक्सएमएल)

इन फ़ाइल टाइप के अलावा, Cloud Search किसी भी सादे टेक्स्ट फ़ाइल में मौजूद कॉन्टेंट को इंडेक्स करने की सुविधा देता है.

ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) की सुविधा के साथ काम करने वाली फ़ाइलें और उनकी विशेषताएं

Google Cloud Search, ओसीआर का इस्तेमाल करके इन फ़ाइल टाइप से टेक्स्ट निकालता है:

फ़ाइल टाइप ज़्यादा से ज़्यादा साइज़
Joint Photographic Experts Group (JPG) 10 MB
ग्राफ़िक इंटरचेंज फ़ॉर्मैट (GIF) 10 MB
टैग की गई इमेज फ़ाइल फ़ॉर्मैट (टीआईएफ़) 10 MB
स्केलेबल वेक्टर ग्राफ़िक्स (SVG) 10 MB
PostScript इमेज फ़ॉर्मैट (PS) 10 MB
पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF) 30 एमबी

ओसीआर, इन फ़ाइलों पर भी काम करता है:

  • हाथ से लिखे गए दस्तावेज़. लैटिन स्क्रिप्ट, जैपनीज़, और कोरियन में लिखे गए दस्तावेज़ों के लिए, सबसे सही नतीजे मिलते हैं.
  • वर्टिकल तरीके से लिखे गए दस्तावेज़, जैसे कि जैपनीज़ भाषा में लिखे गए दस्तावेज़.
  • दाईं से बाईं ओर लिखी जाने वाली भाषाओं में मौजूद दस्तावेज़, जैसे कि हीब्रू.