इस पेज का अनुवाद Cloud Translation API से किया गया है.

टेक्स्ट निकालने के लिए काम करने वाले फ़ाइल टाइप

Cloud Search, भेजे गए सभी आइटम को इंडेक्स करता है. भले ही, फ़ाइल का टाइप (MIME या कॉन्टेंट-टाइप) कुछ भी हो. इंडेक्स करने की प्रोसेस, फ़ाइल के मेटाडेटा डेटा पर की जाती है. अगर फ़ाइल का कॉन्टेंट इंडेक्स करने की सुविधा उपलब्ध है, तो उसे भी इंडेक्स किया जाता है. यहां उन फ़ाइल टाइप की सूची दी गई है जिनके लिए कॉन्टेंट को इंडेक्स करने की सुविधा काम करती है.

Microsoft Word (DOC)
Microsoft Word (DOCX)
Microsoft Excel (XLS)
Microsoft Excel (XLSX)
Microsoft Powerpoint (PPT)
Microsoft Powerpoint (PPTX)
Adobe का पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF)
रिच टेक्स्ट फ़ॉर्मैट (RTF)
टेक्स्ट फ़ॉर्मैट (TXT)
हाइपरटेक्स्ट मार्कअप लैंग्वेज (एचटीएमएल)
एक्सटेंसिबल मार्कअप लैंग्वेज (एक्सएमएल)

इन फ़ाइल टाइप के अलावा, Cloud Search किसी भी प्लैन टेक्स्ट फ़ाइल में मौजूद कॉन्टेंट को इंडेक्स कर सकता है.

ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) की सुविधा के साथ काम करने वाली फ़ाइल के टाइप और उनकी विशेषताएं

Google Cloud Search, इन फ़ाइल टाइप से टेक्स्ट निकालने के लिए भी ओसीआर का इस्तेमाल करता है:

फ़ाइल टाइप	ज़्यादा से ज़्यादा साइज़
Joint Photographic Experts Group (JPG)	10 MB
ग्राफ़िक इंटरचेंज फ़ॉर्मैट (GIF)	10 MB
टैग किया गया इमेज फ़ाइल फ़ॉर्मैट (TIFF)	10 MB
स्केलेबल वेक्टर ग्राफ़िक्स (SVG)	10 MB
PostScript इमेज फ़ॉर्मैट (PS)	10 MB
पोर्टेबल डॉक्यूमेंट फ़ॉर्मैट (PDF)	30 एमबी

ध्यान दें: Cloud Search, PDF फ़ाइलों के लिए ओसीआर का इस्तेमाल सिर्फ़ तब करता है, जब उन्हें ASYNCHRONOUS मोड में इंडेक्स किया जा रहा हो. साथ ही, यह PDF फ़ाइल के पहले 80 पेजों पर ओसीआर लागू करता है. ओसीआर की सुविधा का इस्तेमाल करने के लिए, आइटम के लिए ItemMetadata.mimeType को application/pdf के तौर पर सेट करना ज़रूरी है. साथ ही, PDF फ़ाइल में सिर्फ़ स्कैन की गई इमेज होनी चाहिए. अगर PDF फ़ाइल में कोई नेटिव टेक्स्ट कॉन्टेंट है, तो Cloud Search नेटिव कॉन्टेंट को इंडेक्स करता है और इमेज पर ओसीआर लागू नहीं करता.

ओसीआर की सुविधा इन फ़ाइलों पर भी काम करती है:

हाथ से लिखे गए दस्तावेज़. लैटिन स्क्रिप्ट, जैपनीज़, और कोरियन में लिखे गए दस्तावेज़ों से सबसे अच्छे नतीजे मिलते हैं.
वर्टिकल तौर पर लिखे गए दस्तावेज़, जैसे कि जैपनीज़ में लिखे गए दस्तावेज़.
दाईं से बाईं ओर लिखे गए दस्तावेज़, जैसे कि हिब्रू.