Metin çıkarma için desteklenen dosya türleri

Cloud Search, dosya türünden (MIME veya içerik türü) bağımsız olarak gönderilen tüm öğeleri dizine ekler. Dizine ekleme işlemi, bir dosyanın meta veri verilerinde ve destekleniyorsa içeriğinde gerçekleştirilir. Aşağıda, içerik dizine eklemenin desteklendiği dosya türlerinin listesi verilmiştir.

  • Microsoft Word (DOC)
  • Microsoft Word (DOCX)
  • Microsoft Excel (XLS)
  • Microsoft Excel (XLSX)
  • Microsoft PowerPoint (PPT)
  • Microsoft PowerPoint (PPTX)
  • Adobe Taşınabilir Belge Biçimi (PDF)
  • Zengin Metin Biçimi (RTF)
  • Metin Biçimi (TXT)
  • Hiper Metin Biçimlendirme Dili (HTML)
  • Genişletilebilir Biçimlendirme Dili (XML)

Cloud Search, bu dosya türlerine ek olarak herhangi bir düz metin dosyasındaki içeriğin dizine eklenmesini destekler.

Optik karakter tanıma (OCR) dosya türleri ve özellikleri

Google Cloud Search, aşağıdaki dosya türlerinden metin ayıklamak için de OCR'yi kullanır:

Dosya türü Maksimum boyut
Joint Photographic Experts Group (JPG) 10 MB
Grafik Değişim Biçimi (GIF) 10 MB
Etiketli Resim Dosyası Biçimi (TIFF) 10 MB
Ölçeklenebilir Vektör Grafikleri (SVG) 10 MB
PostScript Resim Biçimi (PS) 10 MB
Taşınabilir Belge Biçimi (PDF) 30 MB

OCR, aşağıdaki özelliklere sahip dosyalarda da çalışır:

  • El yazısıyla yazılmış belgeler. Latin alfabesi, Japonca ve Korece dokümanlar en iyi sonuçları verir.
  • Japonca gibi dikey olarak yazılmış dokümanlar.
  • İbranice gibi sağdan sola yazılmış dokümanlar.