Norconex HTTP Collector Indexer Eklentisi Dağıtma

Bu kılavuz, Google Cloud Search Norconex HTTP Collector dizin oluşturucu eklentisi yöneticileri (dizin oluşturucu eklentisini indirmek, dağıtmak, yapılandırmak ve bakımını yapmakla sorumlu olan herkes) için hazırlanmıştır. Bu kılavuzda, Linux işletim sistemleri, web taramanın temelleri, XML ve Norconex HTTP Collector hakkında bilgi sahibi olduğunuz varsayılır.

Bu kılavuzda, dizin oluşturucu eklentisinin dağıtımıyla ilgili temel görevleri gerçekleştirme talimatları yer alır:

  • Dizin oluşturucu eklenti yazılımını indirme
  • Google Cloud Search'ü yapılandırma
  • Norconex HTTP Collector ve web taramayı yapılandırma
  • Web taramasına başlama ve içerik yükleme

Google Workspace yöneticisinin, Google Cloud Search'ü Norconex HTTP Collector dizin oluşturucu eklentisiyle eşlemek için yapması gereken görevlerle ilgili bilgiler bu kılavuzda yer almaz. Bu görevler hakkında bilgi edinmek için Üçüncü taraf veri kaynaklarını yönetme başlıklı makaleyi inceleyin.

Cloud Search Norconex HTTP Collector dizin oluşturucu eklentisine genel bakış

Cloud Search, varsayılan olarak Google Dokümanlar ve Gmail gibi Google Workspace ürünlerindeki içerikleri keşfedebilir, dizine ekleyebilir ve sunabilir. Açık kaynaklı bir kurumsal web tarayıcısı olan Norconex HTTP Collector için dizine ekleyici eklentisini dağıtarak Google Cloud Search'ün erişim alanını genişletebilir ve kullanıcılarınıza web içeriği sunabilirsiniz.

Yapılandırma özellikleri dosyaları

Dizin oluşturucu eklentinin web taramaları yapmasını ve dizine ekleme API'sine içerik yüklemesini sağlamak için dizin oluşturucu eklenti yöneticisi olarak Dağıtım adımları bölümünde açıklanan yapılandırma adımları sırasında belirli bilgileri sağlarsınız.

Dizin oluşturucu eklentisini kullanmak için iki yapılandırma dosyasında özellikler ayarlamanız gerekir:

  • {gcs-crawl-config.xml}-- Norconex HTTP Collector'ın ayarlarını içerir.
  • sdk-configuration.properties-- Google Cloud Search'ün ayarlarını içerir.

Her dosyadaki özellikler, Google Cloud Search dizin oluşturucu eklentisinin ve Norconex HTTP Collector'ın birbiriyle iletişim kurmasını sağlar.

Web'de gezinme ve içerik yükleme

Yapılandırma dosyalarını doldurduktan sonra web taramasını başlatmak için gerekli ayarlara sahip olursunuz. Norconex HTTP Collector, web'i tarar, yapılandırmasıyla ilgili doküman içeriğini keşfeder ve doküman içeriğinin orijinal ikili (veya metin) sürümlerini Cloud Search Dizine Ekleme API'ye yükler. Bu API'de içerik dizine eklenir ve sonuç olarak kullanıcılarınıza sunulur.

Desteklenen işletim sistemi

Google Cloud Search Norconex HTTP Collector dizine ekleme eklentisi Linux'a yüklenmelidir.

Desteklenen Norconex HTTP Collector sürümü

Google Cloud Search Norconex HTTP Collector dizin oluşturucu eklentisi 2.8.0 sürümünü destekler.

EKL desteği

Dizin oluşturucu eklentisi, erişim kontrol listelerini (EKL'ler) kullanarak Google Workspace alanındaki belgelere erişimi kontrol etmeyi destekler.

Google Cloud Search eklenti yapılandırmasında varsayılan ACL'ler etkinse (defaultAcl.mode none dışında bir değere ayarlanmış ve defaultAcl.* ile yapılandırılmışsa), dizin oluşturucu eklentisi önce varsayılan bir ACL oluşturup uygulamayı dener.

Varsayılan EKL'ler etkinleştirilmemişse eklenti, Google Workspace alanının tamamına okuma izni verir.

ACL yapılandırma parametrelerinin ayrıntılı açıklamaları için Google tarafından sağlanan bağlayıcı parametreleri başlıklı makaleyi inceleyin.

Ön koşullar

Dizin oluşturucu eklentisini dağıtmadan önce aşağıdaki gerekli bileşenlere sahip olduğunuzdan emin olun:

  • Dizin oluşturucu eklentisinin çalıştığı bilgisayarda Java JRE 1.8 yüklü olmalıdır.
  • Cloud Search ile Norconex HTTP Collector arasında ilişki oluşturmak için gereken Google Workspace bilgileri:

    Genellikle, alanın Google Workspace yöneticisi bu kimlik bilgilerini sizin için sağlayabilir.

Dağıtım adımları

Dizin oluşturucu eklentisini dağıtmak için aşağıdaki adımları uygulayın:

  1. Norconex HTTP Collector ve dizin oluşturucu eklenti yazılımını yükleme
  2. Google Cloud Search'ü yapılandırma
  3. Norconex HTTP Collector'ı yapılandırma
  4. Web taramasını yapılandırma
  5. Web taraması ve içerik yükleme başlatma

1. adım: Norconex HTTP Collector'ı ve dizin oluşturucu eklenti yazılımını yükleyin

  1. Norconex commiter yazılımını bu sayfadan indirin.
  2. İndirilen yazılımın sıkıştırmasını ~/norconex/ klasörüne açın.
  3. Commiter eklentisini GitHub'dan klonlayın. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git ve ardından cd norconex-committer-plugin
  4. Commiter eklentisinin istediğiniz sürümünü kontrol edin ve ZIP dosyasını oluşturun: git checkout tags/v1-0.0.3 ve mvn package (Bağlayıcıyı oluştururken testleri atlamak için mvn package -DskipTests kullanın.)
  5. cd target
  6. Oluşturulan eklenti jar dosyasını norconex lib dizinine kopyalayın. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Yeni oluşturduğunuz ZIP dosyasını çıkarın ve dosyayı açın: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Eklentinin .jar dosyasını ve gerekli tüm kitaplıkları http toplayıcının dizinine kopyalamak için yükleme komut dosyasını çalıştırın:
    1. Yukarıda çıkarılan commiter eklentisinde yapılan değişiklik: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. $ sh install.sh komutunu çalıştırın ve istendiğinde hedef dizin olarak norconex/norconex-collector-http-{version}/lib için tam yolu girin.
    3. Yinelenen jar dosyaları bulunursa 1 seçeneğini belirleyin (Hedef jar yeniden adlandırıldıktan sonra hedef jar ile aynı veya daha büyük bir sürümse yalnızca kaynak jar'ı kopyalayın).

2. adım: Google Cloud Search'ü yapılandırın

Indexer eklentisinin Norconex HTTP Collector'a bağlanıp ilgili içeriği dizine eklemesi için Norconex HTTP Collector'ın yüklendiği Norconex dizininde Cloud Search yapılandırma dosyasını oluşturmanız gerekir. Google, Cloud Search yapılandırma dosyasına sdk-configuration.properties adını vermenizi önerir.

Bu yapılandırma dosyası, bir parametreyi tanımlayan anahtar/değer çiftlerini içermelidir. Yapılandırma dosyasında, Cloud Search veri kaynağına erişmek için gerekli olan en azından aşağıdaki parametreler belirtilmelidir.

Yer Parametre
Veri kaynağı kimliği api.sourceId = 1234567890abcdef
Zorunlu. Google Workspace yöneticisi tarafından ayarlanan Cloud Search kaynak kimliği.
Hizmet hesabı api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Zorunlu. Google Workspace yöneticisi tarafından dizin oluşturucu eklentisinin erişilebilirliği için oluşturulan Cloud Search hizmet hesabı anahtar dosyası.

Aşağıdaki örnekte bir sdk-configuration.properties dosyası gösterilmektedir.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Yapılandırma dosyası, Google tarafından sağlanan yapılandırma parametrelerini de içerebilir. Bu parametreler, eklentinin verileri Google Cloud Search API'ye nasıl aktardığını etkileyebilir. Örneğin, batch.* parametre grubu, bağlayıcının istekleri nasıl birleştirdiğini tanımlar.

Yapılandırma dosyasında bir parametre tanımlamazsanız varsa varsayılan değer kullanılır. Her parametrenin ayrıntılı açıklaması için Google tarafından sağlanan bağlayıcı parametreleri başlıklı makaleyi inceleyin.

Dizin oluşturucu eklentisini, dizine eklenen içeriklerin meta verilerini ve yapılandırılmış verilerini dolduracak şekilde yapılandırabilirsiniz. Meta veri ve yapılandırılmış veri alanları için doldurulacak değerler, dizine eklenen HTML içeriğindeki meta etiketlerden çıkarılabilir veya yapılandırma dosyasında varsayılan değerler belirtilebilir.

Ayar Parametre
Başlık itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Eklenti, varsayılan olarak dizine eklenen belgenin başlığı olarak HTML title kullanır. Başlık eksikse doküman başlığına karşılık gelen değeri içeren meta veri özelliğine başvurabilir veya varsayılan bir değer ayarlayabilirsiniz.
Oluşturma zaman damgası itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Belge oluşturma zaman damgası değerini içeren meta veri özelliği.
Son değiştirilme zamanı itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Belgenin son değiştirilme zaman damgası değerini içeren meta veri özelliği.
Belge dili itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Dizine eklenen dokümanların içerik dili.
Şema nesne türü itemMetadata.objectType=movie
Sitenin kullandığı nesne türü, veri kaynağı şeması nesne tanımlarında tanımlandığı şekilde. Bu mülk belirtilmezse bağlayıcı, yapılandırılmış verileri dizine eklemez.

Not: Bu yapılandırma özelliği, meta veri özelliği yerine bir değeri işaret eder ve .field ile .defaultValue sonekleri desteklenmez.

Tarih ve saat biçimleri

Tarih/saat biçimleri, meta veri özelliklerinde beklenen biçimleri belirtir. Yapılandırma dosyası bu parametreyi içermiyorsa varsayılan değerler kullanılır. Bu parametre aşağıdaki tabloda gösterilmektedir.

Ayar

Parametre

Ek tarih saat kalıpları

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Noktalı virgülle ayrılmış ek java.time.format.DateTimeFormatter kalıpları listesi. Bu kalıplar, meta verilerdeki veya şemadaki tarih ya da tarih-saat alanları için dize değerleri ayrıştırılırken kullanılır. Varsayılan değer boş bir listedir ancak RFC 3339 ve RFC 1123 biçimleri her zaman desteklenir.

3. adım: Norconex HTTP Collector'ı yapılandırın

Zip arşivi norconex-committer-google-cloud-search-{version}.zipörnek bir yapılandırma dosyası minimum-config.xml içerir.

Google, yapılandırmaya örnek dosyayı kopyalayarak başlamanızı önerir:

  1. Norconex HTTP Collector dizininde değişiklik yapın:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Yapılandırma dosyasını kopyalayın:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Yeni oluşturulan dosyayı (bu örnekte gcs-crawl-config.xml) düzenleyin ve aşağıdaki tabloda açıklandığı gibi mevcut <committer> ve <tagger> düğümlerini ekleyin veya değiştirin.
Yer Parametre
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Zorunlu. Eklentiyi etkinleştirmek için kök <httpcollector> düğümünün alt öğesi olarak bir <committer> düğümü eklemeniz gerekir.
<UploadFormat> <uploadFormat>raw</uploadFormat>
İsteğe bağlıdır. Dizin oluşturucu eklentisinin belge içeriğini Google Cloud Search dizin oluşturucu API'sine aktardığı biçim. Geçerli değerler:
  • raw: Dizin oluşturucu eklentisi, orijinal ve dönüştürülmemiş belge içeriğini gönderir.
  • text: Dizin oluşturucu eklentisi, çıkarılan metin içeriğini gönderir.

Varsayılan değer raw'dir.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
<UploadFormat> değeri raw ise zorunludur. Bu durumda, dizine ekleme aracı eklentisinin, belgenin ikili içerik alanının kullanılabilir olmasını gerektirir.

BinaryContentTagger <tagger> düğümünü, <importer> / <preParseHandlers> düğümünün alt öğesi olarak eklemeniz gerekir.

Aşağıdaki örnekte, gcs-crawl-config.xml için gerekli değişiklik gösterilmektedir.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

4. adım: Web taramayı yapılandırın

Web taraması başlatmadan önce taramayı, yalnızca kuruluşunuzun arama sonuçlarında kullanılabilir hale getirmek istediği bilgileri içerecek şekilde yapılandırmanız gerekir. Web tarama için en önemli ayarlar <crawler> düğümlerinin bir parçasıdır ve şunları içerebilir:

  • Başlangıç URL'leri
  • Taramanın maksimum derinliği
  • İş parçacığı sayısı

Bu yapılandırma değerlerini ihtiyaçlarınıza göre değiştirin. Web taraması ayarlama hakkında daha ayrıntılı bilgi ve kullanılabilir yapılandırma parametrelerinin tam listesi için HTTP Collector'ın Yapılandırma sayfasına bakın.

5. adım: Web taraması ve içerik yükleme başlatma

Dizin oluşturucu eklentisini yükleyip kurduktan sonra yerel modda tek başına çalıştırabilirsiniz.

Aşağıdaki örnekte, gerekli bileşenlerin bir Linux sistemindeki yerel dizinde bulunduğu varsayılmaktadır. Aşağıdaki komutu çalıştırın:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF Monitor ile tarayıcıyı izleme

Norconex JEF (İş Yürütme Çerçevesi) İzleyici, Norconex Web Tarayıcısı (HTTP Toplayıcı) işlemlerinin ve işlerinin ilerleme durumunu izlemek için kullanılan grafiksel bir araçtır. Bu yardımcı programın nasıl ayarlanacağıyla ilgili eksiksiz bir eğitim için JEF Monitor ile tarayıcınızın ilerleme durumunu izleme başlıklı makaleyi inceleyin.