Bu kılavuz, Google Cloud Search Norconex HTTP Collector dizin oluşturucu eklentisi yöneticileri (dizin oluşturucu eklentisini indirmek, dağıtmak, yapılandırmak ve bakımını yapmakla sorumlu olan herkes) için hazırlanmıştır. Bu kılavuzda, Linux işletim sistemleri, web taramanın temelleri, XML ve Norconex HTTP Collector hakkında bilgi sahibi olduğunuz varsayılır.
Bu kılavuzda, dizin oluşturucu eklentisinin dağıtımıyla ilgili temel görevleri gerçekleştirme talimatları yer alır:
- Dizin oluşturucu eklenti yazılımını indirme
- Google Cloud Search'ü yapılandırma
- Norconex HTTP Collector ve web taramayı yapılandırma
- Web taramasına başlama ve içerik yükleme
Google Workspace yöneticisinin, Google Cloud Search'ü Norconex HTTP Collector dizin oluşturucu eklentisiyle eşlemek için yapması gereken görevlerle ilgili bilgiler bu kılavuzda yer almaz. Bu görevler hakkında bilgi edinmek için Üçüncü taraf veri kaynaklarını yönetme başlıklı makaleyi inceleyin.
Cloud Search Norconex HTTP Collector dizin oluşturucu eklentisine genel bakış
Cloud Search, varsayılan olarak Google Dokümanlar ve Gmail gibi Google Workspace ürünlerindeki içerikleri keşfedebilir, dizine ekleyebilir ve sunabilir. Açık kaynaklı bir kurumsal web tarayıcısı olan Norconex HTTP Collector için dizine ekleyici eklentisini dağıtarak Google Cloud Search'ün erişim alanını genişletebilir ve kullanıcılarınıza web içeriği sunabilirsiniz.
Yapılandırma özellikleri dosyaları
Dizin oluşturucu eklentinin web taramaları yapmasını ve dizine ekleme API'sine içerik yüklemesini sağlamak için dizin oluşturucu eklenti yöneticisi olarak Dağıtım adımları bölümünde açıklanan yapılandırma adımları sırasında belirli bilgileri sağlarsınız.
Dizin oluşturucu eklentisini kullanmak için iki yapılandırma dosyasında özellikler ayarlamanız gerekir:
{gcs-crawl-config.xml}
-- Norconex HTTP Collector'ın ayarlarını içerir.sdk-configuration.properties
-- Google Cloud Search'ün ayarlarını içerir.
Her dosyadaki özellikler, Google Cloud Search dizin oluşturucu eklentisinin ve Norconex HTTP Collector'ın birbiriyle iletişim kurmasını sağlar.
Web'de gezinme ve içerik yükleme
Yapılandırma dosyalarını doldurduktan sonra web taramasını başlatmak için gerekli ayarlara sahip olursunuz. Norconex HTTP Collector, web'i tarar, yapılandırmasıyla ilgili doküman içeriğini keşfeder ve doküman içeriğinin orijinal ikili (veya metin) sürümlerini Cloud Search Dizine Ekleme API'ye yükler. Bu API'de içerik dizine eklenir ve sonuç olarak kullanıcılarınıza sunulur.
Desteklenen işletim sistemi
Google Cloud Search Norconex HTTP Collector dizine ekleme eklentisi Linux'a yüklenmelidir.
Desteklenen Norconex HTTP Collector sürümü
Google Cloud Search Norconex HTTP Collector dizin oluşturucu eklentisi 2.8.0 sürümünü destekler.
EKL desteği
Dizin oluşturucu eklentisi, erişim kontrol listelerini (EKL'ler) kullanarak Google Workspace alanındaki belgelere erişimi kontrol etmeyi destekler.
Google Cloud Search eklenti yapılandırmasında varsayılan ACL'ler etkinse
(defaultAcl.mode
none
dışında bir değere ayarlanmış ve defaultAcl.*
ile yapılandırılmışsa),
dizin oluşturucu eklentisi önce varsayılan bir ACL oluşturup uygulamayı dener.
Varsayılan EKL'ler etkinleştirilmemişse eklenti, Google Workspace alanının tamamına okuma izni verir.
ACL yapılandırma parametrelerinin ayrıntılı açıklamaları için Google tarafından sağlanan bağlayıcı parametreleri başlıklı makaleyi inceleyin.
Ön koşullar
Dizin oluşturucu eklentisini dağıtmadan önce aşağıdaki gerekli bileşenlere sahip olduğunuzdan emin olun:
- Dizin oluşturucu eklentisinin çalıştığı bilgisayarda Java JRE 1.8 yüklü olmalıdır.
Cloud Search ile Norconex HTTP Collector arasında ilişki oluşturmak için gereken Google Workspace bilgileri:
- Google Workspace özel anahtarı (hizmet hesabı kimliğini içerir)
- Google Workspace veri kaynağı kimliği
Genellikle, alanın Google Workspace yöneticisi bu kimlik bilgilerini sizin için sağlayabilir.
Dağıtım adımları
Dizin oluşturucu eklentisini dağıtmak için aşağıdaki adımları uygulayın:
- Norconex HTTP Collector ve dizin oluşturucu eklenti yazılımını yükleme
- Google Cloud Search'ü yapılandırma
- Norconex HTTP Collector'ı yapılandırma
- Web taramasını yapılandırma
- Web taraması ve içerik yükleme başlatma
1. adım: Norconex HTTP Collector'ı ve dizin oluşturucu eklenti yazılımını yükleyin
- Norconex commiter yazılımını bu sayfadan indirin.
- İndirilen yazılımın sıkıştırmasını
~/norconex/
klasörüne açın. - Commiter eklentisini GitHub'dan klonlayın.
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
ve ardındancd norconex-committer-plugin
- Commiter eklentisinin istediğiniz sürümünü kontrol edin ve ZIP dosyasını oluşturun:
git checkout tags/v1-0.0.3
vemvn package
(Bağlayıcıyı oluştururken testleri atlamak içinmvn package -DskipTests
kullanın.) cd target
- Oluşturulan eklenti jar dosyasını norconex lib dizinine kopyalayın.
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- Yeni oluşturduğunuz ZIP dosyasını çıkarın ve dosyayı açın:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- Eklentinin .jar dosyasını ve gerekli tüm kitaplıkları http toplayıcının dizinine kopyalamak için yükleme komut dosyasını çalıştırın:
- Yukarıda çıkarılan commiter eklentisinde yapılan değişiklik:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
$ sh install.sh
komutunu çalıştırın ve istendiğinde hedef dizin olaraknorconex/norconex-collector-http-{version}/lib
için tam yolu girin.- Yinelenen jar dosyaları bulunursa
1
seçeneğini belirleyin (Hedef jar yeniden adlandırıldıktan sonra hedef jar ile aynı veya daha büyük bir sürümse yalnızca kaynak jar'ı kopyalayın).
- Yukarıda çıkarılan commiter eklentisinde yapılan değişiklik:
2. adım: Google Cloud Search'ü yapılandırın
Indexer eklentisinin Norconex HTTP Collector'a bağlanıp ilgili içeriği dizine eklemesi için Norconex HTTP Collector'ın yüklendiği Norconex dizininde Cloud Search yapılandırma dosyasını oluşturmanız gerekir. Google, Cloud Search yapılandırma dosyasına sdk-configuration.properties
adını vermenizi önerir.
Bu yapılandırma dosyası, bir parametreyi tanımlayan anahtar/değer çiftlerini içermelidir. Yapılandırma dosyasında, Cloud Search veri kaynağına erişmek için gerekli olan en azından aşağıdaki parametreler belirtilmelidir.
Yer | Parametre |
Veri kaynağı kimliği | api.sourceId = 1234567890abcdef
Zorunlu. Google Workspace yöneticisi tarafından ayarlanan Cloud Search kaynak kimliği. |
Hizmet hesabı | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Zorunlu. Google Workspace yöneticisi tarafından dizin oluşturucu eklentisinin erişilebilirliği için oluşturulan Cloud Search hizmet hesabı anahtar dosyası. |
Aşağıdaki örnekte bir sdk-configuration.properties
dosyası gösterilmektedir.
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
Yapılandırma dosyası, Google tarafından sağlanan yapılandırma parametrelerini de içerebilir.
Bu parametreler, eklentinin verileri Google Cloud Search API'ye nasıl aktardığını etkileyebilir. Örneğin, batch.*
parametre grubu, bağlayıcının istekleri nasıl birleştirdiğini tanımlar.
Yapılandırma dosyasında bir parametre tanımlamazsanız varsa varsayılan değer kullanılır. Her parametrenin ayrıntılı açıklaması için Google tarafından sağlanan bağlayıcı parametreleri başlıklı makaleyi inceleyin.
Dizin oluşturucu eklentisini, dizine eklenen içeriklerin meta verilerini ve yapılandırılmış verilerini dolduracak şekilde yapılandırabilirsiniz. Meta veri ve yapılandırılmış veri alanları için doldurulacak değerler, dizine eklenen HTML içeriğindeki meta etiketlerden çıkarılabilir veya yapılandırma dosyasında varsayılan değerler belirtilebilir.
Ayar | Parametre |
Başlık | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Eklenti, varsayılan olarak dizine eklenen belgenin başlığı olarak HTML title kullanır. Başlık eksikse doküman başlığına karşılık gelen değeri içeren meta veri özelliğine başvurabilir veya varsayılan bir değer ayarlayabilirsiniz.
|
Oluşturma zaman damgası | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Belge oluşturma zaman damgası değerini içeren meta veri özelliği. |
Son değiştirilme zamanı | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Belgenin son değiştirilme zaman damgası değerini içeren meta veri özelliği. |
Belge dili | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Dizine eklenen dokümanların içerik dili. |
Şema nesne türü | itemMetadata.objectType=movie
Sitenin kullandığı nesne türü, veri kaynağı şeması nesne tanımlarında tanımlandığı şekilde. Bu mülk belirtilmezse bağlayıcı, yapılandırılmış verileri dizine eklemez.
Not: Bu yapılandırma özelliği, meta veri özelliği yerine bir değeri işaret eder ve |
Tarih ve saat biçimleri
Tarih/saat biçimleri, meta veri özelliklerinde beklenen biçimleri belirtir. Yapılandırma dosyası bu parametreyi içermiyorsa varsayılan değerler kullanılır. Bu parametre aşağıdaki tabloda gösterilmektedir.
Ayar
Parametre
Ek tarih saat kalıpları
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Noktalı virgülle ayrılmış ek java.time.format.DateTimeFormatter kalıpları listesi. Bu kalıplar, meta verilerdeki veya şemadaki tarih ya da tarih-saat alanları için dize değerleri ayrıştırılırken kullanılır. Varsayılan değer boş bir listedir ancak RFC 3339 ve RFC 1123 biçimleri her zaman desteklenir.
3. adım: Norconex HTTP Collector'ı yapılandırın
Zip arşivi norconex-committer-google-cloud-search-{version}.zip
örnek bir yapılandırma dosyası minimum-config.xml
içerir.
Google, yapılandırmaya örnek dosyayı kopyalayarak başlamanızı önerir:
- Norconex HTTP Collector dizininde değişiklik yapın:
$ cd ~/norconex/norconex-collector-http-{version}/
- Yapılandırma dosyasını kopyalayın:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- Yeni oluşturulan dosyayı (bu örnekte
gcs-crawl-config.xml
) düzenleyin ve aşağıdaki tabloda açıklandığı gibi mevcut<committer>
ve<tagger>
düğümlerini ekleyin veya değiştirin.
Yer | Parametre |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
Zorunlu. Eklentiyi etkinleştirmek için kök <httpcollector> düğümünün alt öğesi olarak bir <committer> düğümü eklemeniz gerekir.
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
İsteğe bağlıdır. Dizin oluşturucu eklentisinin belge içeriğini Google Cloud Search dizin oluşturucu API'sine aktardığı biçim. Geçerli değerler:
Varsayılan değer raw 'dir.
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
<UploadFormat> değeri raw ise zorunludur. Bu durumda, dizine ekleme aracı eklentisinin, belgenin ikili içerik alanının kullanılabilir olmasını gerektirir.
BinaryContentTagger <tagger> düğümünü, <importer> / <preParseHandlers> düğümünün alt öğesi olarak eklemeniz gerekir.
|
Aşağıdaki örnekte,
gcs-crawl-config.xml
için gerekli değişiklik gösterilmektedir.
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
4. adım: Web taramayı yapılandırın
Web taraması başlatmadan önce taramayı, yalnızca kuruluşunuzun arama sonuçlarında kullanılabilir hale getirmek istediği bilgileri içerecek şekilde yapılandırmanız gerekir. Web tarama için en önemli ayarlar <crawler>
düğümlerinin bir parçasıdır ve şunları içerebilir:
- Başlangıç URL'leri
- Taramanın maksimum derinliği
- İş parçacığı sayısı
Bu yapılandırma değerlerini ihtiyaçlarınıza göre değiştirin. Web taraması ayarlama hakkında daha ayrıntılı bilgi ve kullanılabilir yapılandırma parametrelerinin tam listesi için HTTP Collector'ın Yapılandırma sayfasına bakın.
5. adım: Web taraması ve içerik yükleme başlatma
Dizin oluşturucu eklentisini yükleyip kurduktan sonra yerel modda tek başına çalıştırabilirsiniz.
Aşağıdaki örnekte, gerekli bileşenlerin bir Linux sistemindeki yerel dizinde bulunduğu varsayılmaktadır. Aşağıdaki komutu çalıştırın:
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
JEF Monitor ile tarayıcıyı izleme
Norconex JEF (İş Yürütme Çerçevesi) İzleyici, Norconex Web Tarayıcısı (HTTP Toplayıcı) işlemlerinin ve işlerinin ilerleme durumunu izlemek için kullanılan grafiksel bir araçtır. Bu yardımcı programın nasıl ayarlanacağıyla ilgili eksiksiz bir eğitim için JEF Monitor ile tarayıcınızın ilerleme durumunu izleme başlıklı makaleyi inceleyin.