部署 Norconex HTTP 收集器索引工具外掛程式

本指南適用於 Google Cloud Search Norconex HTTP 收集器索引 外掛程式管理員,也就是負責下載的人員 部署、設定及維護索引器外掛程式本指南假設 您所熟悉的 Linux 作業系統、網路的基礎知識 檢索、XML 和 Norconex HTTP 收集器

本指南說明如何執行與索引器相關的重要工作 外掛程式部署作業:

  • 下載索引器外掛程式軟體
  • 設定 Google Cloud Search
  • 設定 Norconex HTTP 收集器和網頁檢索
  • 開始網頁檢索並上傳內容

Google Workspace 管理員必須執行的工作相關資訊 將 Google Cloud Search 對應至 Norconex HTTP 收集器索引外掛程式 並不會出現在本指南中。如需關於這些工作的資訊,請參閱 管理第三方資料來源

Cloud Search Norconex HTTP 收集器索引外掛程式總覽

根據預設,Cloud Search 可以在 Google Workspace 產品,例如 Google 文件和 Gmail。您可以將 Google Cloud Search 的觸及率,包括透過以下方式將網路內容提供給使用者: 部署索引器外掛程式 Norconex HTTP 收集器, 開放原始碼企業網路檢索器

設定屬性檔案

如何讓索引器外掛程式執行網頁檢索,並將內容上傳至 索引 API 的索引服務管理員 進行這項作業所需的資訊 部署步驟

如要使用索引器外掛程式,您必須在兩個設定檔中設定屬性:

  • {gcs-crawl-config.xml}:包含 Norconex HTTP 收集器的設定。
  • sdk-configuration.properties:包含 Google Cloud Search 設定。

每個檔案中的屬性會啟用 Google Cloud Search 索引外掛程式外掛程式 Norconex HTTP 收集器互相通訊。

網頁檢索和內容上傳

填入設定檔後,您將擁有必要的 設定開始檢索網頁。Norconex HTTP 收集器檢索 來尋找與設定和網路內容相關的文件內容 將原始二進位 (或文字) 版本的文件內容上傳至雲端 搜尋索引 API,也就是建立索引後最終向使用者顯示的介面。

支援的作業系統

必須安裝 Google Cloud Search Norconex HTTP 收集器索引器外掛程式 。

支援的 Norconex HTTP 收集器版本

Google Cloud Search Norconex HTTP 收集器索引外掛程式支援版本 2.8.0.

ACL 支援

索引器外掛程式支援控制 存取 Google Workspace 網域。

如果 Google Cloud Search 外掛程式設定已啟用預設 ACL (已將 defaultAcl.mode 設為 none 以外的位置,並以 defaultAcl.* 設定): 索引器外掛程式會先嘗試建立和套用預設 ACL。

如未啟用預設 ACL,外掛程式會改回授予讀取權限 改成整個 Google Workspace 網域的使用者

如需 ACL 設定參數的詳細說明,請參閱 Google 提供的連接器參數

必要條件

部署索引器外掛程式之前,請確認您具備以下項目 必要元件:

  • 在執行索引器外掛程式的電腦上安裝 Java JRE 1.8
  • 為了在客戶之間建立關係所需的 Google Workspace 資訊 Cloud Search 與 Norconex HTTP 收集器:

    一般而言,網域的 Google Workspace 管理員可提供這些資訊。 憑證

部署步驟

如要部署索引器外掛程式,請按照下列步驟操作:

  1. 安裝 Norconex HTTP 收集器和索引外掛程式外掛程式軟體
  2. 設定 Google Cloud Search
  3. 設定 Norconex HTTP 收集器
  4. 設定網頁檢索
  5. 開始網頁檢索和上傳內容

步驟 1:安裝 Norconex HTTP 收集器和索引外掛程式外掛程式軟體

  1. 從以下位置下載 Norconex 修訂者軟體: 這個網頁
  2. 將已下載的軟體解壓縮至 ~/norconex/ 資料夾
  3. 從 GitHub 複製修訂版本外掛程式外掛程式。「git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git」和 之後cd norconex-committer-plugin
  4. 查看需要的修訂版本外掛程式版本,並建立 ZIP 檔案: git checkout tags/v1-0.0.3mvn package (在建構時略過測試 連結,請使用 mvn package -DskipTests)
  5. cd target
  6. 將已建構的外掛程式 jar 檔案複製到 norconex lib 目錄。 cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. 請解壓縮剛建立的 ZIP 檔案,然後將檔案解壓縮:unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. 執行安裝指令碼,複製外掛程式的 .jar 以及所有必要檔案 新增至 http 收集器的目錄:
    1. 變更為在上方解壓縮的修訂版本工具外掛程式:cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. 執行 $ sh install.sh,並提供以下項目的完整路徑: 目標為 norconex/norconex-collector-http-{version}/lib 並在系統提示時更新目錄資料
    3. 如果發現重複的 jar 檔案,請選取選項 1 (僅複製來源 Jar) 在重新命名目標 Jar 後,以高於目標 Jar 的版本為準)。

步驟 2:設定 Google Cloud Search

為了讓索引器外掛程式連線至 Norconex HTTP 收集器,並建立索引 相關內容,您必須在 安裝 Norconex HTTP 收集器的 Norconex 目錄。Google 推薦 您需要為 Cloud Search 設定檔命名 sdk-configuration.properties

這個設定檔必須包含定義參數的鍵/值組合。 設定檔至少須指定下列參數 存取 Cloud Search 資料來源。

設定 參數
資料來源 ID api.sourceId = 1234567890abcdef敬上
必填。Google Workspace 管理員設定的 Cloud Search 來源 ID。
服務帳戶 api.serviceAccountPrivateKeyFile = ./PrivateKey.json敬上
必填。Google Workspace 管理員為了存取索引外掛程式而建立的 Cloud Search 服務帳戶金鑰檔案。

以下範例顯示的是 sdk-configuration.properties 檔案。

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

設定檔也可能包含 Google 提供的設定參數。 這些參數會影響這個外掛程式將資料推送至 Google Cloud Search API 的方式。例如 batch.* 參數集 識別連接器如何合併要求。

如果您未在設定檔中定義參數,則預設值為預設值 如果有使用的話,建議使用。如需每個參數的詳細說明,請參閱 Google 提供的連接器參數

您可以設定索引器外掛程式,以便填入 將內容編入索引要填入的中繼資料和結構化資料值 欄位也可以從已建立索引的 HTML 內容中繼標記擷取,或 您可以在設定檔中指定預設值。

設定 參數
標題 itemMetadata.title.field=movieTitle敬上
itemMetadata.title.defaultValue=Gone with the Wind
根據預設,外掛程式會使用 HTML title 做為要建立索引的文件標題。如果缺少書名,你可以參考 中繼資料,且該屬性包含文件標題的對應值,或是設定預設值。
建立時間戳記 itemMetadata.createTime.field=releaseDate敬上
itemMetadata.createTime.defaultValue=1940-01-17
中繼資料屬性,內含文件建立時間戳記的值。
上次修改時間 itemMetadata.updateTime.field=releaseDate敬上
itemMetadata.updateTime.defaultValue=1940-01-17
中繼資料屬性,內含文件上次修改時間戳記的值。
文件語言 itemMetadata.contentLanguage.field=languageCode敬上
itemMetadata.contentLanguage.defaultValue=en-US
已建立索引文件的內容語言。
結構定義物件類型 itemMetadata.objectType=movie敬上
網站使用的物件類型,如 資料來源結構定義物件定義。連接器不會為任何 結構化資料。

注意:這個設定屬性會指向一個值, 而 .field.defaultValue 後置字串。

日期時間格式

日期時間格式會指定中繼資料屬性中預期的格式。 如果設定檔不包含此參數,則預設值為 下表顯示此參數。

設定

參數

其他日期時間模式

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

其他 java.time.format.DateTimeFormatter 的以分號分隔的清單 例如模式剖析任何日期或日期時間的字串值時,系統會使用模式 欄位。預設值為空白清單。 但一律支援 RFC 3339 和 RFC 1123 格式

步驟 3:設定 Norconex HTTP 收集器

ZIP 封存檔norconex-committer-google-cloud-search-{version}.zip包括 範例設定檔:minimum-config.xml

Google 建議您先複製範例檔案,開始進行設定:

  1. 變更為 Norconex HTTP 收集器目錄:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. 複製設定檔:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. 編輯新建立的檔案 (在此範例中為 gcs-crawl-config.xml) 並 按照<committer><tagger> 下表。
設定 參數
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">敬上

這是必要項目。如要啟用外掛程式,您必須將 <committer> 節點新增為根 <httpcollector> 節點的子項。
<UploadFormat> <uploadFormat>raw</uploadFormat>敬上
選用。索引外掛程式外掛程式將文件內容推送至 Google Cloud Search 索引器 API 的格式。有效的值包括:
  • raw:索引外掛程式會推送未轉換的原始文件內容。
  • text:索引外掛程式會推送擷取的文字內容。

預設值為 raw
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>敬上
如果 <UploadFormat> 的值為 raw,則為必要欄位。在此情況下,索引外掛程式外掛程式需要文件的二進位內容欄位才可供使用。

您必須將 BinaryContentTagger <tagger> 節點新增為 <importer> / <preParseHandlers> 節點的子項元素。

以下範例為必要參數 修改為 gcs-crawl-config.xml

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

步驟 4:設定網頁檢索

起始網頁檢索之前,您必須將檢索設定為 包含貴機構想要顯示在搜尋結果中的資訊 也就是預測結果網頁檢索功能最重要的設定是 <crawler> 的一部分 節點,可包含:

  • 起始網址
  • 檢索深度上限
  • 執行緒數量

您可以根據需求變更這些設定值。如要進一步瞭解 設定網頁檢索的相關資訊,以及 請查看 HTTP 收集器的 設定 頁面。

步驟 5:開始檢索網頁並上傳內容

安裝並設定索引器外掛程式後,您便可以在 並在本機模式下使用容器

以下範例假設必要元件位於 位於 Linux 系統上的目錄執行下列指令:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

使用 JEF Monitor 監控檢索器

Norconex JEF (工作執行架構) Monitor 是一種圖形工具 監控 Norconex Web Crawler (HTTP Collector) 處理程序的進度 和工作如需此公用程式的完整設定教學課程,請造訪: 使用 JEF Monitor 監控檢索器進度