Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Norconex HTTP Collector インデクサプラグインをデプロイする

このガイドは、Google Cloud Search Norconex HTTP Collector インデクサプラグインのダウンロード、デプロイ、保守を担当する管理者を対象としています。Linux、ウェブクロールの基礎、XML、Norconex HTTP Collector に精通している必要があります。

このガイドには、次の手順が記載されています。

インデクサプラグインソフトウェアをダウンロードします。
Cloud Search を構成します。
Norconex HTTP Collector とウェブクロールを構成します。
ウェブクロールを開始してコンテンツをアップロードします。

Google Workspace 管理者が行う必要があるタスクについては、このガイドでは説明しません。これらのタスクについては、サードパーティのデータソースを管理するをご覧ください。

Norconex HTTP Collector インデクサプラグインの概要

Cloud Search はデフォルトで、Google ドキュメントや Gmail などの Google Workspace プロダクトからコンテンツを検出し、インデックスに登録して提供できます。オープンソースのエンタープライズウェブクローラである Norconex HTTP Collector 用のインデクサプラグインをデプロイすると、ウェブコンテンツも対象に含めることができます。

構成プロパティファイル

プラグインがコンテンツをクロールしてアップロードできるようにするには、次の 2 つの構成ファイルで特定の情報を指定する必要があります。

{gcs-crawl-config.xml}: Norconex HTTP Collector の設定。
sdk-configuration.properties: Cloud Search の設定。

ウェブクロールとコンテンツのアップロード

構成ファイルを設定すると、ウェブクロールを開始できます。Norconex HTTP Collector はウェブをクロールし、元のバイナリまたはテキストのドキュメントコンテンツを Cloud Search インデックス API にアップロードします。

システム要件

オペレーティングシステム: Linux のみ。
Norconex のバージョン: バージョン 2.8.0。
ソフトウェア: Java JRE 1.8。

ACL のサポート

インデクサプラグインは、アクセス制御リスト（ACL）をサポートしており、Google Workspace ドメイン内のドキュメントへのアクセスを制御できます。

プラグイン構成でデフォルトの ACL を有効にすると（defaultAcl.mode が none 以外に設定されている場合）、プラグインはこれらのデフォルトを適用します。それ以外の場合、プラグインはドメイン全体に対する読み取り権限を付与します。Google 提供のコネクタパラメータをご覧ください。

前提条件

インデクサプラグインをデプロイする前に、次のコンポーネントを収集します。

Google Workspace の秘密鍵（サービスアカウント ID を含む）。Cloud Search API へのアクセスを構成するをご覧ください。
Google Workspace データソース ID。サードパーティのデータソースを管理するをご覧ください。

デプロイ手順を実行する

Norconex HTTP Collector とプラグインソフトウェアをインストールする
Cloud Search を構成する
Norconex HTTP Collector を構成する
ウェブクロールを構成する
ウェブクロールとコンテンツのアップロードを開始する

ステップ 1: Norconex HTTP Collector とプラグインソフトウェアをインストールする

Norconex のダウンロードページから Norconex コミッターソフトウェアをダウンロードします。
ソフトウェアを ~/norconex/ に解凍します。

コミッタープラグインのクローンを作成します。

git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
cd norconex-committer-plugin

選択したバージョンをチェックアウトして、プラグインをビルドします。
```
git checkout tags/v1-0.0.3
mvn package
```
テストをスキップするには、mvn package -DskipTests を使用します。

JAR ファイルを Norconex の lib ディレクトリにコピーします。

cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib

ビルドした ZIP ファイルを抽出します。

unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3

インストールスクリプトを実行し、Norconex lib ディレクトリへのフルパスを指定します。
```
sh install.sh
```
重複したファイルについてメッセージが表示されたら、オプション 1 を選択します。

ステップ 2: Cloud Search を構成する

Norconex ディレクトリに sdk-configuration.properties を作成します。ファイルで次のパラメータを指定する必要があります。

設定	パラメータ
データソース ID	`api.sourceId = 1234567890abcdef` 必須。Google Workspace 管理者から提供されたソース ID。
サービスアカウント	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` 必須。サービスアカウントキーファイル。

sdk-configuration.properties の例:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

batch.* などのパラメータを含めて、プラグインがデータをプッシュする方法を制御することもできます。Google 提供のコネクタパラメータをご覧ください。

メタデータを入力するには、次のオプションパラメータを構成します。

設定	パラメータ
タイトル	`itemMetadata.title.field=movieTitle`
スキーマオブジェクトタイプ	`itemMetadata.objectType=movie`

ステップ 3: Norconex HTTP Collector を構成する

このプラグインには、サンプルファイル minimum-config.xml が含まれています。

Norconex ディレクトリに移動して、サンプルをコピーします。

cd ~/norconex/norconex-collector-http-VERSION/
cp examples/minimum/minimum-config.xml gcs-crawl-config.xml

gcs-crawl-config.xml を編集して、<committer> ノードと <tagger> ノードを追加または置換します。

設定	パラメータ
`<committer>` ノード	`<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">` 必須。これを `<httpcollector>` ノードの下に追加します。
`<uploadFormat>`	`<uploadFormat>raw</uploadFormat>` 省略可。`raw` または `text`。デフォルトは `raw` です。

gcs-crawl-config.xml の例:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

ステップ 4: ウェブクロールを構成する

次のように、ニーズに合わせて <crawler> ノードを構成します。

開始 URL
クロールの最大深度
スレッド数

Norconex の構成ページをご覧ください。

ステップ 5: ウェブクロールとコンテンツのアップロードを開始する

ローカルモードでコレクタを実行します。

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

JEF Monitor でクローラをモニタリングする

Norconex JEF（Job Execution Framework）Monitor は、進行状況のグラフィカルビューを提供します。JEF Monitor でクローラをモニタリングするをご覧ください。

Norconex HTTP Collector インデクサ プラグインをデプロイする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

Norconex HTTP Collector インデクサ プラグインの概要

構成プロパティ ファイル