Esegui il deployment di un plug-in Norconex HTTP Collector Indexer

Questa guida è destinata agli amministratori responsabili del download, del deployment e della manutenzione del plug-in dell'indicizzatore Norconex HTTP Collector di Google Cloud Search. Devi avere familiarità con Linux, i concetti di base del web crawling, XML e Norconex HTTP Collector.

Questa guida include le istruzioni per:

Scaricare il software del plug-in dell'indicizzatore.
Configurare Cloud Search.
Configurare Norconex HTTP Collector e il web crawling.
Avviare il web crawl e caricare i contenuti.

Le informazioni sulle attività che l'amministratore di Google Workspace deve eseguire non sono riportate in questa guida. Per informazioni su queste attività, consulta Gestire le origini dati di terze parti.

Panoramica del plug-in dell'indicizzatore Norconex HTTP Collector

Per impostazione predefinita, Cloud Search può rilevare, indicizzare e pubblicare contenuti dai prodotti Google Workspace, come Google Documenti e Gmail. Puoi estendere questa funzionalità per includere i contenuti web eseguendo il deployment del plug-in dell'indicizzatore per Norconex HTTP Collector, un web crawler aziendale open source.

File delle proprietà di configurazione

Per consentire al plug-in di eseguire il crawl e caricare i contenuti, devi fornire informazioni specifiche in due file di configurazione:

{gcs-crawl-config.xml}: impostazioni per Norconex HTTP Collector.
sdk-configuration.properties: impostazioni per Cloud Search.

Web crawl e caricamento dei contenuti

Dopo aver compilato i file di configurazione, puoi avviare il web crawl. Norconex HTTP Collector esegue la scansione del web e carica i contenuti originali dei documenti binari o di testo nell'API di indicizzazione di Cloud Search.

Requisiti di sistema

Sistema operativo: solo Linux.
Versione di Norconex: versione 2.8.0.
Software: Java JRE 1.8.

Supporto ACL

Il plug-in dell'indicizzatore supporta gli elenchi di controllo dell'accesso (ACL) per controllare l'accesso ai documenti nel dominio Google Workspace.

Se attivi gli ACL predefiniti nella configurazione del plug-in (defaultAcl.mode impostato su un valore diverso da none), il plug-in applica questi valori predefiniti. In caso contrario, il plug-in concede l'autorizzazione di lettura all'intero dominio. Consulta Parametri dei connettori forniti da Google.

Prerequisiti

Prima di eseguire il deployment del plug-in dell'indicizzatore, raccogli questi componenti:

Chiave privata di Google Workspace (contenente l'ID del service account). Consulta Configurare l'accesso all'API Cloud Search.
ID origine dati di Google Workspace. Consulta Gestire le origini dati di terze parti.

Passi per il deployment

Installare Norconex HTTP Collector e il software del plug-in
Configurare Cloud Search
Configurare Norconex HTTP Collector
Configurare il web crawl
Avviare un web crawl e il caricamento dei contenuti

Passaggio 1: installare Norconex HTTP Collector e il software del plug-in

Scarica il software del committer Norconex dalla pagina di download Norconex.
Estrai il software in ~/norconex/.

Clona il plug-in del committer:

git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
cd norconex-committer-plugin

Estrai la versione selezionata e crea il plug-in:
```
git checkout tags/v1-0.0.3
mvn package
```
Per saltare i test, utilizza mvn package -DskipTests.

Copia il file JAR nella directory lib di Norconex:

cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib

Estrai il file ZIP creato:

unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3

Esegui lo script di installazione e fornisci il percorso completo della directory lib di Norconex:
```
sh install.sh
```
Se ti viene chiesto di scegliere tra file duplicati, seleziona l'opzione 1.

Passaggio 2: configurare Cloud Search

Crea sdk-configuration.properties nella directory Norconex. Il file deve specificare questi parametri:

Impostazione	Parametro
ID origine dati	`api.sourceId = 1234567890abcdef` Obbligatorio. L'ID origine fornito dall'amministratore di Google Workspace.
Service account	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` Obbligatorio. Il file della chiave del service account.

Esempio di sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Puoi anche includere parametri come batch.* per controllare la modalità di push dei dati da parte del plug-in. Consulta Parametri dei connettori forniti da Google.

Per popolare i metadati, configura questi parametri facoltativi:

Impostazione	Parametro
Titolo	`itemMetadata.title.field=movieTitle`
Tipo di oggetto dello schema	`itemMetadata.objectType=movie`

Passaggio 3: configurare Norconex HTTP Collector

Il plug-in include un file di esempio, minimum-config.xml.

Passa alla directory Norconex e copia l'esempio:

cd ~/norconex/norconex-collector-http-VERSION/
cp examples/minimum/minimum-config.xml gcs-crawl-config.xml

Modifica gcs-crawl-config.xml per aggiungere o sostituire <committer> e <tagger> nodi:

Impostazione	Parametro
`<committer>` nodo	`<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">` Obbligatorio. Aggiungi questo nodo sotto il nodo `<httpcollector>`.
`<uploadFormat>`	`<uploadFormat>raw</uploadFormat>` Facoltativo. `raw` o `text`. Il valore predefinito è `raw`.

Esempio di gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Passaggio 4: configurare il web crawl

Configura i nodi <crawler> in base alle tue esigenze, tra cui:

URL di avvio
Profondità massima del crawl
Numero di thread

Consulta la pagina di configurazione di Norconex.

Passaggio 5: avviare un web crawl e il caricamento dei contenuti

Esegui il collector in modalità locale:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorare il crawler con JEF Monitor

Norconex JEF (Job Execution Framework) Monitor fornisce una visualizzazione grafica dello stato di avanzamento. Consulta Monitorare il crawler con JEF Monitor.

Esegui il deployment di un plug-in Norconex HTTP Collector Indexer Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.