Esegui il deployment di un plug-in Norconex HTTP Collector Indexer

Questa guida è destinata agli amministratori responsabili del download, del deployment e della manutenzione del plug-in dell'indicizzatore Norconex HTTP Collector di Google Cloud Search. Devi avere familiarità con Linux, i concetti di base del web crawling, XML e Norconex HTTP Collector.

Questa guida include le istruzioni per:

  • Scaricare il software del plug-in dell'indicizzatore.
  • Configurare Cloud Search.
  • Configurare Norconex HTTP Collector e il web crawling.
  • Avviare il web crawl e caricare i contenuti.

Le informazioni sulle attività che l'amministratore di Google Workspace deve eseguire non sono riportate in questa guida. Per informazioni su queste attività, consulta Gestire le origini dati di terze parti.

Panoramica del plug-in dell'indicizzatore Norconex HTTP Collector

Per impostazione predefinita, Cloud Search può rilevare, indicizzare e pubblicare contenuti dai prodotti Google Workspace, come Google Documenti e Gmail. Puoi estendere questa funzionalità per includere i contenuti web eseguendo il deployment del plug-in dell'indicizzatore per Norconex HTTP Collector, un web crawler aziendale open source.

File delle proprietà di configurazione

Per consentire al plug-in di eseguire il crawl e caricare i contenuti, devi fornire informazioni specifiche in due file di configurazione:

  • {gcs-crawl-config.xml}: impostazioni per Norconex HTTP Collector.
  • sdk-configuration.properties: impostazioni per Cloud Search.

Web crawl e caricamento dei contenuti

Dopo aver compilato i file di configurazione, puoi avviare il web crawl. Norconex HTTP Collector esegue la scansione del web e carica i contenuti originali dei documenti binari o di testo nell'API di indicizzazione di Cloud Search.

Requisiti di sistema

  • Sistema operativo: solo Linux.
  • Versione di Norconex: versione 2.8.0.
  • Software: Java JRE 1.8.

Supporto ACL

Il plug-in dell'indicizzatore supporta gli elenchi di controllo dell'accesso (ACL) per controllare l'accesso ai documenti nel dominio Google Workspace.

Se attivi gli ACL predefiniti nella configurazione del plug-in (defaultAcl.mode impostato su un valore diverso da none), il plug-in applica questi valori predefiniti. In caso contrario, il plug-in concede l'autorizzazione di lettura all'intero dominio. Consulta Parametri dei connettori forniti da Google.

Prerequisiti

Prima di eseguire il deployment del plug-in dell'indicizzatore, raccogli questi componenti:

Passi per il deployment

  1. Installare Norconex HTTP Collector e il software del plug-in
  2. Configurare Cloud Search
  3. Configurare Norconex HTTP Collector
  4. Configurare il web crawl
  5. Avviare un web crawl e il caricamento dei contenuti

Passaggio 1: installare Norconex HTTP Collector e il software del plug-in

  1. Scarica il software del committer Norconex dalla pagina di download Norconex.
  2. Estrai il software in ~/norconex/.
  3. Clona il plug-in del committer:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Estrai la versione selezionata e crea il plug-in:

    git checkout tags/v1-0.0.3
    mvn package
    

    Per saltare i test, utilizza mvn package -DskipTests.

  5. Copia il file JAR nella directory lib di Norconex:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Estrai il file ZIP creato:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Esegui lo script di installazione e fornisci il percorso completo della directory lib di Norconex:

    sh install.sh
    

    Se ti viene chiesto di scegliere tra file duplicati, seleziona l'opzione 1.

Passaggio 2: configurare Cloud Search

Crea sdk-configuration.properties nella directory Norconex. Il file deve specificare questi parametri:

Impostazione Parametro
ID origine dati api.sourceId = 1234567890abcdef
Obbligatorio. L'ID origine fornito dall'amministratore di Google Workspace.
Service account api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obbligatorio. Il file della chiave del service account.

Esempio di sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Puoi anche includere parametri come batch.* per controllare la modalità di push dei dati da parte del plug-in. Consulta Parametri dei connettori forniti da Google.

Per popolare i metadati, configura questi parametri facoltativi:

Impostazione Parametro
Titolo itemMetadata.title.field=movieTitle
Tipo di oggetto dello schema itemMetadata.objectType=movie

Passaggio 3: configurare Norconex HTTP Collector

Il plug-in include un file di esempio, minimum-config.xml.

  1. Passa alla directory Norconex e copia l'esempio:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Modifica gcs-crawl-config.xml per aggiungere o sostituire <committer> e <tagger> nodi:

Impostazione Parametro
<committer> nodo <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter"> Obbligatorio.
Aggiungi questo nodo sotto il nodo <httpcollector>.
<uploadFormat> <uploadFormat>raw</uploadFormat>
Facoltativo. raw o text. Il valore predefinito è raw.

Esempio di gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Passaggio 4: configurare il web crawl

Configura i nodi <crawler> in base alle tue esigenze, tra cui:

  • URL di avvio
  • Profondità massima del crawl
  • Numero di thread

Consulta la pagina di configurazione di Norconex.

Passaggio 5: avviare un web crawl e il caricamento dei contenuti

Esegui il collector in modalità locale:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorare il crawler con JEF Monitor

Norconex JEF (Job Execution Framework) Monitor fornisce una visualizzazione grafica dello stato di avanzamento. Consulta Monitorare il crawler con JEF Monitor.