Esegui il deployment di un plug-in Norconex HTTP Collector Indexer

Questa guida è rivolta agli amministratori del plug-in dell'indice Norconex HTTP Collector di Google Cloud Search, ovvero a chiunque sia responsabile del download, del deployment, della configurazione e della manutenzione del plug-in dell'indice. La guida presuppone che tu abbia familiarità con i sistemi operativi Linux, i fondamenti della scansione del web, XML e Norconex HTTP Collector.

Questa guida include istruzioni per eseguire attività chiave relative all'implementazione del plug-in dell'indice:

  • Scaricare il software del plug-in dell'indice
  • Configurare Google Cloud Search
  • Configurare Norconex HTTP Collector e la scansione del web
  • Avvia la scansione del web e carica i contenuti

In questa guida non sono riportate informazioni sulle attività che l'amministratore di Google Workspace deve eseguire per mappare la Ricerca Google al plug-in di indicizzazione di Norconex HTTP Collector. Per informazioni su queste attività, consulta Gestire le origini dati di terze parti.

Panoramica del plug-in di indicizzazione di Cloud Search Norconex HTTP Collector

Per impostazione predefinita, Cloud Search può scoprire, indicizzare e pubblicare contenuti dei prodotti Google Workspace, come Documenti Google e Gmail. Puoi estendere la copertura di Google Cloud Search in modo da includere la pubblicazione di contenuti web per i tuoi utenti implementando il plug-in dell'indice per Norconex HTTP Collector, un crawler web aziendale open source.

File di proprietà di configurazione

Per consentire al plug-in di indicizzazione di eseguire scansioni del web e caricare contenuti nell'API di indicizzazione, in qualità di amministratore del plug-in di indicizzazione devi fornire informazioni specifiche durante i passaggi di configurazione descritti in questo documento nella sezione Passaggi di implementazione.

Per utilizzare il plug-in dell'indice, devi impostare le proprietà in due file di configurazione:

  • {gcs-crawl-config.xml}-- contiene le impostazioni per Norconex HTTP Collector.
  • sdk-configuration.properties-- contiene le impostazioni per Google Cloud Search.

Le proprietà in ogni file consentono al plug-in di indicizzazione di Google Cloud Search e al gatherer HTTP di Norconex di comunicare tra loro.

Scansione del web e caricamento di contenuti

Dopo aver compilato i file di configurazione, hai le impostazioni necessarie per avviare la scansione del web. Norconex HTTP Collector esegue la scansione del web, rileva i contenuti dei documenti relativi alla sua configurazione e carica le versioni binarie (o di testo) originali dei contenuti dei documenti nell'API Cloud Search Indexing, dove vengono indicizzati e infine pubblicati per gli utenti.

Sistema operativo supportato

Il plug-in di indicizzazione del raccoglitore HTTP Norconex di Google Cloud Search deve essere installato su Linux.

Versione di Norconex HTTP Collector supportata

Il plug-in di indicizzazione di Google Cloud Search Norconex HTTP Collector supporta la versione 2.8.0.

Supporto ACL

Il plug-in dell'indice supporta il controllo dell'accesso ai documenti nel dominio Google Workspace utilizzando gli elenchi di controllo dell'accesso (ACL).

Se le ACL predefinite sono abilitate nella configurazione del plug-in di ricerca Google Cloud (defaultAcl.mode impostato su un valore diverso da none e configurato con defaultAcl.*), il plug-in dell'indice tenta innanzitutto di creare e applicare un'ACL predefinita.

Se gli ACL predefiniti non sono attivati, il plug-in ricorre all'assegnazione dell'autorizzazione di lettura all'intero dominio Google Workspace.

Per descrizioni dettagliate dei parametri di configurazione ACL, consulta Parametri del connettore forniti da Google.

Prerequisiti

Prima di eseguire il deployment del plug-in dell'indice, assicurati di disporre dei seguenti componenti obbligatori:

  • JRE 1.8 di Java installato su un computer che esegue il plug-in dell'indice
  • Informazioni di Google Workspace necessarie per stabilire relazioni tra Cloud Search e Norconex HTTP Collector:

    In genere, l'amministratore di Google Workspace del dominio può fornirti queste credenziali.

Passi per il deployment

Per eseguire il deployment del plug-in dell'indice:

  1. Installa Norconex HTTP Collector e il software del plug-in dell'indice
  2. Configurare Google Cloud Search
  3. Configurare il Collector HTTP Norconex
  4. Configurare la scansione del web
  5. Avvia una scansione del web e il caricamento dei contenuti

Passaggio 1: installa Norconex HTTP Collector e il software del plug-in dell'indice

  1. Scarica il software di committer Norconex da questa pagina.
  2. Decomprimere il software scaricato nella cartella ~/norconex/
  3. Clona il plug-in commiter da GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git e poi cd norconex-committer-plugin
  4. Controlla la versione del plug-in committer che ti interessa e crea il file ZIP: git checkout tags/v1-0.0.3 e mvn package (per saltare i test durante la compilazione del connettore, utilizza mvn package -DskipTests).
  5. cd target
  6. Copia il file jar del plug-in compilato nella directory lib di norconex. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Estrai il file ZIP che hai appena creato, quindi decomprimilo: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Esegui lo script di installazione per copiare il file JAR del plug-in e tutte le librerie richieste nella directory del collector HTTP:
    1. Passa al plug-in commiter estratto e scompattato sopra: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. Esegui $ sh install.sh e fornisci il percorso completo di norconex/norconex-collector-http-{version}/lib come directory di destinazione quando richiesto.
    3. Se vengono trovati file JAR duplicati, seleziona l'opzione 1 (Copia solo il file JAR di origine se è di versione successiva o uguale al file JAR di destinazione dopo aver rinominato il file JAR di destinazione).

Passaggio 2: configura Google Cloud Search

Affinché il plug-in di indicizzazione si connetta a Norconex HTTP Collector e indicizzi i contenuti pertinenti, devi creare il file di configurazione di Cloud Search nella directory Norconex in cui è installato Norconex HTTP Collector. Google consiglia di rinominare il file di configurazione di Cloud Search comesdk-configuration.properties.

Questo file di configurazione deve contenere coppie chiave/valore che definiscono un parametro. Il file di configurazione deve specificare almeno i seguenti parametri, necessari per accedere all'origine dati Cloud Search.

Impostazione Parametro
ID origine dati api.sourceId = 1234567890abcdef
Obbligatorio. L'ID origine Cloud Search configurato dall'amministratore di Google Workspace.
Service account api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obbligatorio. Il file della chiave dell'account di servizio Cloud Search creato dall'amministratore di Google Workspace per l'accessibilità del plug-in dell'indice.

L'esempio seguente mostra un file sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Il file di configurazione può contenere anche parametri di configurazione forniti da Google. Questi parametri possono influire sul modo in cui questo plug-in invia i dati all'API Google Cloud Search. Ad esempio, l'insieme di parametri batch.* identifica il modo in cui il connettore combina le richieste.

Se non definisci un parametro nel file di configurazione, viene utilizzato il valore predefinito, se disponibile. Per descrizioni dettagliate di ciascun parametro, consulta Parametri del connettore forniti da Google.

Puoi configurare il plug-in dell'indice per compilare i metadati e i dati strutturati per i contenuti sottoposti a indicizzazione. I valori da compilare per i campi dei metadati e dei dati strutturati possono essere estratti dai meta tag nei contenuti HTML sottoposti a indicizzazione oppure è possibile specificare valori predefiniti nel file di configurazione.

Impostazione Parametro
Titolo itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Per impostazione predefinita, il plug-in utilizza HTML title come titolo del documento sottoposto a indicizzazione. In caso di titolo mancante, puoi fare riferimento all'attributo dei metadati contenente il valore corrispondente al titolo del documento o impostare un valore predefinito.
Timestamp creazione itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
L'attributo dei metadati che contiene il valore del timestamp di creazione del documento.
Ora dell'ultima modifica itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
L'attributo dei metadati che contiene il valore del timestamp dell'ultima modifica del documento.
Lingua del documento itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
La lingua dei contenuti dei documenti da indicizzare.
Tipo di oggetto dello schema itemMetadata.objectType=movie
Il tipo di oggetto utilizzato dal sito, come definito nelle definizioni degli oggetti dello schema dell'origine dati. Il connettore non indicizzerà alcun dato strutturato se questa proprietà non è specificata.

Nota: questa proprietà di configurazione fa riferimento a un valore anziché a un attributo dei metadati e i suffissi .field e .defaultValue non sono supportati.

Formati data/ora

I formati data e ora specificano i formati previsti negli attributi dei metadati. Se il file di configurazione non contiene questo parametro, vengono utilizzati i valori predefiniti. Questo parametro è mostrato nella tabella seguente.

Impostazione

Parametro

Pattern datetime aggiuntivi

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Un elenco separato da punto e virgola di pattern java.time.format.DateTimeFormatter aggiuntivi. I pattern vengono utilizzati durante l'analisi dei valori di stringa per eventuali campi di data o data e ora nei metadati o nello schema. Il valore predefinito è un elenco vuoto, ma i formati RFC 3339 e RFC 1123 sono sempre supportati.

Passaggio 3: configura Norconex HTTP Collector

L'archivio ZIP norconex-committer-google-cloud-search-{version}.zipinclude un file di configurazione di esempio, minimum-config.xml.

Google consiglia di iniziare la configurazione copiando il file di esempio:

  1. Vai alla directory del Collector HTTP di Norconex:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Copia il file di configurazione:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Modifica il file appena creato (in questo esempio, gcs-crawl-config.xml) e aggiungi o sostituisci i nodi <committer> e <tagger> esistenti come descritto nella seguente tabella.
Impostazione Parametro
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Obbligatorio. Per attivare il plug-in, devi aggiungere un nodo <committer> come secondario del nodo principale <httpcollector>.
<UploadFormat> <uploadFormat>raw</uploadFormat>
Facoltativo. Il formato in cui il plug-in di indicizzazione invia i contenuti dei documenti all'API di indicizzazione di Google Cloud Search. I valori validi sono:
  • raw: il plug-in dell'indice invia i contenuti originali dei documenti non convertiti.
  • text: il plug-in dell'indice invia i contenuti di testo estratti.

Il valore predefinito è raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Obbligatorio se il valore di <UploadFormat> è raw. In questo caso, il plug-in dell'indice deve disporre del campo dei contenuti binari del documento.

Devi aggiungere il nodo BinaryContentTagger <tagger> come elemento secondario del nodo <importer> / <preParseHandlers>.

L'esempio seguente mostra la modifica richiesta a gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Passaggio 4: configura la scansione del web

Prima di avviare una scansione del web, devi configurarla in modo che includa solo le informazioni che la tua organizzazione vuole rendere disponibili nei risultati di ricerca. Le impostazioni più importanti per la scansione del web fanno parte dei nodi <crawler> e possono includere:

  • URL di avvio
  • Profondità massima della scansione
  • Numero di thread

Modifica questi valori di configurazione in base alle tue esigenze. Per informazioni più dettagliate sulla configurazione di una scansione del web, nonché un elenco completo dei parametri di configurazione disponibili, consulta la pagina Configurazione di HTTP Collector.

Passaggio 5: avvia una scansione del web e carica i contenuti

Dopo aver installato e configurato il plug-in dell'indice, puoi eseguirlo autonomamente in modalità locale.

L'esempio seguente presuppone che i componenti richiesti si trovino nella directory locale su un sistema Linux. Esegui questo comando:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitora il crawler con JEF Monitor

Norconex JEF (Job Execution Framework) Monitor è uno strumento grafico per monitorare l'avanzamento dei processi e dei job di Norconex Web Crawler (HTTP Collector). Per un tutorial completo su come configurare questa utility, consulta Monitora l'avanzamento del crawler con JEF Monitor.