Questa guida è destinata agli amministratori responsabili del download, del deployment e della manutenzione del plug-in dell'indicizzatore Norconex HTTP Collector di Google Cloud Search. Devi avere familiarità con Linux, i concetti di base del web crawling, XML e Norconex HTTP Collector.
Questa guida include le istruzioni per:
- Scaricare il software del plug-in dell'indicizzatore.
- Configurare Cloud Search.
- Configurare Norconex HTTP Collector e il web crawling.
- Avviare il web crawl e caricare i contenuti.
Le informazioni sulle attività che l'amministratore di Google Workspace deve eseguire non sono riportate in questa guida. Per informazioni su queste attività, consulta Gestire le origini dati di terze parti.
Panoramica del plug-in dell'indicizzatore Norconex HTTP Collector
Per impostazione predefinita, Cloud Search può rilevare, indicizzare e pubblicare contenuti dai prodotti Google Workspace, come Google Documenti e Gmail. Puoi estendere questa funzionalità per includere i contenuti web eseguendo il deployment del plug-in dell'indicizzatore per Norconex HTTP Collector, un web crawler aziendale open source.
File delle proprietà di configurazione
Per consentire al plug-in di eseguire il crawl e caricare i contenuti, devi fornire informazioni specifiche in due file di configurazione:
{gcs-crawl-config.xml}: impostazioni per Norconex HTTP Collector.sdk-configuration.properties: impostazioni per Cloud Search.
Web crawl e caricamento dei contenuti
Dopo aver compilato i file di configurazione, puoi avviare il web crawl. Norconex HTTP Collector esegue la scansione del web e carica i contenuti originali dei documenti binari o di testo nell'API di indicizzazione di Cloud Search.
Requisiti di sistema
- Sistema operativo: solo Linux.
- Versione di Norconex: versione 2.8.0.
- Software: Java JRE 1.8.
Supporto ACL
Il plug-in dell'indicizzatore supporta gli elenchi di controllo dell'accesso (ACL) per controllare l'accesso ai documenti nel dominio Google Workspace.
Se attivi gli ACL predefiniti nella configurazione del plug-in (defaultAcl.mode impostato su un valore diverso da none), il plug-in applica questi valori predefiniti. In caso contrario, il plug-in concede l'autorizzazione di lettura all'intero dominio. Consulta
Parametri dei connettori forniti da Google.
Prerequisiti
Prima di eseguire il deployment del plug-in dell'indicizzatore, raccogli questi componenti:
- Chiave privata di Google Workspace (contenente l'ID del service account). Consulta Configurare l'accesso all'API Cloud Search.
- ID origine dati di Google Workspace. Consulta Gestire le origini dati di terze parti.
Passi per il deployment
- Installare Norconex HTTP Collector e il software del plug-in
- Configurare Cloud Search
- Configurare Norconex HTTP Collector
- Configurare il web crawl
- Avviare un web crawl e il caricamento dei contenuti
Passaggio 1: installare Norconex HTTP Collector e il software del plug-in
- Scarica il software del committer Norconex dalla pagina di download Norconex.
- Estrai il software in
~/norconex/. Clona il plug-in del committer:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginEstrai la versione selezionata e crea il plug-in:
git checkout tags/v1-0.0.3 mvn packagePer saltare i test, utilizza
mvn package -DskipTests.Copia il file JAR nella directory
libdi Norconex:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libEstrai il file ZIP creato:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Esegui lo script di installazione e fornisci il percorso completo della directory
libdi Norconex:sh install.shSe ti viene chiesto di scegliere tra file duplicati, seleziona l'opzione
1.
Passaggio 2: configurare Cloud Search
Crea sdk-configuration.properties nella directory Norconex. Il file deve specificare questi parametri:
| Impostazione | Parametro |
| ID origine dati | api.sourceId = 1234567890abcdef
Obbligatorio. L'ID origine fornito dall'amministratore di Google Workspace. |
| Service account | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obbligatorio. Il file della chiave del service account. |
Esempio di sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Puoi anche includere parametri come batch.* per controllare la modalità di push dei dati da parte del plug-in. Consulta
Parametri dei connettori forniti da Google.
Per popolare i metadati, configura questi parametri facoltativi:
| Impostazione | Parametro |
| Titolo | itemMetadata.title.field=movieTitle |
| Tipo di oggetto dello schema | itemMetadata.objectType=movie |
Passaggio 3: configurare Norconex HTTP Collector
Il plug-in include un file di esempio, minimum-config.xml.
Passa alla directory Norconex e copia l'esempio:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlModifica
gcs-crawl-config.xmlper aggiungere o sostituire<committer>e<tagger>nodi:
| Impostazione | Parametro |
<committer> nodo |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Obbligatorio.Aggiungi questo nodo sotto il nodo <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
Facoltativo. raw o text. Il valore predefinito è
raw. |
Esempio di gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Passaggio 4: configurare il web crawl
Configura i nodi <crawler> in base alle tue esigenze, tra cui:
- URL di avvio
- Profondità massima del crawl
- Numero di thread
Consulta la pagina di configurazione di Norconex.
Passaggio 5: avviare un web crawl e il caricamento dei contenuti
Esegui il collector in modalità locale:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Monitorare il crawler con JEF Monitor
Norconex JEF (Job Execution Framework) Monitor fornisce una visualizzazione grafica dello stato di avanzamento. Consulta Monitorare il crawler con JEF Monitor.