Questa guida è destinata all'indicizzatore Google Cloud Search Norconex HTTP Collector amministratori di plug-in, ovvero chiunque sia responsabile del download, il deployment, la configurazione e la gestione del plug-in Indexer. La guida presuppone che conosci, i sistemi operativi Linux, i fondamenti del web di scansione, XML Norconex HTTP Collector.
Questa guida include istruzioni per eseguire attività chiave correlate all'indicizzatore deployment del plug-in:
- Scarica il software del plug-in per l'indicizzatore
- Configurare Google Cloud Search
- Configurare Norconex HTTP Collector e scansione web
- Avviare la scansione del web e caricare i contenuti
Informazioni sulle attività che l'amministratore di Google Workspace deve eseguire per mappare Google Cloud Search al plug-in dell'indicizzatore dell'indicizzatore HTTP Collector di Norconex non viene visualizzata in questa guida. Per informazioni su queste attività, vedi Gestire le origini dati di terze parti.
Panoramica del plug-in dell'indicizzatore dell'indicizzatore Norconex HTTP Collector di Cloud Search
Per impostazione predefinita, Cloud Search può rilevare, indicizzare e pubblicare contenuti da Prodotti Google Workspace, come Documenti Google e Gmail. Puoi estendere la copertura di Google Cloud Search per includere la pubblicazione di contenuti web per gli utenti il deployment del plug-in indexer Norconex HTTP Collector, un web crawler aziendale open source.
File delle proprietà di configurazione
Per consentire al plug-in dell'indicizzatore di eseguire scansioni web e caricare i contenuti nel l'API per l'indicizzazione, in qualità di amministratore del plug-in dell'indicizzatore, puoi fornire informazioni durante le fasi di configurazione descritte in questo documento Passaggi di deployment.
Per utilizzare il plug-in indexer, devi impostare le proprietà in due file di configurazione:
{gcs-crawl-config.xml}
-- contiene le impostazioni per Norconex HTTP Collector.sdk-configuration.properties
-- contiene le impostazioni per Google Cloud Search.
Le proprietà in ogni file abilitano il plug-in dell'indicizzatore di Google Cloud Search Norconex HTTP Collector per comunicare tra loro.
Scansione web e caricamento di contenuti
Dopo aver compilato i file di configurazione, disponi dei necessari impostazioni per avviare la scansione del web. Scansioni del raccoglitore HTTP Norconex il web, scoprendo contenuti di documenti attinenti alla sua configurazione carica le versioni binarie originali (o in formato testo) dei contenuti dei documenti nel cloud l'API Search Indicizzazione, con cui viene indicizzato e pubblicato per i tuoi utenti.
Sistema operativo supportato
Il plug-in dell'indicizzatore dell'indicizzatore di Google Cloud Search Norconex HTTP Collector deve essere installato su Linux.
Versione supportata della raccolta HTTP Norconex
Il plug-in dell'indicizzatore dell'indicizzatore di Google Cloud Search Norconex HTTP Collector supporta la versione 2.8.0.
Supporto ACL
Il plug-in indexer supporta il controllo dell'accesso ai documenti in nel dominio Google Workspace utilizzando gli elenchi di controllo dell'accesso (ACL).
Se sono abilitati ACL predefiniti nella configurazione del plug-in di Google Cloud Search
(defaultAcl.mode
impostata su un valore diverso da none
e configurato con defaultAcl.*
),
il plug-in dell'indicizzatore tenta innanzitutto di creare e applicare un ACL predefinito.
Se gli ACL predefiniti non sono abilitati, il plug-in torna indietro concedendo l'autorizzazione di lettura all'intero dominio Google Workspace.
Per una descrizione dettagliata dei parametri di configurazione ACL, consulta Parametri dei connettori forniti da Google.
Prerequisiti
Prima di eseguire il deployment del plug-in dell'indicizzatore, assicurati di avere quanto segue componenti obbligatori:
- Java JRE 1.8 installato su un computer che esegue il plug-in indexer
le informazioni di Google Workspace necessarie per stabilire relazioni tra Cloud Search e Norconex HTTP Collector:
- Chiave privata Google Workspace (che contiene l'ID dell'account di servizio)
- ID origine dati Google Workspace
In genere, l'amministratore di Google Workspace del dominio può fornirli le credenziali per te.
Passi per il deployment
Per eseguire il deployment del plug-in indexer, segui questi passaggi:
- Installare Norconex HTTP Collector e il software del plug-in indexer
- Configurare Google Cloud Search
- Configura Norconex HTTP Collector
- Configurare la scansione web
- Avviare una scansione web e caricare contenuti
Passaggio 1: installa Norconex HTTP Collector e il software del plug-in indexer
- Scarica il software Norconex commiter da questa pagina.
- Decomprimi il software scaricato nella cartella
~/norconex/
- Clona il plug-in del commiter da GitHub.
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
e poicd norconex-committer-plugin
- Verifica la versione desiderata del plug-in di commiter e crea il file ZIP:
git checkout tags/v1-0.0.3
emvn package
(per saltare i test durante la creazione il connettore, utilizzamvn package -DskipTests
. cd target
- Copia il file jar del plug-in creato nella directory lib di norconex.
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- Estrai il file ZIP che hai appena creato e decomprimi il file:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- Esegui lo script di installazione per copiare il file .jar del plug-in e tutti i file richiesti
nella directory del raccoglitore http:
- Modifica al plug-in del commiter estratto decompresso sopra:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
- Esegui
$ sh install.sh
e fornisci il percorso completo pernorconex/norconex-collector-http-{version}/lib
come target quando richiesto. - Se vengono trovati file jar duplicati, seleziona l'opzione
1
(copia solo il file jar di origine se maggiore o uguale alla versione del Jar di destinazione dopo aver rinominato il Jar target).
- Modifica al plug-in del commiter estratto decompresso sopra:
Passaggio 2: configura Google Cloud Search
Affinché il plug-in indexer si connetta a Norconex HTTP Collector e indicizzi
pertinenti, devi creare il file di configurazione di Cloud Search nella
Directory Norconex in cui è installato Norconex HTTP Collector. Google consiglia
assegnare un nome al file di configurazione di Cloud Search
sdk-configuration.properties
.
Questo file di configurazione deve contenere coppie chiave/valore che definiscono un parametro. Il file di configurazione deve specificare almeno i seguenti parametri, che sono necessarie per accedere all'origine dati di Cloud Search.
Impostazione | Parametro |
ID origine dati | api.sourceId = 1234567890abcdef
Obbligatorio. L'ID origine di Cloud Search configurato dall'amministratore di Google Workspace. |
Service account | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obbligatorio. Il file della chiave dell'account di servizio di Cloud Search creato dall'amministratore di Google Workspace per l'accessibilità del plug-in dell'indicizzatore. |
L'esempio seguente mostra un file sdk-configuration.properties
.
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
Il file di configurazione può contenere anche parametri di configurazione forniti da Google.
Questi parametri possono influire sul modo in cui il plug-in invia i dati all'API Google Cloud Search. Ad esempio, l'insieme di parametri batch.*
identifica il modo in cui il connettore combina le richieste.
Se non definisci un parametro nel file di configurazione, il valore predefinito se disponibile. Per una descrizione dettagliata di ciascun parametro, consulta Parametri dei connettori forniti da Google.
Puoi configurare il plug-in indexer in modo che compili metadati e dati strutturati per contenuti indicizzati. Valori da compilare per metadati e dati strutturati possono essere estratti dai meta tag nei contenuti HTML che vengono indicizzati oppure è possibile specificare valori predefiniti nel file di configurazione.
Impostazione | Parametro |
Titolo | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Per impostazione predefinita, il plug-in utilizza HTML title come titolo del documento indicizzato. Se manca il titolo, puoi fare riferimento a
l'attributo di metadati che contiene il valore corrispondente al titolo del documento o imposta un valore predefinito.
|
Timestamp creazione | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
L'attributo di metadati che contiene il valore del timestamp di creazione del documento. |
Ora dell'ultima modifica | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
L'attributo di metadati che contiene il valore del timestamp dell'ultima modifica per il documento. |
Lingua del documento | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
La lingua dei contenuti per i documenti da indicizzare. |
Tipo di oggetto schema | itemMetadata.objectType=movie
Il tipo di oggetto utilizzato dal sito, come definito nel definizioni degli oggetti dello schema dell'origine dati. Il connettore non indicizza alcun elemento se questa proprietà non è specificata.
Nota: questa proprietà di configurazione punta a un valore anziché
rispetto a un attributo dei metadati e |
Formati data/ora
I formati di data e ora specificano i formati previsti negli attributi dei metadati. Se il file di configurazione non contiene questo parametro, i valori predefiniti sono in uso. La tabella seguente mostra questo parametro.
Impostazione
Parametro
Pattern data/ora aggiuntivi
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Un elenco separato da punti e virgola di valori java.time.format.DateTimeFormatter aggiuntivi pattern. I pattern vengono utilizzati durante l'analisi dei valori stringa per qualsiasi data o data e ora nei metadati o nello schema. Il valore predefinito è un elenco vuoto, ma sono sempre supportati i formati RFC 3339 e RFC 1123.
Passaggio 3: configura Norconex HTTP Collector
L'archivio ZIP norconex-committer-google-cloud-search-{version}.zip
include una
file di configurazione di esempio, minimum-config.xml
.
Google consiglia di iniziare la configurazione copiando il file di esempio:
- Passa alla directory Norconex HTTP Collector:
$ cd ~/norconex/norconex-collector-http-{version}/
- Copia il file di configurazione:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- Modifica il file appena creato (in questo esempio,
gcs-crawl-config.xml
) e aggiungere o sostituire i nodi<committer>
e<tagger>
esistenti come descritto in la tabella seguente.
Impostazione | Parametro |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
Obbligatorio. Per abilitare il plug-in, devi aggiungere un nodo <committer> come figlio del nodo principale <httpcollector> .
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
Facoltativo. Il formato in cui il plug-in dell'indicizzatore invia i contenuti dei documenti all'API Google Cloud Search Indexer. I valori validi sono:
Il valore predefinito è raw .
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Obbligatorio se il valore di <UploadFormat> è raw . In questo caso, il plug-in dell'indicizzatore richiede che il campo del contenuto binario del documento sia disponibile.
Devi aggiungere il nodo BinaryContentTagger <tagger> come elemento secondario del nodo <importer> / <preParseHandlers> .
|
L'esempio seguente mostra la richiesta
modifica alle
gcs-crawl-config.xml
.
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Passaggio 4: configura la scansione del web
Prima di avviare una scansione web, devi configurare la scansione in modo che
include le informazioni che la tua organizzazione vuole rendere disponibili nella ricerca
che consentono di analizzare i dati
e visualizzare i risultati. Le impostazioni più importanti per la scansione web fanno parte di <crawler>
nodi e può includere:
- URL di inizio
- Profondità massima della scansione
- Numero di thread
Modifica questi valori di configurazione in base alle tue esigenze. Per informazioni più dettagliate informazioni sull'impostazione di una scansione web, nonché un elenco completo delle di configurazione, consulta la sezione Configurazione .
Passaggio 5: avvia una scansione del web e il caricamento di contenuti
Dopo aver installato e configurato il plug-in dell'indicizzatore, puoi eseguirlo in modalità locale.
L'esempio seguente presuppone che i componenti richiesti si trovino nell'ambiente su un sistema Linux. Esegui questo comando:
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Monitorare il crawler con JEF Monitor
Norconex JEF (Job Execution Framework) Monitor è uno strumento grafico per monitoraggio dell'avanzamento dei processi del Web crawler Norconex (HTTP Collector) e job. Per un tutorial completo sulla configurazione di questa utilità, visita Monitora i progressi del crawler con JEF Monitor.