Questa pagina è stata tradotta dall'API Cloud Translation.

Crea un connettore di contenuti

Un connettore di contenuti è un programma software utilizzato per esaminare i dati nel repository di un'azienda e compilare un'origine dati. Google fornisce le seguenti opzioni per lo sviluppo di connettori di contenuti:

L'SDK Content Connector. Questa è una buona opzione se programmi in Java. L'SDK Content Connector è un wrapper per l'API REST che ti consente di creare rapidamente i connettori. Per creare un connettore di contenuti utilizzando l'SDK, consulta Creare un connettore di contenuti utilizzando l'SDK Content Connector.
Un'API REST di basso livello o librerie API. Utilizza queste opzioni se non programmi in Java o se la tua base di codice è più adatta a un'API REST o a una libreria. Per creare un connettore di contenuti utilizzando l'API REST, consulta Creare un connettore di contenuti utilizzando l'API REST.

Un tipico connettore di contenuti esegue le seguenti attività:

Legge ed elabora i parametri di configurazione.
Estrae parti distinte di dati indicizzabili, chiamate "elementi", dal repository di contenuti di terze parti.
Combina ACL, metadati e dati dei contenuti in elementi indicizzabili.
Indicizza gli elementi nell'origine dati Cloud Search.
(Facoltativo) Ascolta le notifiche di modifica dal repository di contenuti di terze parti. Le notifiche di modifica vengono convertite in richieste di indicizzazione per mantenere aggiornata l'origine dati di Cloud Search con il repository di terze parti. Il connettore esegue questa operazione solo se il repository supporta il rilevamento delle modifiche.

Creare un connettore di contenuti utilizzando l'SDK Content Connector

Le sezioni seguenti spiegano come creare un connettore di contenuti utilizzando l'SDK Content Connector.

Configura le dipendenze

Per utilizzare l'SDK, devi includere determinate dipendenze nel file di compilazione. Fai clic su una scheda di seguito per visualizzare le dipendenze per il tuo ambiente di build:

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Gradle

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

Crea la configurazione del connettore

Ogni connettore ha un file di configurazione contenente i parametri utilizzati dal connettore, ad esempio l'ID del repository. I parametri sono definiti come coppie chiave-valore, ad esempio api.sourceId=1234567890abcdef.

L'SDK Google Cloud Search contiene diversi parametri di configurazione forniti da Google utilizzati da tutti i connettori. Devi dichiarare i seguenti parametri forniti da Google nel file di configurazione:

Per un connettore di contenuti, devi dichiarare api.sourceId e api.serviceAccountPrivateKeyFile perché questi parametri identificano la posizione del tuo repository e la chiave privata necessaria per accedere al repository.

Per un connettore di identità, devi dichiarare api.identitySourceId poiché questo parametro identifica la posizione dell'origine dell'identità esterna. Se sincronizzi gli utenti, devi anche dichiarare api.customerId come ID univoco per l'account Google Workspace della tua azienda.

A meno che tu non voglia sostituire i valori predefiniti di altri parametri forniti da Google, non è necessario dichiararli nel file di configurazione. Per ulteriori informazioni sui parametri di configurazione forniti da Google, ad esempio su come generare determinati ID e chiavi, consulta Parametri di configurazione forniti da Google.

Puoi anche definire i tuoi parametri specifici del repository da utilizzare nel file di configurazione.

Passa il file di configurazione al connettore

Imposta la proprietà di sistema config per passare il file di configurazione al connettore. Puoi impostare la proprietà utilizzando l'argomento -D all'avvio del connettore. Ad esempio, il seguente comando avvia il connettore con il file di configurazione MyConfig.properties:

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

Se questo argomento non è presente, l'SDK tenta di accedere a un file di configurazione predefinito denominato connector-config.properties.

Determina la strategia di attraversamento

La funzione principale di un connettore di contenuti è attraversare un repository e indicizzare i relativi dati. Devi implementare una strategia di attraversamento in base alle dimensioni e al layout dei dati nel tuo repository. Puoi progettare la tua strategia o scegliere tra le seguenti strategie implementate nell'SDK:

Strategia di attraversamento completa

Una strategia di attraversamento completa esegue la scansione dell'intero repository e indicizza in modo cieco ogni elemento. Questa strategia viene comunemente utilizzata quando hai un piccolo repository e puoi permetterti l'overhead di eseguire un attraversamento completo ogni volta che esegui l'indicizzazione.

Questa strategia di attraversamento è adatta per piccoli repository con dati prevalentemente statici e non gerarchici. Puoi utilizzare questa strategia di attraversamento anche quando il rilevamento delle modifiche è difficile o non supportato dal repository.

Strategia di attraversamento dell'elenco

Una strategia di attraversamento dell'elenco esegue la scansione dell'intero repository, inclusi tutti i nodi secondari, determinando lo stato di ogni elemento. Il connettore esegue quindi un secondo passaggio e indicizza solo gli elementi nuovi o aggiornati dall'ultimo indicizzazione. Questa strategia viene comunemente utilizzata per eseguire aggiornamenti incrementali di un indice esistente (anziché dover eseguire un'esplorazione completa ogni volta che l'indice viene aggiornato).

Questa strategia di attraversamento è adatta quando il rilevamento delle modifiche è difficile o non supportato dal repository, quando hai dati non gerarchici e quando lavori con set di dati molto grandi.

Percorso del grafo

Una strategia di attraversamento del grafico esegue la scansione dell'intero nodo principale determinando lo stato di ciascun elemento. Il connettore esegue quindi un secondo passaggio e indicizza solo gli elementi nel nodo principale che sono nuovi o sono stati aggiornati dall'ultima indicizzazione. Infine, il connettore passa tutti gli ID secondari e poi indicizza gli elementi nei nodi secondari che sono nuovi o sono stati aggiornati. Il connettore continua in modo ricorsivo tra tutti i nodi secondari finché non sono stati indirizzati tutti gli elementi. Questo tipo di attraversamento viene solitamente utilizzato per i repository gerarchici in cui non è pratico elencare tutti gli ID.

Questa strategia è adatta se hai dati gerarchici che devono essere sottoposti a scansione, ad esempio una serie di directory o pagine web.

Ognuna di queste strategie di attraversamento è implementata da una classe di connettore di modelli nell'SDK. Sebbene tu possa implementare la tua strategia di attraversamento, questi modelli accelerano notevolmente lo sviluppo del connettore. Per creare un connettore utilizzando un modello, vai alla sezione corrispondente alla tua strategia di attraversamento:

Creare un connettore di attraversamento completo utilizzando una classe di modello
Creare un connettore di attraversamento dell'elenco utilizzando una classe di modello
Creare un connettore di attraversamento del grafo utilizzando una classe modello

Creare un connettore di attraversamento completo utilizzando una classe modello

Questa sezione della documentazione fa riferimento agli snippet di codice dell'esempio FullTraversalSample.

Implementa il punto di contatto del connettore

L'entry point di un connettore è il metodo main(). Il compito principale di questo metodo è creare un'istanza della classe Application e invocarne il metodo start() per eseguire il connettore.

Prima di chiamare application.start(), utilizza la classe IndexingApplication.Builder per creare un'istanza del FullTraversalConnector modello. Il metodo FullTraversalConnector accetta un oggetto Repository i cui metodi implementi. Il seguente snippet di codice mostra come implementare il metodo main():

FullTraversalSample.java

Crea un connettore di contenuti

Creare un connettore di contenuti utilizzando l'SDK Content Connector

Configura le dipendenze

Maven

Gradle

Crea la configurazione del connettore

Passa il file di configurazione al connettore

Determina la strategia di attraversamento

Creare un connettore di attraversamento completo utilizzando una classe modello

Implementa il punto di contatto del connettore

Implementa l'interfaccia Repository

Ottenere i parametri di configurazione personalizzati

Esegui un'esplorazione completa

Impostare le autorizzazioni per un elemento

Impostare i metadati di un elemento

Crea l'elemento indicizzato

Raggruppa ogni elemento indicizzato in un iteratore

Passaggi successivi

Creare un connettore di attraversamento dell'elenco utilizzando una classe di modello

Implementa il punto di contatto del connettore

Implementa l'interfaccia Repository

Ottenere i parametri di configurazione personalizzati

Esegui l'esplorazione dell'elenco

Invia gli ID elemento e i valori hash

Recupera e gestisci ogni elemento

Gestire gli elementi eliminati

Gestire gli elementi invariati

Impostare le autorizzazioni per un elemento

Impostare i metadati di un elemento

Creare un elemento indicizzato

Passaggi successivi

Creare un connettore di attraversamento del grafo utilizzando una classe di modello

Implementa il punto di contatto del connettore

Implementa l'interfaccia Repository

Ottenere i parametri di configurazione personalizzati

Esegui l'esplorazione del grafo

Invia gli ID elemento e i valori hash

Recupera e gestisci ogni elemento

Gestire gli elementi eliminati

Impostare le autorizzazioni per un elemento

Impostare i metadati di un elemento

Crea l'elemento indicizzato

Inserisci gli ID secondari nella coda di indicizzazione di Cloud Search

Passaggi successivi

Creare un connettore di contenuti utilizzando l'API REST

Determina la strategia di attraversamento

Implementa la strategia di attraversamento e indicizza gli elementi

Gestire le modifiche al repository

Implementa l'interfaccia `Repository`

Implementa l'interfaccia `Repository`

Implementa l'interfaccia `Repository`