Crea un conector de contenido

Un conector de contenido es un programa de software que desvía los datos en un repositorio empresarial y propaga una fuente de datos. Google brinda las siguientes opciones para desarrollar conectores de contenido:

El SDK de Content Connector Esta es una buena opción para los programadores de Java. El SDK es un wrapper alrededor de la API de REST que te permite crear conectores rápidamente. Para crear un conector de contenido con el SDK, consulta Crea un conector de contenido con el SDK de Content Connector.
Una API de REST de bajo nivel o bibliotecas de API. Usa estas opciones si no usas Java o si tu base de código se adapta mejor a una API de REST o a una biblioteca. Para crear un conector de contenido con la API de REST, consulta Crea un conector de contenido con la API de REST.

Un conector de contenido típico realiza las siguientes tareas:

Lee y procesa parámetros de configuración.
Extrae fragmentos discretos de datos indexables, llamados "elementos", del repositorio de terceros.
Combina LCA, metadatos y datos de contenido en elementos indexables.
Indexa elementos a la fuente de datos de Cloud Search.
(Opcional) Presta atención a las notificaciones de cambios del repositorio. Las notificaciones de cambios se convierten en solicitudes de indexación para mantener sincronizada la fuente de datos de Cloud Search. El conector solo realiza esta tarea si el repositorio admite la detección de cambios.

Crea un conector de contenido con el SDK de conector de contenido

En las siguientes secciones, se explica cómo crear un conector de contenido con el SDK de Content Connector.

Configura dependencias

Incluye estas dependencias en tu archivo de compilación.

Maven

xml <dependency> <groupId>com.google.enterprise.cloudsearch</groupId> <artifactId>google-cloudsearch-indexing-connector-sdk</artifactId> <version>v1-0.0.3</version> </dependency>

Gradle

groovy compile group: 'com.google.enterprise.cloudsearch', name: 'google-cloudsearch-indexing-connector-sdk', version: 'v1-0.0.3'

Crea tu configuración del conector

Cada conector usa un archivo de configuración para parámetros como el ID de tu repositorio. Define los parámetros como pares clave-valor, como api.sourceId=1234567890abcdef.

El SDK de Google Cloud Search incluye parámetros proporcionados por Google para todos los conectores. Debes declarar lo siguiente en tu archivo de configuración:

Conector de contenido: Declara api.sourceId y api.serviceAccountPrivateKeyFile. Estos identifican tu repositorio y la clave privada necesaria para acceder a él.

Conector de identidad: Declara api.identitySourceId para identificar tu fuente de identidad externa. Para la sincronización de usuarios, también debes declarar api.customerId (el ID único de tu cuenta de Google Workspace).

Declara otros parámetros proporcionados por Google solo para anular sus valores predeterminados. Para obtener detalles sobre cómo generar IDs y claves, consulta Parámetros proporcionados por Google.

También puedes definir parámetros específicos del repositorio en tu archivo de configuración.

Pasa el archivo de configuración al conector

Establece la propiedad del sistema config para pasar el archivo de configuración. Usa el argumento -D cuando inicies el conector. Por ejemplo:

java -classpath myconnector.jar -Dconfig=MyConfig.properties MyConnector

Si omites este argumento, el SDK intentará usar un archivo llamado connector-config.properties en el directorio local.

Determina tu estrategia de recorrido

La función primaria de un conector de contenido es recorrer un repositorio y luego indexar sus datos. Debes implementar una estrategia basada en el tamaño y el diseño de tu repositorio. Puedes diseñar tu propia estrategia o elegir una del SDK:

Estrategia de recorrido completo: Analiza todo el repositorio y, luego, indexa cada elemento. Esta estrategia es la mejor para los repositorios pequeños en los que puedes permitirte la sobrecarga de un recorrido completo durante cada indexación. Úsala para repositorios pequeños con datos que son, en su mayoría, estáticos y no jerárquicos, o cuando la detección de cambios es difícil.
Estrategia de recorrido de lista: Analiza todo el repositorio para determinar el estado de cada elemento y, luego, indexa solo los elementos nuevos o actualizados. Úsala para actualizaciones incrementales de un índice grande y no jerárquico cuando no se admita la detección de cambios.
Recorrido de gráficos: Analiza un nodo principal para determinar el estado de sus elementos y, luego, indexa los elementos nuevos o actualizados en ese nodo. Luego, procesa de forma recursiva los nodos secundarios. Usa este método para los repositorios jerárquicos en los que no es práctico hacer una lista de todos los IDs, como las estructuras de directorios o los sitios web.

El SDK implementa estas estrategias en clases de conectores de plantilla. Estas plantillas pueden acelerar tu desarrollo. Para usar una plantilla, consulta la sección correspondiente:

Crea un conector de recorrido completo con una clase de plantilla
Crea un conector de recorrido de lista con una clase de plantilla
Crea un conector de recorrido de grafo con una clase de plantilla

Crea un conector de recorrido completo mediante el uso de una clase de plantilla

En esta sección, se hace referencia al código de FullTraversalSample.

Implementa el punto de entrada del conector

El punto de entrada es el método main(). Crea una instancia de Application y llama a start() para ejecutar el conector.

Antes de llamar a application.start(), usa la clase IndexingApplication.Builder para crear una instancia de la plantilla FullTraversalConnector. Esta plantilla acepta un objeto Repository.

FullTraversalSample.java

Crea un conector de contenido Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Crea un conector de contenido con el SDK de conector de contenido

Configura dependencias

Maven

Gradle

Crea tu configuración del conector

Pasa el archivo de configuración al conector

Determina tu estrategia de recorrido

Crea un conector de recorrido completo mediante el uso de una clase de plantilla

Implementa el punto de entrada del conector

Implementa la interfaz Repository

Obtén parámetros de configuración personalizados

Realiza un recorrido completo

Establece los permisos para un elemento

Establece los metadatos de un elemento

Crea el elemento indexable

Empaqueta cada elemento indexable en un iterador

Próximos pasos

Crea un conector de recorrido de lista mediante una clase de plantilla

Implementa el punto de entrada del conector

Implementa la interfaz Repository

Realiza el recorrido de lista

Envía ID de elementos y valores hash

Recupera y controla cada elemento

Controla los elementos borrados

Controla elementos no modificados

Establece los permisos para un elemento

Establece los metadatos de un elemento

Crea un elemento indexable

Próximos pasos

Crea un conector de recorrido de grafo mediante una clase de plantilla

Implementa el punto de entrada del conector

Implementa la interfaz Repository

Realiza el recorrido de grafo

Envía ID de elementos y valores hash

Recupera y controla cada elemento

Controla los elementos borrados

Establece los metadatos y crea el elemento

Coloca los IDs secundarios en la cola de indexación

Crea un conector de contenido con la API de REST

Determina tu estrategia de recorrido

Implementa tu estrategia de recorrido y los elementos de índice

Maneja cambios en el repositorio

Crea un conector de contenido