Implementa un complemento indexador del colector HTTP de Norconex

Esta guía está destinada a los administradores responsables de descargar, implementar y mantener el complemento indexador del colector HTTP de Norconex de Google Cloud Search. Debes tener conocimientos sobre Linux, los conceptos básicos del rastreo web, XML y el colector HTTP de Norconex.

En esta guía, se incluyen instrucciones para realizar las siguientes acciones:

  • Descarga el software del complemento indexador.
  • Configura Cloud Search.
  • Configura el colector HTTP de Norconex y el rastreo web.
  • Inicia el rastreo web y carga el contenido.

La información sobre las tareas que debe realizar el administrador de Google Workspace no aparece en esta guía. Para obtener información sobre esas tareas, consulta Administra fuentes de datos de terceros.

Descripción general del complemento indexador del colector HTTP de Norconex

De forma predeterminada, Cloud Search puede descubrir, indexar y entregar contenido de los productos de Google Workspace, como Documentos de Google y Gmail. Puedes ampliarlo para incluir contenido web si implementas el complemento indexador para el Colector HTTP de Norconex, un rastreador web empresarial de código abierto.

Archivos de propiedades de configuración

Para habilitar el complemento para que rastree y suba contenido, debes proporcionar información específica en dos archivos de configuración:

  • {gcs-crawl-config.xml}: Es la configuración del Colector HTTP de Norconex.
  • sdk-configuration.properties: Es la configuración de Cloud Search.

Rastreo web y carga de contenido

Después de propagar los archivos de configuración, puedes iniciar el rastreo web. El colector HTTP de Norconex rastrea la Web y sube contenido original de documentos binarios o de texto a la API de indexación de Cloud Search.

Requisitos del sistema

  • Sistema operativo: Solo Linux.
  • Versión de Norconex: Versión 2.8.0
  • Software: JRE 1.8 de Java.

Compatibilidad de LCA

El complemento del indexador admite Listas de control de acceso (LCA) para controlar el acceso a documentos en el dominio de Google Workspace.

Si habilitas las LCA predeterminadas en la configuración del complemento (defaultAcl.mode establecido en un valor distinto de none), el complemento aplica estos valores predeterminados. De lo contrario, el complemento otorga permiso de lectura a todo el dominio. Consulta los parámetros de conectores que proporciona Google.

Requisitos previos

Antes de implementar el complemento del indexador, reúne estos componentes:

Pasos para la implementación

  1. Instala el colector HTTP de Norconex y el software del complemento
  2. Configura Cloud Search
  3. Configura el colector HTTP de Norconex
  4. Configura el rastreo web
  5. Inicia un rastreo web y carga de contenido

Paso 1: Instala el colector HTTP de Norconex y el software del complemento

  1. Descarga el software de confirmación de Norconex desde la página de descarga de Norconex.
  2. Extrae el software a ~/norconex/.
  3. Clona el complemento committer:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Revisa la versión seleccionada y compila el complemento:

    git checkout tags/v1-0.0.3
    mvn package
    

    Para omitir pruebas, usa mvn package -DskipTests.

  5. Copia el archivo JAR en el directorio lib de Norconex:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Extrae el archivo ZIP compilado:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Ejecuta la secuencia de comandos de instalación y proporciona la ruta completa al directorio lib de Norconex:

    sh install.sh
    

    Si se te solicita que elijas entre archivos duplicados, selecciona la opción 1.

Paso 2: Configura Cloud Search

Crea sdk-configuration.properties en el directorio de Norconex. El archivo debe especificar los siguientes parámetros:

Configuración Parámetro
ID de la fuente de datos api.sourceId = 1234567890abcdef
Obligatorio. Es el ID de la fuente que te proporcionó tu administrador de Google Workspace.
Cuenta de servicio api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obligatorio. Es el archivo de claves de la cuenta de servicio.

Ejemplo de sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

También puedes incluir parámetros como batch.* para controlar cómo el complemento envía datos. Consulta los parámetros de conectores que proporciona Google.

Para completar los metadatos, configura estos parámetros opcionales:

Parámetro de configuración Parámetro
Título itemMetadata.title.field=movieTitle
Tipo de objeto de esquema itemMetadata.objectType=movie

Paso 3: Configura el colector HTTP de Norconex

El complemento incluye un archivo de muestra, minimum-config.xml.

  1. Cambia al directorio de Norconex y copia la muestra:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Edita gcs-crawl-config.xml para agregar o reemplazar los nodos <committer> y <tagger>:

Configuración Parámetro
Nodo <committer> <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Obligatorio. Agrégalo debajo del nodo <httpcollector>.
<uploadFormat> <uploadFormat>raw</uploadFormat>
Opcional. raw o text. El valor predeterminado es raw.

Ejemplo de gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Paso 4: Configura el rastreo web

Configura los nodos <crawler> según tus necesidades, incluidos los siguientes:

  • URL de inicio
  • Profundidad máxima del rastreo
  • Cantidad de subprocesos

Consulta la página de configuración de Norconex.

Paso 5: Inicia un rastreo web y la carga de contenido

Ejecuta el recopilador en modo local:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Supervisa el rastreador con JEF Monitor

JEF (Job Execution Framework) Monitor de Norconex proporciona una vista gráfica del progreso. Consulta Supervisa tu rastreador con JEF Monitor.