Déployer un plug-in indexeur pour Norconex HTTP Collector

Ce guide est destiné aux administrateurs chargés de télécharger, de déployer et de gérer le plug-in indexeur pour Norconex HTTP Collector de Google Cloud Search. Vous devez connaître Linux, les principes de base de l'exploration du Web, le langage XML ainsi que Norconex HTTP Collector.

Ce guide fournit des instructions pour :

  • télécharger le logiciel du plug-in indexeur ;
  • configurer Cloud Search ;
  • configurer Norconex HTTP Collector et l'exploration du Web ;
  • démarrer l'exploration du Web et importer du contenu.

Ce guide ne fournit pas d'informations sur les tâches que l'administrateur Google Workspace doit effectuer. Pour en savoir plus à propos de ces tâches, consultez l'article Gérer les sources de données tierces.

Présentation du plug-in indexeur pour Norconex HTTP Collector

Par défaut, Cloud Search peut explorer, indexer et diffuser du contenu à partir de produits Google Workspace (Google Docs, Gmail, etc.). Vous pouvez étendre cette fonctionnalité au contenu Web en déployant le plug-in indexeur pour Norconex HTTP Collector, un robot d'exploration d'entreprise Open Source.

Fichiers de propriétés de configuration

Pour permettre au plug-in d'explorer et d'importer du contenu, vous devez fournir des informations spécifiques dans deux fichiers de configuration :

  • {gcs-crawl-config.xml} : paramètres de Norconex HTTP Collector.
  • sdk-configuration.properties : paramètres de Cloud Search.

Exploration du Web et importation de contenu

Une fois les fichiers de configuration renseignés, vous pouvez démarrer l'exploration du Web. Norconex HTTP Collector explore le Web et importe le contenu des documents binaires ou texte d'origine dans l'API d'indexation de Cloud Search.

Configuration requise

  • Système d'exploitation : Linux uniquement.
  • Version de Norconex : version 2.8.0.
  • Logiciel : Java JRE 1.8.

Compatibilité avec les listes de contrôle d'accès

Le plug-in indexeur est compatible avec les listes de contrôle d'accès (LCA) pour contrôler l'accès aux documents du domaine Google Workspace.

Si vous activez les LCA par défaut dans la configuration du plug-in (defaultAcl.mode défini sur une valeur autre que none), le plug-in applique ces valeurs par défaut. Sinon, le plug-in accorde une autorisation de lecture pour l'ensemble du domaine. Consultez les paramètres de connecteur fournis par Google.

Prérequis

Avant de déployer le plug-in indexeur, rassemblez les composants suivants :

Procédure de déploiement

  1. Installer Norconex HTTP Collector et le logiciel du plug-in
  2. Configurer Cloud Search
  3. Configurer Norconex HTTP Collector
  4. Configurer l'exploration du Web
  5. Démarrer l'exploration du Web et importer du contenu

Étape 1 : Installer Norconex HTTP Collector et le logiciel du plug-in

  1. Téléchargez le logiciel de validation de Norconex à partir de la page de téléchargement de Norconex.
  2. Extrayez le logiciel dans ~/norconex/.
  3. Clonez le plug-in de validation :

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Vérifiez la version sélectionnée et créez le plug-in :

    git checkout tags/v1-0.0.3
    mvn package
    

    Pour ignorer les tests, utilisez mvn package -DskipTests.

  5. Copiez le fichier JAR dans le répertoire lib de Norconex :

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Extrayez le fichier ZIP créé :

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Exécutez le script d'installation et indiquez le chemin d'accès complet au répertoire lib de Norconex :

    sh install.sh
    

    Si vous êtes invité à choisir des fichiers en double, sélectionnez l'option 1.

Étape 2 : Configurer Cloud Search

Créez sdk-configuration.properties dans le répertoire Norconex. Le fichier doit spécifier les paramètres suivants :

Paramètre Paramètre
ID de la source de données api.sourceId = 1234567890abcdef Obligatoire.
ID de la source fourni par votre administrateur Google Workspace.
Compte de service api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obligatoire. Fichier de clé du compte de service.

Exemple de sdk-configuration.properties :

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Vous pouvez également inclure des paramètres tels que batch.* pour contrôler la manière dont le plug-in envoie les données. Consultez les paramètres de connecteur fournis par Google.

Pour renseigner les métadonnées, configurez les paramètres facultatifs suivants :

Paramètre Paramètre
Titre itemMetadata.title.field=movieTitle
Type d'objet de schéma itemMetadata.objectType=movie

Étape 3 : Configurer Norconex HTTP Collector

Le plug-in inclut un exemple de fichier, minimum-config.xml.

  1. Accédez au répertoire Norconex et copiez l'exemple :

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Modifiez gcs-crawl-config.xml pour ajouter ou remplacer <committer> et <tagger> nœuds :

Paramètre Paramètre
<committer> nœud <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Obligatoire. Ajoutez-le sous le nœud <httpcollector>.
<uploadFormat> <uploadFormat>raw</uploadFormat>
Facultatif. raw ou text. La valeur par défaut est raw.

Exemple de gcs-crawl-config.xml :

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Étape 4 : Configurer l'exploration du Web

Configurez les nœuds <crawler> en fonction de vos besoins, y compris :

  • les URL de démarrage ;
  • la profondeur maximale d'exploration ;
  • le nombre de threads.

Consultez la page de configuration de Norconex.

Étape 5 : Démarrer l'exploration du Web et importer du contenu

Exécutez le collecteur en mode local :

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Surveiller le robot d'exploration avec JEF Monitor

Norconex JEF (Job Execution Framework) Monitor fournit une vue graphique de la progression. Consultez Surveiller votre robot d'exploration avec JEF Monitor.