Ce guide est destiné à l'indexeur de l'outil Norconex HTTP Collector de Google Cloud Search. les administrateurs de plug-ins, c'est-à-dire toute personne chargée du téléchargement, le déploiement, la configuration et la maintenance du plug-in indexeur. Dans ce guide, nous partons du principe les systèmes d'exploitation Linux, les principes de base du Web, l'exploration, XML et Norconex HTTP Collector
Ce guide contient des instructions pour effectuer les principales tâches liées à l'indexeur déploiement du plug-in:
- Télécharger le logiciel du plug-in d'indexation
- Configurer Google Cloud Search
- Configurer Norconex HTTP Collector et l'exploration du Web
- Démarrer l'exploration du Web et importer du contenu
Informations sur les tâches que l'administrateur Google Workspace doit effectuer effectuer le mappage de Google Cloud Search au plug-in indexeur de Norconex HTTP Collector n'apparaît pas dans ce guide. Pour en savoir plus sur ces tâches, consultez Gérer des sources de données tierces
Présentation du plug-in indexeur pour Norconex HTTP Collector de Cloud Search
Par défaut, Cloud Search peut explorer, indexer et diffuser du contenu des produits Google Workspace tels que Google Docs et Gmail ; Vous pouvez étendre de Google Cloud Search pour proposer du contenu Web à vos utilisateurs le déploiement du plug-in indexeur Norconex HTTP Collector un robot d'exploration d'entreprise open source.
Fichiers de propriétés de configuration
Pour permettre au plug-in indexeur d'effectuer des explorations du Web et d'importer du contenu API d'indexation, vous, en tant qu'administrateur du plug-in indexeur, fournissez des lors des étapes de configuration décrites dans ce document Procédure de déploiement
Pour utiliser le plug-in indexeur, vous devez définir les propriétés dans deux fichiers de configuration:
{gcs-crawl-config.xml}
: contient les paramètres de Norconex HTTP Collector.sdk-configuration.properties
: contient les paramètres de Google Cloud Search.
Les propriétés de chaque fichier activent le plug-in indexeur de Google Cloud Search et à Norconex HTTP Collector de communiquer entre eux.
Exploration du Web et importation de contenu
Une fois que vous avez rempli les fichiers de configuration, vous disposez de tous les éléments pour lancer l'exploration du Web. Explorations de Norconex HTTP Collector sur le Web, en découvrant le contenu du document correspondant à sa configuration importe des versions binaires (ou texte) originales du contenu des documents dans le cloud L'API d'indexation de la recherche, où elle est indexée et proposée à vos utilisateurs.
Système d'exploitation compatible
Le plug-in indexeur pour Norconex HTTP Collector de Google Cloud Search doit être installé sous Linux.
Version compatible de Norconex HTTP Collector
Le plug-in indexeur pour Norconex HTTP Collector de Google Cloud Search est compatible avec 2.8.0.
Compatibilité avec les LCA
Le plug-in indexeur permet de contrôler l'accès aux documents domaine Google Workspace à l'aide de listes de contrôle d'accès (LCA).
Si les LCA par défaut sont activées dans la configuration du plug-in Google Cloud Search
(defaultAcl.mode
défini sur une valeur autre que none
et configuré avec defaultAcl.*
),
le plug-in indexeur essaie d’abord
de créer et d’appliquer une LCA par défaut.
Si les LCA par défaut ne sont pas activées, le plug-in accorde une autorisation de lecture à l'ensemble du domaine Google Workspace.
Pour obtenir une description détaillée des paramètres de configuration des LCA, consultez Paramètres de connecteur fournis par Google
Prérequis
Avant de déployer le plug-in indexeur, assurez-vous de disposer des éléments suivants : composants requis:
- Java JRE 1.8 installé sur un ordinateur qui exécute le plug-in indexeur
Informations Google Workspace requises pour établir des relations entre Cloud Search et Norconex HTTP Collector:
- Clé privée Google Workspace (qui contient l'ID du compte de service)
- ID de la source de données Google Workspace
En règle générale, l'administrateur Google Workspace du domaine peut fournir ces à votre place.
Procédure de déploiement
Pour déployer le plug-in indexeur, procédez comme suit:
- Installer Norconex HTTP Collector et le logiciel du plug-in indexeur
- Configurer Google Cloud Search
- Configurer Norconex HTTP Collector
- Configurer l'exploration du Web
- Démarrer l'exploration du Web et importer du contenu
Étape 1: Installer Norconex HTTP Collector et le logiciel du plug-in indexeur
- Téléchargez le logiciel de validation Norconex à l'adresse cette page.
- Décompressez le logiciel téléchargé dans le dossier
~/norconex/
. - Clonez le plug-in de validation depuis GitHub.
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
et puiscd norconex-committer-plugin
- Vérifiez la version souhaitée du plug-in de validation et créez le fichier ZIP:
git checkout tags/v1-0.0.3
etmvn package
(pour ignorer les tests lors de la compilation le connecteur, utilisezmvn package -DskipTests
.) cd target
- Copiez le fichier JAR du plug-in créé dans le répertoire lib norconex.
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- Extrayez le fichier ZIP que vous venez de créer, puis décompressez le fichier:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
. - Exécutez le script d'installation pour copier le fichier .jar du plug-in et tous les fichiers
dans le répertoire du collecteur http:
<ph type="x-smartling-placeholder">
- </ph>
- Accédez au plug-in de validation extrait et décompressé ci-dessus:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
- Exécutez
$ sh install.sh
et fournissez le chemin d'accès complet ànorconex/norconex-collector-http-{version}/lib
comme cible d'administration lorsque vous y êtes invité. - Si des fichiers JAR en double sont détectés, sélectionnez l'option
1
(Copier le fichier JAR source uniquement si la version du fichier Jar cible est supérieure ou identique à celle du fichier JAR cible).
- Accédez au plug-in de validation extrait et décompressé ci-dessus:
Étape 2: Configurez Google Cloud Search
Pour que le plug-in indexeur se connecte à Norconex HTTP Collector et indexe
contenu pertinent, vous devez créer le fichier de configuration Cloud Search dans le
Répertoire Norconex dans lequel est installé Norconex HTTP Collector. Ce que Google recommande
de nommer le fichier de configuration Cloud Search
sdk-configuration.properties
Ce fichier de configuration doit contenir des paires clé/valeur qui définissent un paramètre. Le fichier de configuration doit spécifier au moins les paramètres suivants, qui sont nécessaire pour accéder à la source de données Cloud Search.
Paramètre | Paramètre |
ID de la source de données | api.sourceId = 1234567890abcdef
Obligatoire. ID de la source Cloud Search configuré par l'administrateur Google Workspace. |
Compte de service | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obligatoire. Fichier contenant la clé du compte de service Cloud Search créé par l'administrateur Google Workspace pour assurer l'accessibilité du plug-in indexeur. |
L'exemple suivant montre un fichier sdk-configuration.properties
.
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
Le fichier de configuration peut également contenir des paramètres de configuration fournis par Google.
Ces paramètres peuvent avoir une incidence sur la manière dont ce plug-in transmet les données à l'API Google Cloud Search. Par exemple, l'ensemble de paramètres batch.*
identifie la façon dont le connecteur combine les requêtes.
Si vous ne définissez pas de paramètre dans le fichier de configuration, la valeur par défaut, si disponible, est utilisé. Pour une description détaillée de chaque paramètre, consultez Paramètres de connecteur fournis par Google
Vous pouvez configurer le plug-in indexeur pour qu'il insère les métadonnées et les données structurées en cours d'indexation. Valeurs à renseigner pour les métadonnées et les données structurées peuvent être extraits des balises Meta dans le contenu HTML indexé ou les valeurs par défaut peuvent être spécifiées dans le fichier de configuration.
Paramètre | Paramètre |
Titre | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Par défaut, le plug-in utilise HTML title comme titre du document indexé. S'il manque un titre, vous pouvez consulter
l'attribut de métadonnées qui contient la valeur correspondant au titre du document ou qui définit une valeur par défaut.
|
Date et heure de création | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Attribut de métadonnées qui contient la date et l'heure de création du document. |
Date et heure de la dernière modification | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Attribut de métadonnées qui contient la date et l'heure de la dernière modification du document. |
Langue du document | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Langue du contenu des documents indexés. |
Type d'objet du schéma | itemMetadata.objectType=movie
Type d'objet utilisé par le site, tel que défini dans les <ph type="x-smartling-placeholder"></ph> Définitions d'objets de schéma des sources de données. Le connecteur n'indexera des données structurées si cette propriété n'est pas spécifiée.
Remarque: Cette propriété de configuration renvoie vers une valeur
qu'un attribut de métadonnées, et le |
Formats de date et d'heure
Les formats de date et d'heure spécifient les formats attendus dans les attributs de métadonnées. Si le fichier de configuration ne contient pas ce paramètre, les valeurs par défaut sont utilisé. Le tableau suivant présente ce paramètre.
Paramètre
Paramètre
Autres formats de date et d'heure
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Liste de formats java.time.format.DateTimeFormatter supplémentaires séparés par un point-virgule modèles de ML. Les formats sont utilisés lors de l'analyse des valeurs de chaîne pour n'importe quelle date, date et heure dans les métadonnées ou le schéma. La valeur par défaut est une liste vide, mais les formats RFC 3339 et RFC 1123 sont toujours acceptés.
Étape 3: Configurer Norconex HTTP Collector
L'archive ZIP norconex-committer-google-cloud-search-{version}.zip
comprend un
exemple de fichier de configuration, minimum-config.xml
.
Google vous recommande de commencer la configuration en copiant l'exemple de fichier:
- Accédez au répertoire Norconex HTTP Collector:
$ cd ~/norconex/norconex-collector-http-{version}/
- Copiez le fichier de configuration:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- Modifiez le fichier que vous venez de créer (dans cet exemple,
gcs-crawl-config.xml
). ajoutez ou remplacez des nœuds<committer>
et<tagger>
existants, comme décrit dans dans le tableau suivant.
Paramètre | Paramètre |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
Obligatoire. Pour activer le plug-in, vous devez ajouter un nœud <committer> en tant qu'enfant du nœud racine <httpcollector> .
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
Facultatif. Format dans lequel le plug-in indexeur transmet le contenu du document à l'API d'indexation de Google Cloud Search. Les valeurs possibles sont les suivantes:
La valeur par défaut est raw .
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Obligatoire si la valeur de <UploadFormat> est raw . Dans ce cas, le champ de contenu binaire du document doit être disponible pour le plug-in d'indexation.
Vous devez ajouter le nœud BinaryContentTagger <tagger> en tant qu'élément enfant du nœud <importer> / <preParseHandlers> .
|
L'exemple suivant montre les autorisations
de
gcs-crawl-config.xml
.
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Étape 4: Configurer l'exploration du Web
Avant de démarrer une exploration du Web, vous devez la configurer de sorte qu'elle ne
inclut les informations que votre organisation souhaite rendre disponibles dans la recherche
résultats. Les paramètres les plus importants pour l'exploration du Web font partie du <crawler>
nœud(s) et peuvent inclure:
- URL de début
- Profondeur maximale de l'exploration
- Nombre de threads
Modifiez ces valeurs de configuration en fonction de vos besoins. Pour obtenir des informations des informations sur la configuration d'une exploration du Web, ainsi qu'une liste complète de configuration, consultez les Configuration .
Étape 5: Lancer l'exploration du Web et importer du contenu
Après avoir installé et configuré le plug-in indexeur, vous pouvez l'exécuter sur en mode local.
L'exemple suivant suppose que les composants requis se trouvent dans le répertoire sur un système Linux. Exécutez la commande suivante :
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Surveiller le robot d'exploration avec JEF Monitor
Norconex JEF (Job Execution Framework) Monitor est un outil graphique Surveiller l'avancement des processus du robot d'exploration Norconex (HTTP Collector) et des emplois. Pour accéder à un didacticiel complet sur la configuration de cet utilitaire, consultez la page Surveillez la progression du robot d'exploration avec JEF Monitor.