Vous pouvez configurer Google Cloud Search pour qu'il renvoie les résultats de l'API Partages Microsoft Windows en plus de votre contenu Google Workspace Toi utiliser le connecteur de systèmes de fichiers Google Cloud Search et le configurer pour accéder des partages Windows spécifiés. Une même instance de connecteur peut accepter plusieurs Microsoft Windows.
Remarques importantes
Mises à jour automatiques et continues
Par défaut, le connecteur surveille en permanence les chemins d'accès de début (valeurs de fs.src
dans le fichier de configuration du connecteur) lorsqu'il démarre. Lorsque le système de fichiers signale des modifications apportées au contenu ou aux contrôles d'accès, le connecteur est déclenché pour réexplorer le système de fichiers. Cette nouvelle exploration peut nécessiter beaucoup de ressources. Pour désactiver la surveillance du système de fichiers, définissez fs.monitorForUpdates
sur false
. Vous réduisez considérablement l'utilisation des ressources par le connecteur, mais retardez la prise en compte des modifications par le connecteur. En savoir plus
Contrôle des accès DFS
Le système DFS applique un contrôle d'accès à ses liens, et chaque lien DFS possède généralement sa propre LCA. L'un des mécanismes utilisés par DFS est l'énumération basée sur l'accès (ABE, Access-based Enumeration), qui peut limiter les liens DFS renvoyés à un utilisateur. Les utilisateurs peuvent n'obtenir qu'un sous-ensemble des liens DFS, voire un seul lien lorsque l'ABE isole les répertoires d'accueil hébergés. Lorsque le connecteur balaie un système DFS, il respecte la LCA des liens DFS et la LCA du partage de la cible, et la LCA du partage hérite de la LCA DFS.
Limites connues
- Système de fichiers: le connecteur de systèmes de fichiers n'est pas compatible avec les lecteurs mappés et les lecteurs locaux.
- Système de fichiers distribué: un lecteur mappé sur un DFS UNC ne fonctionne pas correctement. Certaines LCA ne sont pas lues correctement.
- Le connecteur de systèmes de fichiers est compatible avec les espaces de noms et les liens DFS (Distributed File System). Toutefois, le connecteur n'accepte les liens DFS que dans un espace de noms DFS, et non les dossiers standards de l'espace de noms DFS.
- Les liens de fichiers renvoyés sur cloudsearch.google.com ne sont pas cliquables. La plupart des navigateurs ne permettent pas non plus de cliquer sur les liens de fichiers renvoyés par l'API Query.
Configuration requise
Configuration requise | |
---|---|
Système d'exploitation |
|
Logiciel |
|
Protocoles de système de fichiers |
Non compatibles:systèmes de fichiers Windows locaux, système de fichiers réseau Sun (NFS) 2.0, système de fichiers réseau Sun (NFS) 3.0 ou système de fichiers Linux local. |
Déployer le connecteur
Prérequis
Avant de déployer le connecteur de systèmes de fichiers Cloud Search, assurez-vous que vos dispose de tous les composants prérequis suivants:
Informations Google Workspace requises pour établir des relations entre Google Cloud Search et la source de données:
- Clé privée Google Workspace (contenant l'ID du compte de service). Pour pour obtenir des informations sur l'obtention d'une clé privée, consultez Configurer l'accès à l'API REST Google Cloud Search
- ID de la source de données Google Workspace. Pour savoir comment obtenir un ID de source de données, accéder à Ajoutez une source de données pour la recherche.
- ID de la source d'identité. Pour savoir comment obtenir une source d'identité ID, accéder à Créez une source d'identité. Si vous synchronisez votre annuaire Google Workspace avec Active Directory, configurez la source d'identité avec GCDS.
L'administrateur Google Workspace de votre organisation peut généralement vous obtenir ces identifiants.
Assurez-vous que le compte Windows dispose des autorisations suffisantes, comme décrit dans dans la section suivante.
Autorisations requises pour les comptes Microsoft Windows
Le compte Microsoft Windows sous lequel le connecteur est exécuté doit vous disposez des autorisations nécessaires pour effectuer les actions suivantes:
- Lister le contenu des dossiers
- Lire le contenu des documents
- Lire les attributs des fichiers et des dossiers
- Autorisations de lecture (LCA) pour les fichiers et les dossiers
- Écrire des autorisations de base concernant les attributs
L'appartenance à l'un des groupes suivants octroie à un compte Windows les autorisations nécessaires au connecteur:
- Administrateurs
- Utilisateurs expérimentés
- Opérateurs d'impression
- Opérateurs de serveur
Étape 1 : Installer le connecteur de systèmes de fichiers Google Cloud Search
Récupérez le dépôt du connecteur sur GitHub et compilez-le.
Pour utiliser git sur le serveur Windows:
Clonez le dépôt :
> git clone https://github.com/google-cloudsearch/windows-filesystems-connector.git > cd windows-filesystems-connector
Vérifiez la version souhaitée du connecteur:
> git checkout tags/v1-0.0.3
Pour télécharger directement depuis GitHub:
- Accédez à https://github.com/google-cloudsearch/windows-filesystems-connector.
- Cliquez sur Clone or download Download zip (Cloner ou télécharger > Télécharger le fichier ZIP).
- Décompressez le package.
- Accédez au nouveau répertoire:
> cd windows-filesystems-connector
Créez le connecteur. Si nécessaire, installez Apache Maven.
> mvn package
Pour ignorer les tests lorsque vous créez le connecteur, exécutez
mvn package -DskipTests
au lieu demvn package
.Copiez le fichier ZIP du connecteur dans votre répertoire d'installation local:
> cp target/google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip installation-dir > cd installation-dir > unzip google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip > cd google-cloudsearch-windows-filesystems-connector-v1-0.0.3
Étape 2 : Créer le fichier de configuration du connecteur
Créez un fichier nommé
connector-config.properties
dans le même répertoire que les fichiers d'installation du connecteur.Ajoutez des paramètres sous forme de paires clé/valeur aux contenus des fichiers, comme dans l'exemple suivant:
### File system connector configuration ### # Required parameters for Cloud Search data source and identity source access api.serviceAccountPrivateKeyFile=/path/to/file.json api.sourceId=0123456789abcde api.identitySourceId=a1b1c1234567 # Required parameters for file system access fs.src=\\\\host\\share;\\\\dfshost\\dfsnamespace;\\\\dfshost\\dfsnamespace\\link # Optional parameters for file system monitoring traverse.abortAfterExceptions=500 fs.monitorForUpdates = true fs.preserveLastAccessTime = IF_ALLOWED
Pour obtenir une description détaillée de chaque paramètre, consultez la documentation de référence sur les paramètres de configuration.
(Facultatif) Configurez d'autres paramètres de connecteur, si nécessaire. Pour en savoir plus, consultez Paramètres de connecteur fournis par Google
Étape 3 : Activer la journalisation
- Créez un dossier nommé
logs
dans le répertoire contenant le connecteur. binaire. Créez un fichier ASCII ou UTF-8 nommé
logging.properties
dans le fichier contenant le binaire du connecteur et ajoutez le contenu suivant:handlers = java.util.logging.ConsoleHandler,java.util.logging.FileHandler # Default log level .level = WARNING com.google.enterprise.cloudsearch.level = INFO com.google.enterprise.cloudsearch.fs.level = INFO # uncomment line below to increase logging level to enable API trace #com.google.api.client.http.level = FINE java.util.logging.ConsoleHandler.level = INFO java.util.logging.FileHandler.pattern=logs/connector-fs.%g.log java.util.logging.FileHandler.limit=10485760 java.util.logging.FileHandler.count=10 java.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter
Étape 4 : (Facultatif) Configurer les types de contenus
Par défaut, le connecteur tente de détecter le type de support pour chaque fichier Fourni par le JDK la détection du type de contenu multimédia. Sous Microsoft Windows, JDK s'appuie sur le registre Windows pour déterminer le type de média des fichiers. Une entrée de registre manquante peut renvoyer une valeur nulle pour certains fichiers.
Si nécessaire, vous pouvez spécifier un type de média qui écrase toutes les liaisons existantes ou qui empêche l'utilisation d'un type de média nul.
- Dans le répertoire du connecteur, créez un fichier chiffré en Latin-1 nommé
mime-type.properties
. Saisissez les extensions de fichier et les types de contenus correspondants, comme dans les exemples suivants:
xlsx=application/vnd.openxmlformats-officedocument.spreadsheetml.sheet one=application/msonenote txt=text/plain pdf=application/pdf
Étape 5: Exécuter le connecteur de systèmes de fichiers
Après avoir installé et configuré le connecteur de systèmes de fichiers, pour le lancer sur le hôte, exécutez une commande semblable à l'exemple suivant:
> java -jar google-cloudsearch-windows-filesystems-connector-v1-0.0.3.jar -Djava.util.logging.config.file=logging.properties[ -Dconfig=my.config]
Spécifiez le chemin d'accès du fichier de configuration s'il est différent du chemin par défaut (dans le même répertoire que le fichier binaire portant le nom connector-config.properties
).
Documentation de référence sur les paramètres de configuration
Accès à la source de données
Paramètre | Paramètre |
ID de la source de données | api.sourceId=1234567890abcdef
Obligatoire. ID de la source Google Cloud Search configuré par l'administrateur Google Workspace. |
Chemin d'accès au fichier de clé privée du compte de service | api.serviceAccountPrivateKeyFile=./PrivateKey.json
Obligatoire. Fichier contenant la clé du compte de service Google Cloud Search pour l'accessibilité du connecteur de systèmes de fichiers Google Cloud Search. |
ID de la source d'identité | api.identitySourceId=x0987654321
Obligatoire. ID de la source d'identité Cloud Search configuré par l'administrateur Google Workspace pour synchroniser les identités Active Directory avec GCDS. |
Accès au système de fichiers
Paramètre | Paramètre |
Systèmes de fichiers sources | fs.src=path1[,path2, ...]
Obligatoire. Spécifiez les systèmes de fichiers sources comme une ou plusieurs sources UNC séparées par le délimiteur configuré par |
Caractère de séparateur de chemin
Paramètre | Paramètre |
Caractère de séparateur de chemin | fs.src.separator=separator-character
Le séparateur par défaut est ";". Si vos chemins d'accès sources contiennent des points-virgules, vous pouvez définir un délimiteur différent, tel qu'une virgule (",") qui n'entre pas en conflit avec les caractères de vos chemins et n'est pas réservé par la syntaxe du fichier de propriétés. Si la valeur |
Comportement du connecteur
Paramètre | Paramètre |
Domaine Windows | fs.supportedDomain=domain
Obligatoire pour permettre aux utilisateurs configurés avec GCDS d'accéder aux documents via Cloud Search. Indiquez le nom de domaine NetBIOS unique de l'Active Directory. |
Inclure des comptes dans les LCA | fs.supportedAccounts=account-1[, account-2,...]
Liste de comptes séparés par une virgule à inclure dans les LCA, qu'il s'agisse ou non de comptes intégrés. La valeur par défaut est |
Exclure des comptes intégrés des LCA | fs.builtinGroupPrefix=prefix
Spécifiez le préfixe des comptes intégrés. Un compte commençant par ce préfixe est considéré comme un compte intégré et sera exclu des LCA. La valeur par défaut est |
Autoriser l'indexation des fichiers et dossiers cachés | fs.crawlHiddenFiles=boolean
Définissez la valeur sur |
Autoriser l'indexation des listes de dossiers explorés et des énumérations d'espaces de noms DFS | fs.indexFolders=boolean
Si la valeur est |
Activer la surveillance des modifications du système de fichiers | fs.monitorForUpdates=boolean
Si cette règle est définie sur |
Définir la taille maximale du cache des répertoires | fs.directoryCacheSize=number-of-entries
Taille maximale du cache du répertoire. Le connecteur utilise le cache pour identifier les dossiers masqués afin d'éviter d'indexer les fichiers et les dossiers qui se trouvent dans ces dossiers. La valeur par défaut est de 50 000 entrées, ce qui consomme généralement entre 10 et 15 mégaoctets de RAM. |
Conservation de l'horodatage et contrôle de l'exploration
Paramètre | Paramètre |
Conserver le code temporel du dernier accès | fs.preserveLastAccessTime=value
Lorsque le connecteur explore des fichiers et des dossiers, il peut remplacer l'horodatage du dernier accès par l'heure de l'exploration. Lorsque les heures du dernier accès ne sont pas conservées, les systèmes de sauvegarde et d'archivage peuvent ne pas déplacer les fichiers et les dossiers appropriés vers l'espace de stockage secondaire en raison de la visite du connecteur. Par défaut, le connecteur tente de conserver la date et l'heure du dernier accès ( Valeurs possibles :
|
Explorer uniquement les fichiers consultés après une certaine date | fs.lastAccessedDate=YYYY-MM-DD
Le contenu est exploré uniquement si la date et l'heure du dernier accès sont postérieures à la date spécifiée. La valeur par défaut est Indiquez la date au format ISO8601: AAAA-MM-JJ. Par exemple, si la valeur est 2010-01-01, le connecteur n'explore que le contenu consulté après le début de l'année 2010. Si vous spécifiez |
Explorer uniquement les fichiers qui ont été consultés au cours des derniers jours | fs.lastAccessedDays=number-of-days
Le contenu est exploré uniquement si la date et l'heure du dernier accès sont comprises dans la plage de jours précédente. La valeur par défaut est Utilisez cette propriété pour faire expirer le contenu précédemment indexé qui n'a pas été consulté depuis un certain temps. Par exemple, définissez la valeur sur 365 pour explorer le contenu uniquement s'il a été consulté au cours de l'année écoulée. Si vous spécifiez |
Explorer uniquement les fichiers qui ont été modifiés après une certaine date | fs.lastModifiedDate=YYYY-MM-DD
Le contenu est exploré uniquement si la date et l'heure de la dernière modification sont postérieures à la date spécifiée. La valeur par défaut est Indiquez la date au format ISO8601: AAAA-MM-JJ. Par exemple, si la valeur est 2010-01-01, le connecteur n'explore que le contenu modifié après le début de l'année 2010. Si vous spécifiez |
Explorer uniquement les fichiers qui ont été modifiés au cours des derniers jours | fs.lastModifiedDays=number-of-days
Le contenu est exploré uniquement si la date et l'heure de la dernière modification sont comprises dans le nombre de jours précédant la date actuelle. La valeur par défaut est Utilisez cette propriété pour faire expirer le contenu précédemment indexé qui n'a pas été modifié depuis un certain temps. Par exemple, définissez la valeur sur 365 pour explorer le contenu uniquement s'il a été modifié au cours de l'année précédente. Si vous spécifiez |
Ignorer le contrôle d'accès du partage de fichiers
Par défaut, le connecteur préserve l'intégrité du contrôle des accès lorsqu'il envoie des listes de contrôle d'accès (LCA) à l'API d'indexation, y compris les LCA du partage de fichiers. Toutefois, dans certaines configurations, il se peut que le connecteur ne dispose pas des autorisations nécessaires pour lire la LCA du partage. Dans ce cas, le connecteur ne renvoie aucun fichier conservé sur ce partage dans les résultats de recherche.
Vous pouvez configurer le connecteur de sorte qu'il ignore la LCA du partage, de sorte que le contenu soit toujours renvoyé dans les résultats de recherche. Dans ce cas, l'API d'indexation obtient une LCA de partage entièrement permissive, au lieu de la véritable LCA du partage.
Paramètre | Paramètre |
Ignorer le contrôle d'accès du partage de fichiers | fs.skipShareAccessControl=boolean
Définissez la valeur sur |