Эта страница переведена с помощью Cloud Translation API.

Создание соединителя содержимого

Коннектор контента — это программа, используемая для просмотра данных в корпоративном репозитории и заполнения источника данных. Google предлагает следующие варианты разработки коннекторов контента:

Content Connector SDK. Это хороший вариант для тех, кто программирует на Java. Content Connector SDK — это оболочка для REST API, позволяющая быстро создавать коннекторы. Чтобы создать коннектор контента с помощью этого SDK, см. статью Создание коннектора контента с помощью Content Connector SDK .
Низкоуровневый REST API или библиотеки API. Используйте эти варианты, если вы не программируете на Java или если ваша кодовая база лучше подходит для REST API или библиотеки. Чтобы создать коннектор контента с помощью REST API, см. статью Создание коннектора контента с помощью REST API .

Типичный коннектор контента выполняет следующие задачи:

Считывает и обрабатывает параметры конфигурации.
Извлекает отдельные фрагменты индексируемых данных, называемые « элементами », из стороннего репозитория контента.
Объединяет списки контроля доступа, метаданные и данные контента в индексируемые элементы.
Индексирует элементы в источнике данных Cloud Search.
(необязательно) Принимает уведомления об изменениях из стороннего репозитория контента. Уведомления об изменениях преобразуются в запросы на индексацию для синхронизации источника данных Cloud Search со сторонним репозиторием. Коннектор выполняет эту задачу только в том случае, если репозиторий поддерживает обнаружение изменений.

Создайте коннектор контента с помощью Content Connector SDK

В следующих разделах объясняется, как создать коннектор контента с помощью Content Connector SDK.

Настройка зависимостей

Для использования SDK необходимо включить определённые зависимости в файл сборки. Нажмите на вкладку ниже, чтобы просмотреть зависимости для вашей среды сборки:

Maven

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Грейдл

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

Создайте конфигурацию вашего коннектора

У каждого коннектора есть файл конфигурации, содержащий используемые им параметры, такие как идентификатор вашего репозитория. Параметры определяются парами «ключ-значение» , например, api.sourceId= 1234567890abcdef .

Google Cloud Search SDK содержит несколько параметров конфигурации, предоставляемых Google, используемых всеми коннекторами. В файле конфигурации необходимо указать следующие параметры, предоставляемые Google:

Для коннектора контента необходимо объявить api.sourceId и api.serviceAccountPrivateKeyFile , поскольку эти параметры определяют местоположение вашего репозитория и закрытый ключ, необходимый для доступа к репозиторию.

Для коннектора удостоверений необходимо объявить api.identitySourceId , поскольку этот параметр определяет расположение вашего внешнего источника удостоверений. При синхронизации пользователей необходимо также объявить api.customerId как уникальный идентификатор вашей корпоративной учётной записи Google Workspace.

Если вы не хотите переопределять значения по умолчанию других параметров, предоставляемых Google, вам не нужно объявлять их в файле конфигурации. Дополнительную информацию о параметрах конфигурации, предоставляемых Google, например, о том, как генерировать определённые идентификаторы и ключи, см. в разделе «Параметры конфигурации, предоставляемые Google» .

Вы также можете определить собственные параметры, специфичные для репозитория, для использования в файле конфигурации.

Передать файл конфигурации в коннектор

Настройте config системных свойств для передачи файла конфигурации в коннектор. Вы можете задать это свойство, используя аргумент -D при запуске коннектора. Например, следующая команда запускает коннектор с файлом конфигурации MyConfig.properties :

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

Если этот аргумент отсутствует, SDK попытается получить доступ к файлу конфигурации по умолчанию с именем connector-config.properties .

Определите свою стратегию обхода

Основная функция коннектора контента — обход репозитория и индексация его данных. Необходимо реализовать стратегию обхода, основанную на размере и структуре данных в репозитории. Вы можете разработать собственную стратегию или выбрать одну из следующих стратегий, реализованных в SDK:

Стратегия полного обхода

Стратегия полного обхода сканирует весь репозиторий и индексирует каждый его элемент вслепую. Эта стратегия обычно используется, когда у вас небольшой репозиторий и вы можете позволить себе полный обход при каждой индексации.

Эта стратегия обхода подходит для небольших репозиториев с преимущественно статическими, неиерархическими данными. Вы также можете использовать её, когда обнаружение изменений затруднено или не поддерживается репозиторием.

Стратегия обхода списка

Стратегия обхода списка сканирует весь репозиторий, включая все дочерние узлы, определяя статус каждого элемента. Затем коннектор выполняет второй проход и индексирует только новые или обновлённые с момента последнего индексирования элементы. Эта стратегия обычно используется для выполнения инкрементных обновлений существующего индекса (вместо того, чтобы выполнять полный обход при каждом обновлении индекса).

Такая стратегия обхода подходит, когда обнаружение изменений затруднено или не поддерживается репозиторием, данные не являются иерархическими и вы работаете с очень большими наборами данных.

Обход графа

Стратегия обхода графа сканирует весь родительский узел, определяя статус каждого элемента. Затем коннектор выполняет второй проход и индексирует только те элементы в корневом узле, которые являются новыми или обновленными с момента последней индексации. Наконец, коннектор передает все дочерние идентификаторы, а затем индексирует элементы в дочерних узлах, которые являются новыми или обновленными. Коннектор продолжает рекурсивно проходить по всем дочерним узлам, пока не будут обработаны все элементы. Такой обход обычно используется для иерархических репозиториев, где перечисление всех идентификаторов нецелесообразно.

Эта стратегия подходит, если у вас есть иерархические данные, которые необходимо сканировать, например, ряд каталогов или веб-страниц.

Каждая из этих стратегий обхода реализуется классом-шаблоном коннектора в SDK. Вы можете реализовать собственную стратегию обхода, но эти шаблоны значительно ускоряют разработку коннектора. Чтобы создать коннектор с использованием шаблона, перейдите к разделу, соответствующему вашей стратегии обхода:

Создайте полный обходной соединитель, используя шаблонный класс
Создайте соединитель обхода списка, используя шаблонный класс
Создайте соединитель обхода графа, используя шаблонный класс

Создайте полный обходной соединитель, используя шаблонный класс

В этом разделе документации содержатся ссылки на фрагменты кода из примера FullTraversalSample .

Реализуйте точку входа коннектора

Точкой входа в коннектор является метод main() . Его основная задача — создать экземпляр класса Application и вызвать его метод start() для запуска коннектора.

Перед вызовом application.start() используйте класс IndexingApplication.Builder для создания экземпляра шаблона FullTraversalConnector . FullTraversalConnector принимает объект Repository , методы которого вы реализуете. Следующий фрагмент кода показывает, как реализовать метод main() :

FullTraversalSample.java

Создание соединителя содержимого Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Создайте коннектор контента с помощью Content Connector SDK

Настройка зависимостей

Maven

Грейдл

Создайте конфигурацию вашего коннектора

Передать файл конфигурации в коннектор

Определите свою стратегию обхода

Создайте полный обходной соединитель, используя шаблонный класс

Реализуйте точку входа коннектора

Реализовать интерфейс Repository

Получить пользовательские параметры конфигурации

Выполнить полный обход

Установить разрешения для элемента

Установить метаданные для элемента

Создать индексируемый элемент

Упаковать каждый индексируемый элемент в итератор

Следующие шаги

Создайте соединитель обхода списка, используя шаблонный класс

Реализуйте точку входа коннектора

Реализовать интерфейс Repository

Получить пользовательские параметры конфигурации

Выполнить обход списка

Отправка идентификаторов элементов и хэш-значений

Извлечь и обработать каждый предмет

Обработка удаленных элементов

Обрабатывать неизмененные элементы

Установить разрешения для элемента

Установить метаданные для элемента

Создать индексируемый элемент

Следующие шаги

Создайте соединитель обхода графа, используя шаблонный класс

Реализуйте точку входа коннектора

Реализовать интерфейс Repository

Получить пользовательские параметры конфигурации

Выполнить обход графа

Отправка идентификаторов элементов и хэш-значений

Retrieve and handle each item

Handle deleted items

Set the permissions for an item

Set the metadata for an item

Create the indexable item

Place the child IDs in the Cloud Search Indexing Queue

Следующие шаги

Create a content connector using the REST API

Determine your traversal strategy

Implement your traversal strategy and index items

Handle repository changes

Создание соединителя содержимого

Реализовать интерфейс `Repository`

Реализовать интерфейс `Repository`

Реализовать интерфейс `Repository`