Эта страница переведена с помощью Cloud Translation API.

Создание соединителя содержимого

Коннектор контента — это программное обеспечение, которое обрабатывает данные в корпоративном репозитории и заполняет источник данных. Google предлагает следующие варианты разработки коннекторов контента:

SDK для коннекторов контента. Это хороший вариант для Java-программистов. SDK представляет собой оболочку над REST API, которая позволяет быстро создавать коннекторы. Чтобы создать коннектор контента с помощью SDK, см. раздел «Создание коннектора контента с помощью SDK для коннекторов контента» .
Низкоуровневый REST API или библиотеки API. Используйте эти параметры, если вы не используете Java или если ваш код лучше подходит для REST API или библиотеки. Чтобы создать коннектор контента с использованием REST API, см. раздел «Создание коннектора контента с использованием REST API» .

Типичный коннектор контента выполняет следующие задачи:

Считывает и обрабатывает параметры конфигурации.
Извлекает из стороннего репозитория отдельные фрагменты индексируемых данных, называемые « элементами ».
Объединяет списки контроля доступа (ACL), метаданные и данные контента в индексируемые элементы.
Индексирует элементы в источнике данных Cloud Search.
(Необязательно) Отслеживает уведомления об изменениях из репозитория. Уведомления об изменениях преобразуются в запросы на индексирование для синхронизации источника данных Cloud Search. Коннектор выполняет эту задачу только в том случае, если репозиторий поддерживает обнаружение изменений.

Создайте коннектор контента с помощью SDK коннектора контента.

В следующих разделах объясняется, как создать коннектор контента с помощью SDK для коннекторов контента.

Настройка зависимостей

Включите эти зависимости в свой файл сборки.

Мэйвен

xml <dependency> <groupId>com.google.enterprise.cloudsearch</groupId> <artifactId>google-cloudsearch-indexing-connector-sdk</artifactId> <version>v1-0.0.3</version> </dependency>

Грэдл

groovy compile group: 'com.google.enterprise.cloudsearch', name: 'google-cloudsearch-indexing-connector-sdk', version: 'v1-0.0.3'

Создайте конфигурацию коннектора.

Каждый коннектор использует конфигурационный файл для параметров, таких как идентификатор вашего репозитория. Определяйте параметры в виде пар ключ-значение , например, api.sourceId= 1234567890abcdef .

В состав Google Cloud Search SDK входят параметры, предоставляемые Google, для всех коннекторов. В файле конфигурации необходимо указать следующее:

Коннектор контента : Объявите api.sourceId и api.serviceAccountPrivateKeyFile . Они идентифицируют ваш репозиторий и закрытый ключ, необходимый для доступа.

Коннектор идентификации : укажите api.identitySourceId для идентификации внешнего источника идентификации. Для синхронизации пользователей также укажите api.customerId (уникальный идентификатор вашей учетной записи Google Workspace).

Другие параметры, предоставляемые Google, следует указывать только для переопределения их значений по умолчанию. Подробную информацию о генерации идентификаторов и ключей см. в разделе «Параметры, предоставляемые Google» .

Вы также можете определить параметры, специфичные для репозитория, в своем конфигурационном файле.

Передайте файл конфигурации коннектору.

Укажите системное свойство config , чтобы передать файл конфигурации. Используйте аргумент -D при запуске коннектора. Например:

java -classpath myconnector.jar -Dconfig=MyConfig.properties MyConnector

Если этот аргумент не будет указан, SDK попытается использовать файл с именем connector-config.properties расположенный в локальном каталоге.

Определите свою стратегию передвижения.

Основная функция коннектора контента — обход репозитория и индексирование его данных. Вам необходимо реализовать стратегию, основанную на размере и структуре вашего репозитория. Вы можете разработать собственную стратегию или выбрать стратегию из SDK:

Стратегия полного обхода: Сканирует весь репозиторий и индексирует каждый элемент. Эта стратегия лучше всего подходит для небольших репозиториев, где вы можете позволить себе накладные расходы на полный обход при каждом индексировании. Используйте ее для небольших репозиториев с преимущественно статическими, неиерархическими данными или когда обнаружение изменений затруднено.
Стратегия обхода списка: Эта функция сканирует весь репозиторий, чтобы определить статус каждого элемента, а затем индексирует только новые или обновленные элементы. Используйте ее для инкрементального обновления большого неиерархического индекса, когда обнаружение изменений не поддерживается.
Обход графа: Эта функция сканирует родительский узел, чтобы определить статус его элементов, а затем индексирует новые или обновленные элементы в этом узле. После этого она рекурсивно обрабатывает дочерние узлы. Используйте это для иерархических репозиториев, где перечисление всех идентификаторов нецелесообразно, например, для структур каталогов или веб-сайтов.

SDK реализует эти стратегии в классах шаблонных коннекторов. Эти шаблоны могут ускорить разработку. Чтобы использовать шаблон, см. соответствующий раздел:

Создайте коннектор для полного обхода, используя шаблонный класс.
Создайте коннектор для обхода списка, используя шаблонный класс.
Создайте соединитель для обхода графа, используя шаблонный класс.

Создайте коннектор для полного обхода, используя шаблонный класс.

В этом разделе используется код из примера FullTraversalSample .

Реализуйте точку входа коннектора.

Точкой входа является метод main() . Он создает экземпляр Application и вызывает start() для запуска коннектора.

Перед вызовом application.start() используйте класс IndexingApplication.Builder для создания экземпляра шаблона FullTraversalConnector . Этот шаблон принимает объект Repository .

FullTraversalSample.java

Создание соединителя содержимого Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Создайте коннектор контента с помощью SDK коннектора контента.

Настройка зависимостей

Мэйвен

Грэдл

Создайте конфигурацию коннектора.

Передайте файл конфигурации коннектору.

Определите свою стратегию передвижения.

Создайте коннектор для полного обхода, используя шаблонный класс.

Реализуйте точку входа коннектора.

Реализуйте интерфейс репозитория.

Получить пользовательские параметры конфигурации

Выполните полный обход

Установите права доступа для элемента.

Задайте метаданные для элемента

Создайте индексируемый элемент

Каждый индексируемый элемент упаковывается в итератор.

Следующие шаги

Создайте коннектор для обхода списка, используя шаблонный класс.

Реализуйте точку входа коннектора.

Реализуйте интерфейс репозитория.

Выполните обход списка.

Передайте идентификаторы элементов и хэш-значения.

Извлеките и обработайте каждый предмет.

Обработка удаленных элементов

Обработка неизмененных элементов

Установите права доступа для элемента.

Задайте метаданные для элемента

Создать индексируемый элемент

Следующие шаги

Создайте соединитель для обхода графа, используя шаблонный класс.

Реализуйте точку входа коннектора.

Реализуйте интерфейс репозитория.

Выполните обход графа.

Передайте идентификаторы элементов и хэш-значения.

Извлеките и обработайте каждый предмет.

Обработка удаленных элементов

Задайте метаданные и создайте элемент.

Поместите идентификаторы дочерних элементов в очередь индексирования.

Создайте коннектор контента, используя REST API.

Определите свою стратегию передвижения.

Реализуйте свою стратегию обхода и проиндексируйте элементы.

Обработка изменений в репозитории

Создайте коннектор контента с помощью SDK коннектора контента.

Настройка зависимостей

Мэйвен

Грэдл

Создайте конфигурацию коннектора.

Передайте файл конфигурации коннектору.

Определите свою стратегию передвижения.

Создайте коннектор для полного обхода, используя шаблонный класс.

Реализуйте точку входа коннектора.

Реализуйте интерфейс репозитория.

Получить пользовательские параметры конфигурации

Выполните полный обход

Установите права доступа для элемента.

Задайте метаданные для элемента

Создайте индексируемый элемент

Каждый индексируемый элемент упаковывается в итератор.

Следующие шаги

Создайте коннектор для обхода списка, используя шаблонный класс.

Реализуйте точку входа коннектора.

Реализуйте интерфейс репозитория.

Выполните обход списка.

Передайте идентификаторы элементов и хэш-значения.

Извлеките и обработайте каждый предмет.

Обработка удаленных элементов

Обработка неизмененных элементов

Установите права доступа для элемента.

Задайте метаданные для элемента

Создать индексируемый элемент

Следующие шаги

Создайте соединитель для обхода графа, используя шаблонный класс.

Реализуйте точку входа коннектора.

Implement the Repository interface

Perform the graph traversal

Push item IDs and hash values

Retrieve and handle each item

Handle deleted items

Set metadata and create the item

Создание соединителя содержимого