Este guia destina-se aos administradores do plug-in do indexador Google Cloud Search Norconex HTTP Collector, ou seja, qualquer pessoa responsável por fazer o download, implantar, configurar e manter esse plug-in. Neste guia, presume-se que você esteja familiarizado com os sistemas operacionais Linux, os princípios básicos do rastreamento da Web, XML e o Norconex HTTP Collector.
Este guia inclui instruções para realizar as principais tarefas relacionadas à implantação do plug-in do indexador:
- Fazer o download do software do plug-in do indexador.
- Configurar o Google Cloud Search.
- Configurar o Norconex HTTP Collector e o rastreamento da Web.
- Iniciar o rastreamento da Web e fazer upload do conteúdo.
Este guia não inclui instruções sobre as tarefas que o administrador do Google Workspace precisa executar para mapear o Google Cloud Search para o plug-in do indexador do Norconex HTTP Collector. Para mais informações sobre essas tarefas, consulte Gerenciar fontes de dados de terceiros.
Visão geral do plug-in indexador Norconex HTTP Collector para Cloud Search
Por padrão, o Cloud Search pode detectar, indexar e exibir conteúdo de produtos do Google Workspace, como o Documentos Google e o Gmail. É possível estender o alcance do Google Cloud Search para incluir a exibição de conteúdo da Web para seus usuários ao implantar o plug-in do indexador do Norconex HTTP Collector, um rastreador da Web de código aberto para empresas.
Arquivos de propriedades de configuração
Para permitir que o plug-in do indexador realize rastreamentos da Web e faça upload do conteúdo para a API de indexação, o administrador do plug-in precisa fornecer informações específicas durante as etapas de configuração descritas neste documento em Etapas da implantação.
Para usar o plug-in do indexador, é necessário definir as propriedades em dois arquivos de configuração:
{gcs-crawl-config.xml}
: contém as configurações do Coletor HTTP Norconex.sdk-configuration.properties
: contém as configurações do Google Cloud Search.
As propriedades em cada arquivo permitem que o plug-in do indexador do Google Cloud Search e o Norconex HTTP Collector comuniquem-se um com o outro.
Rastreamento da Web e upload de conteúdo
Depois de preencher os arquivos de configuração, você terá as configurações necessárias para iniciar o rastreamento da Web. O Norconex HTTP Collector rastreia a Web, detecta o conteúdo de documentos pertinentes à configuração e faz o upload das versões binárias (ou de texto) originais desse conteúdo para a API de indexação do Cloud Search, onde ele é indexado e exibido aos usuários.
Sistema operacional compatível
É necessário instalar o plug-in do indexador Google Cloud Search Norconex HTTP Collector em uma máquina com sistema Linux.
Versão do Norconex HTTP Collector compatível
O plug-in do indexador Google Cloud Search Norconex HTTP Collector é compatível com a versão 2.8.0.
Compatibilidade com ACLs
O plug-in do indexador é compatível com o controle de acesso a documentos no domínio do Google Workspace usando listas de controle de acesso (ACLs).
Se as ACLs padrão estiverem ativadas na configuração do plug-in do Google Cloud Search (defaultAcl.mode
definido como diferente de none
e configurado com defaultAcl.*
),
o plug-in do indexador primeiro tentará criar e aplicar uma ACL padrão.
Se as ACLs padrão não estiverem ativadas, o plug-in voltará a conceder permissão de leitura a todo o domínio do Google Workspace.
Para ver descrições detalhadas dos parâmetros de configuração de ACL, consulte Parâmetros de conector fornecidos pelo Google.
Pré-requisitos
Antes de implantar o plug-in do indexador, verifique se você tem os seguintes componentes obrigatórios:
- Java JRE 1.8 instalado em um computador que executa o plug-in indexador
Informações do Google Workspace necessárias para estabelecer relações entre o Cloud Search e o Norconex HTTP Collector:
- Chave privada do Google Workspace (que contém o ID da conta de serviço)
- ID da fonte de dados do Google Workspace
Normalmente, o administrador do Google Workspace do domínio pode fornecer essas credenciais para você.
Etapas da implantação
Para implantar o plug-in do indexador, siga estas etapas:
- Instalar o Norconex HTTP Collector e o software do plug-in do indexador
- Configurar o Google Cloud Search
- Configurar o Norconex HTTP Collector
- Configurar o rastreamento da Web
- Iniciar um rastreamento da Web e fazer upload de conteúdo
Etapa 1: instale o software do Norconex HTTP Collector e do plug-in indexador
- Faça o download do software confirmador da Norconex nesta página.
- Descompacte o software salvo na pasta
~/norconex/
. - Clone o plug-in confirmador do GitHub.
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
e, depois,cd norconex-committer-plugin
- Confira se você tem a versão pretendida do plug-in confirmador e crie o arquivo ZIP:
git checkout tags/v1-0.0.3
emvn package
. Para pular os testes ao criar o conector, usemvn package -DskipTests
. cd target
- Copie o arquivo jar do plug-in criado no diretório da biblioteca do Norconex.
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- Extraia o arquivo ZIP que você acabou de criar e descompacte o arquivo:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- Execute o script de instalação para copiar o arquivo .jar do plug-in e todas as bibliotecas
necessárias para o diretório do coletor HTTP:
- Mude para o plug-in confirmador extraído no ZIP descompactado acima:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
- Execute
$ sh install.sh
e, quando solicitado, forneça o caminho completo paranorconex/norconex-collector-http-{version}/lib
como o diretório de destino. - Se forem encontrados arquivos .jar duplicados, selecione a opção
1
. Copie o Jar de origem apenas se for a mesma versão ou superior do Jar de destino após renomear este último.
- Mude para o plug-in confirmador extraído no ZIP descompactado acima:
Etapa 2: configure o Google Cloud Search
Para que o plug-in do indexador se conecte ao Norconex HTTP Collector e indexe o conteúdo relevante, é necessário criar o arquivo de configuração do Cloud Search no diretório onde o Norconex HTTP Collector está instalado. O Google recomenda
que você nomeie o arquivo de configuração do Cloud Search como
sdk-configuration.properties
.
É necessário que o arquivo de configuração contenha pares de chave-valor que definam um parâmetro. O arquivo de configuração precisa especificar pelo menos os parâmetros abaixo, que são necessários para acessar a fonte de dados do Cloud Search.
Configuração | Parâmetro |
Código da fonte de dados | api.sourceId = 1234567890abcdef
Obrigatório. O ID da origem do Cloud Search configurado pelo administrador do Google Workspace. |
Conta de serviço | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obrigatório. O arquivo da chave da conta de serviço do Cloud Search que foi criado pelo administrador do Google Workspace para que o plug-in do indexador tenha acesso. |
O exemplo a seguir mostra um arquivo sdk-configuration.properties
.
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
O arquivo de configuração também pode conter parâmetros de configuração fornecidos pelo Google.
Esses parâmetros podem afetar como o plug-in envia dados para a API do Google Cloud Search. Por exemplo, o conjunto de parâmetros batch.*
identifica como o conector combina as solicitações.
Se você não definir um parâmetro no arquivo de configuração, o valor padrão será usado se disponível. Para descrições detalhadas de cada parâmetro, consulte os Parâmetros de conector fornecidos pelo Google.
É possível configurar o plug-in do indexador para preencher metadados e dados estruturados do conteúdo que está sendo indexado. Os valores a serem preenchidos nos campos de metadados e dados estruturados podem ser extraídos das metatags no conteúdo HTML que está sendo indexado. Ou, então, especifique valores padrão no arquivo de configuração.
Configuração | Parâmetro |
Título | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Por padrão, o plug-in usa HTML title como título do documento que está sendo indexado. No caso de falta do título, consulte o atributo de metadados que contém o valor correspondente ao título do documento ou defina um valor padrão.
|
Carimbo de data/hora criado | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
O atributo de metadados que contém o valor do carimbo de data/hora da criação do documento. |
Horário da última modificação | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
O atributo de metadados que contém o valor do carimbo de data/hora da última modificação do documento. |
Idioma do documento | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
O idioma do conteúdo dos documentos que estão sendo indexados. |
Tipo de objeto de esquema | itemMetadata.objectType=movie
O tipo de objeto usado pelo site, conforme definido nas definições de objeto de esquema da fonte de dados. O conector não indexará nenhum dado estruturado se essa propriedade não for especificada.
Observação: essa propriedade de configuração indica um valor e não um atributo de metadados, e os sufixos |
Formatos de data e hora
Os formatos de data e hora especificam os formatos esperados nos atributos de metadados. Se o arquivo de configuração não contiver esse parâmetro, os valores padrão serão usados. A tabela a seguir mostra esse parâmetro.
Configuração
Parâmetro
Outros padrões de data e hora
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Uma lista separada por ponto e vírgula de padrões adicionais de java.time.format.DateTimeFormatter. Os padrões são usados ao analisar valores de string de quaisquer campos de data ou data/hora nos metadados ou no esquema. O valor padrão é uma lista vazia, mas os formatos RFC 3339 e RFC 1123 são sempre aceitos.
Etapa 3: configure o Norconex HTTP Collector
O arquivo ZIP norconex-committer-google-cloud-search-{version}.zip
inclui um
arquivo de configuração de amostra, minimum-config.xml
.
O Google recomenda iniciar a configuração copiando esse arquivo de amostra:
- Mude para o diretório do Norconex HTTP Collector:
$ cd ~/norconex/norconex-collector-http-{version}/
- Copie o arquivo de configuração:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- Edite o arquivo recém-criado (neste exemplo,
gcs-crawl-config.xml
) e adicione ou substitua os nós<committer>
e<tagger>
atuais, conforme descrito na tabela a seguir.
Configuração | Parâmetro |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
Obrigatório. Para ativar o plug-in, adicione um nó <committer> como filho do nó raiz <httpcollector> .
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
Opcional. O formato que o plug-in do indexador usa para enviar o conteúdo do documento para a API do indexador do Google Cloud Search. Os valores válidos são:
O valor padrão é raw .
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Obrigatório se o valor de <UploadFormat> for raw . Nesse caso, o plug-in do indexador precisa que o campo de conteúdo binário do documento esteja disponível.
É necessário adicionar o nó BinaryContentTagger <tagger> como um elemento filho do nó <importer> / <preParseHandlers> .
|
O exemplo a seguir mostra a modificação
necessária para
gcs-crawl-config.xml
.
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Etapa 4: configurar o rastreamento da Web
Antes de iniciar um rastreamento da Web, configure-o para que ele inclua apenas as informações que sua organização quer disponibilizar nos resultados das pesquisas. As configurações mais importantes do rastreamento da Web fazem parte dos nós <crawler>
e podem incluir:
- URLs de início
- Profundidade máxima do rastreamento
- Número de linhas de execução
Altere esses valores de configuração de acordo com suas necessidades. Para informações mais detalhadas sobre como configurar um rastreamento da Web e ver uma lista completa dos parâmetros de configuração disponíveis, consulte a página de Configuração (em inglês) do Norconex HTTP Collector.
Etapa 5: iniciar um rastreamento da Web e fazer upload do conteúdo
Depois de instalar e configurar o plug-in do indexador, é possível executá-lo no próprio modo local dele.
No exemplo a seguir, presume-se que os componentes necessários estão localizados no diretório local de um sistema Linux. Execute este comando:
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Monitorar o rastreador com o JEF Monitor
O Norconex JEF (Job Execution Framework) Monitor é uma ferramenta gráfica para monitorar o progresso dos processos e jobs do Norconex Web Crawler (HTTP Collector). Para um tutorial completo de como configurar esse utilitário, acesse Monitorar o progresso do rastreador com o JEF Monitor.