Triển khai trình bổ trợ Norconex HTTP Collector Indexer

Hướng dẫn này dành cho quản trị viên trình bổ trợ trình lập chỉ mục Norconex HTTP Collector của Google Cloud Search, tức là bất kỳ ai chịu trách nhiệm tải xuống, triển khai, định cấu hình và duy trì trình bổ trợ trình lập chỉ mục. Hướng dẫn này giả định rằng bạn đã quen thuộc với hệ điều hành Linux, kiến thức cơ bản về hoạt động thu thập dữ liệu trên web, XML và Norconex HTTP Collector.

Hướng dẫn này bao gồm hướng dẫn thực hiện các nhiệm vụ chính liên quan đến việc triển khai trình bổ trợ trình lập chỉ mục:

  • Tải phần mềm trình bổ trợ trình lập chỉ mục xuống
  • Định cấu hình Google Cloud Search
  • Định cấu hình Trình thu thập HTTP Norconex và thu thập thông tin trên web
  • Bắt đầu thu thập thông tin trên web và tải nội dung lên

Thông tin về các nhiệm vụ mà quản trị viên Google Workspace phải thực hiện để liên kết Google Cloud Search với trình bổ trợ lập chỉ mục Norconex HTTP Collector không xuất hiện trong hướng dẫn này. Để biết thông tin về các tác vụ đó, hãy xem phần Quản lý nguồn dữ liệu của bên thứ ba.

Tổng quan về trình bổ trợ lập chỉ mục Norconex HTTP Collector của Cloud Search

Theo mặc định, Cloud Search có thể khám phá, lập chỉ mục và phân phát nội dung từ các sản phẩm của Google Workspace, chẳng hạn như Google Tài liệu và Gmail. Bạn có thể mở rộng phạm vi của Google Cloud Search để bao gồm việc phân phát nội dung web cho người dùng bằng cách triển khai trình bổ trợ chỉ mục cho Norconex HTTP Collector, một trình thu thập dữ liệu web nguồn mở dành cho doanh nghiệp.

Tệp thuộc tính cấu hình

Để cho phép trình bổ trợ chỉ mục thực hiện hoạt động thu thập thông tin trên web và tải nội dung lên API lập chỉ mục, bạn (với tư cách là quản trị viên trình bổ trợ chỉ mục) cần cung cấp thông tin cụ thể trong các bước định cấu hình được mô tả trong tài liệu này trong phần Các bước triển khai.

Để sử dụng trình bổ trợ trình lập chỉ mục, bạn phải đặt thuộc tính trong hai tệp cấu hình:

  • {gcs-crawl-config.xml} – chứa các chế độ cài đặt cho Trình thu thập HTTP Norconex.
  • sdk-configuration.properties – chứa các chế độ cài đặt cho Google Cloud Search.

Các thuộc tính trong mỗi tệp cho phép trình bổ trợ chỉ mục Google Cloud Search và Trình thu thập HTTP Norconex giao tiếp với nhau.

Tìm nạp web và tải nội dung lên

Sau khi điền sẵn các tệp cấu hình, bạn sẽ có các chế độ cài đặt cần thiết để bắt đầu thu thập thông tin trên web. Trình thu thập dữ liệu HTTP Norconex thu thập thông tin trên web, khám phá nội dung tài liệu liên quan đến cấu hình của tài liệu và tải các phiên bản tệp nhị phân (hoặc văn bản) gốc của nội dung tài liệu lên API lập chỉ mục Tìm kiếm trên đám mây để lập chỉ mục và cuối cùng phân phát cho người dùng.

Hệ điều hành được hỗ trợ

Bạn phải cài đặt trình bổ trợ lập chỉ mục Trình thu thập HTTP Norconex của Google Cloud Search trên Linux.

Phiên bản Trình thu thập HTTP Norconex được hỗ trợ

Trình bổ trợ trình lập chỉ mục Norconex HTTP Collector của Google Cloud Search hỗ trợ phiên bản 2.8.0.

Hỗ trợ ACL

Trình bổ trợ chỉ mục hỗ trợ kiểm soát quyền truy cập vào tài liệu trong miền Google Workspace bằng cách sử dụng Danh sách kiểm soát quyền truy cập (ACL).

Nếu bạn bật ACL mặc định trong cấu hình trình bổ trợ Google Cloud Search (defaultAcl.mode được đặt thành khác với none và được định cấu hình bằng defaultAcl.*), thì trước tiên, trình bổ trợ trình lập chỉ mục sẽ cố gắng tạo và áp dụng ACL mặc định.

Nếu bạn không bật ACL mặc định, trình bổ trợ sẽ quay lại cấp quyền đọc cho toàn bộ miền Google Workspace.

Để biết nội dung mô tả chi tiết về các tham số cấu hình ACL, hãy xem bài viết Các tham số của trình kết nối do Google cung cấp.

Điều kiện tiên quyết

Trước khi triển khai trình bổ trợ trình lập chỉ mục, hãy đảm bảo rằng bạn có các thành phần bắt buộc sau:

  • Java JRE 1.8 được cài đặt trên máy tính chạy trình bổ trợ trình lập chỉ mục
  • Thông tin cần thiết về Google Workspace để thiết lập mối quan hệ giữa Tìm kiếm trên đám mây và Trình thu thập HTTP Norconex:

    Thông thường, quản trị viên Google Workspace của miền có thể cung cấp các thông tin xác thực này cho bạn.

Các bước triển khai

Để triển khai trình bổ trợ trình lập chỉ mục, hãy làm theo các bước sau:

  1. Cài đặt Norconex HTTP Collector và phần mềm trình bổ trợ chỉ mục
  2. Định cấu hình Google Cloud Search
  3. Định cấu hình Trình thu thập HTTP Norconex
  4. Định cấu hình tính năng thu thập dữ liệu trên web
  5. Bắt đầu thu thập thông tin trên web và tải nội dung lên

Bước 1: Cài đặt Norconex HTTP Collector và phần mềm trình bổ trợ chỉ mục

  1. Tải phần mềm trình xác nhận Norconex xuống từ trang này.
  2. Giải nén phần mềm đã tải xuống vào thư mục ~/norconex/
  3. Sao chép trình bổ trợ người xác nhận trên GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git rồi đến cd norconex-committer-plugin
  4. Kiểm tra phiên bản trình bổ trợ trình xác nhận mong muốn và tạo tệp ZIP: git checkout tags/v1-0.0.3mvn package (Để bỏ qua các bài kiểm thử khi tạo trình kết nối, hãy sử dụng mvn package -DskipTests.)
  5. cd target
  6. Sao chép tệp jar trình bổ trợ đã tạo vào thư mục norconex lib. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Giải nén tệp ZIP bạn vừa tạo rồi giải nén tệp: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Thực thi tập lệnh cài đặt để sao chép tệp .jar của trình bổ trợ và tất cả thư viện bắt buộc vào thư mục của trình thu thập http:
    1. Thay đổi thành trình bổ trợ người xác nhận đã trích xuất được giải nén ở trên: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. Thực thi $ sh install.sh và cung cấp đường dẫn đầy đủ đến norconex/norconex-collector-http-{version}/lib làm thư mục mục tiêu khi được nhắc.
    3. Nếu tìm thấy tệp jar trùng lặp, hãy chọn tuỳ chọn 1 (Chỉ sao chép tệp jar nguồn nếu lớn hơn hoặc có cùng phiên bản với tệp jar mục tiêu sau khi đổi tên tệp jar mục tiêu).

Bước 2: Định cấu hình Google Cloud Search

Để trình bổ trợ chỉ mục kết nối với Trình thu thập dữ liệu HTTP Norconex và lập chỉ mục nội dung có liên quan, bạn phải tạo tệp cấu hình Tìm kiếm trên đám mây trong thư mục Norconex nơi Trình thu thập dữ liệu HTTP Norconex được cài đặt. Bạn nên đặt tên tệp cấu hình Cloud Search là sdk-configuration.properties.

Tệp cấu hình này phải chứa các cặp khoá/giá trị xác định một thông số. Tệp cấu hình phải chỉ định ít nhất các thông số sau đây, cần thiết để truy cập vào nguồn dữ liệu Cloud Search.

Xem xét Thông số
Mã nguồn dữ liệu api.sourceId = 1234567890abcdef
Bắt buộc. Mã nguồn Cloud Search do quản trị viên Google Workspace thiết lập.
Tài khoản dịch vụ api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Bắt buộc. Tệp khoá tài khoản dịch vụ Cloud Search do quản trị viên Google Workspace tạo để hỗ trợ khả năng hỗ trợ tiếp cận của trình bổ trợ trình lập chỉ mục.

Ví dụ sau đây cho thấy một tệp sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Tệp cấu hình cũng có thể chứa các thông số cấu hình do Google cung cấp. Các tham số này có thể ảnh hưởng đến cách trình bổ trợ này đẩy dữ liệu vào API Google Cloud Search. Ví dụ: tập hợp tham số batch.* xác định cách trình kết nối kết hợp các yêu cầu.

Nếu bạn không xác định tham số trong tệp cấu hình, thì giá trị mặc định (nếu có) sẽ được sử dụng. Để biết nội dung mô tả chi tiết về từng thông số, hãy xem phần Thông số của trình kết nối do Google cung cấp.

Bạn có thể định cấu hình trình bổ trợ trình lập chỉ mục để điền siêu dữ liệu và dữ liệu có cấu trúc cho nội dung đang được lập chỉ mục. Bạn có thể trích xuất các giá trị cần điền cho trường siêu dữ liệu và dữ liệu có cấu trúc từ thẻ meta trong nội dung HTML đang được lập chỉ mục hoặc chỉ định giá trị mặc định trong tệp cấu hình.

Chế độ cài đặt Tham số
Tiêu đề itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Theo mặc định, trình bổ trợ sử dụng HTML title làm tiêu đề của tài liệu đang được lập chỉ mục. Trong trường hợp thiếu tiêu đề, bạn có thể tham chiếu đến thuộc tính siêu dữ liệu chứa giá trị tương ứng với tiêu đề tài liệu hoặc đặt giá trị mặc định.
Dấu thời gian tạo itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Thuộc tính siêu dữ liệu chứa giá trị cho dấu thời gian tạo tài liệu.
Lần sửa cuối itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Thuộc tính siêu dữ liệu chứa giá trị cho dấu thời gian sửa đổi gần đây nhất của tài liệu.
Ngôn ngữ của tài liệu itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Ngôn ngữ nội dung của các tài liệu đang được lập chỉ mục.
Loại đối tượng giản đồ itemMetadata.objectType=movie
Loại đối tượng mà trang web sử dụng, như được xác định trong phần khai báo đối tượng giản đồ nguồn dữ liệu. Trình kết nối sẽ không lập chỉ mục bất kỳ dữ liệu có cấu trúc nào nếu bạn không chỉ định thuộc tính này.

Lưu ý: Thuộc tính cấu hình này trỏ đến một giá trị thay vì một thuộc tính siêu dữ liệu và không hỗ trợ hậu tố .field.defaultValue.

Định dạng ngày giờ

Định dạng ngày giờ chỉ định các định dạng dự kiến trong các thuộc tính siêu dữ liệu. Nếu tệp cấu hình không chứa tham số này, thì các giá trị mặc định sẽ được sử dụng. Bảng sau đây cho thấy thông số này.

Chế độ cài đặt

Tham số

Các mẫu ngày giờ khác

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Danh sách các mẫu java.time.format.DateTimeFormatter bổ sung được phân tách bằng dấu chấm phẩy. Các mẫu này được dùng khi phân tích cú pháp các giá trị chuỗi cho bất kỳ trường ngày hoặc ngày-giờ nào trong siêu dữ liệu hoặc giản đồ. Giá trị mặc định là danh sách trống, nhưng định dạng RFC 3339 và RFC 1123 luôn được hỗ trợ.

Bước 3: Định cấu hình Trình thu thập HTTP Norconex

Tệp lưu trữ zip norconex-committer-google-cloud-search-{version}.zip bao gồm một tệp cấu hình mẫu, minimum-config.xml.

Bạn nên bắt đầu định cấu hình bằng cách sao chép tệp mẫu:

  1. Thay đổi thành thư mục Trình thu thập HTTP Norconex:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Sao chép tệp cấu hình:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Chỉnh sửa tệp mới tạo (trong ví dụ này là gcs-crawl-config.xml) rồi thêm hoặc thay thế các nút <committer><tagger> hiện có như mô tả trong bảng sau.
Xem xét Thông số
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Bắt buộc. Để bật trình bổ trợ, bạn phải thêm nút <committer> làm nút con của nút <httpcollector> gốc.
<UploadFormat> <uploadFormat>raw</uploadFormat>
Không bắt buộc. Định dạng mà trình bổ trợ trình lập chỉ mục đẩy nội dung tài liệu đến API trình lập chỉ mục Google Cloud Search. Các giá trị hợp lệ là:
  • raw: trình bổ trợ chỉ mục đẩy nội dung tài liệu gốc chưa chuyển đổi.
  • text: trình bổ trợ chỉ mục đẩy nội dung văn bản đã trích xuất.

Giá trị mặc định là raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Bắt buộc nếu giá trị của <UploadFormat>raw. Trong trường hợp này, trình bổ trợ lập chỉ mục cần có trường nội dung nhị phân của tài liệu.

Bạn phải thêm nút BinaryContentTagger <tagger> làm phần tử con của nút <importer> / <preParseHandlers>.

Ví dụ sau đây cho thấy nội dung sửa đổi bắt buộc đối với gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Bước 4: Định cấu hình tính năng thu thập dữ liệu trên web

Trước khi bắt đầu thu thập dữ liệu web, bạn phải định cấu hình quá trình thu thập dữ liệu để chỉ thu thập thông tin mà tổ chức của bạn muốn cung cấp trong kết quả tìm kiếm. Các chế độ cài đặt quan trọng nhất để thu thập thông tin trên web là một phần của(các) nút <crawler> và có thể bao gồm:

  • URL bắt đầu
  • Độ sâu tối đa của hoạt động thu thập dữ liệu
  • Số luồng

Thay đổi các giá trị cấu hình này theo nhu cầu của bạn. Để biết thêm thông tin chi tiết về cách thiết lập tính năng thu thập thông tin trên web, cũng như danh sách đầy đủ các thông số cấu hình hiện có, hãy xem trang Cấu hình của Bộ thu thập dữ liệu HTTP.

Bước 5: Bắt đầu thu thập thông tin trên web và tải nội dung lên

Sau khi cài đặt và thiết lập trình bổ trợ trình lập chỉ mục, bạn có thể chạy trình bổ trợ này trong chế độ cục bộ.

Ví dụ sau giả định các thành phần bắt buộc nằm trong thư mục cục bộ trên hệ thống Linux. Chạy lệnh sau:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Theo dõi trình thu thập thông tin bằng JEF Monitor

Norconex JEF (Công cụ theo dõi quá trình thực thi công việc) là một công cụ đồ hoạ dùng để giám sát tiến trình của các quy trình và công việc của Trình thu thập thông tin web Norconex (Trình thu thập thông tin HTTP). Để xem hướng dẫn đầy đủ về cách thiết lập tiện ích này, hãy truy cập vào bài viết Theo dõi tiến trình của trình thu thập thông tin bằng JEF Monitor.