Hướng dẫn này dành cho tệp CSV của Google Cloud Search (các giá trị được phân tách bằng dấu phẩy) quản trị viên kết nối, tức là bất kỳ ai chịu trách nhiệm tải xuống, định cấu hình, chạy và giám sát trình kết nối.
Tài liệu hướng dẫn này trình bày cách thực hiện các thao tác chính liên quan đến tệp CSV triển khai trình kết nối:
- Tải phần mềm trình kết nối CSV Google Cloud Search xuống
- Định cấu hình trình kết nối để sử dụng với một nguồn dữ liệu CSV cụ thể
- Triển khai và chạy trình kết nối
Để hiểu được các khái niệm trong tài liệu này, bạn nên làm quen với Kiến thức cơ bản về Google Workspace, tệp CSV và Danh sách kiểm soát quyền truy cập (ACL).
Tổng quan về trình kết nối CSV của Google Cloud Search
Trình kết nối CSV trên Cloud Search hoạt động với mọi văn bản có giá trị được phân tách bằng dấu phẩy (CSV) . Tệp CSV lưu trữ dữ liệu dạng bảng và mỗi dòng của tệp là một dữ liệu ghi lại.
Trình kết nối CSV của Google Cloud Search trích xuất từng hàng từ một tệp CSV và lập chỉ mục chúng vào Cloud Search qua API lập chỉ mục của Cloud Search. Một lần đã lập chỉ mục thành công, từng hàng riêng lẻ từ tệp CSV có thể tìm kiếm được qua Các ứng dụng của Cloud Search hoặc API truy vấn của Cloud Search. Trình kết nối CSV cũng hỗ trợ kiểm soát quyền truy cập của người dùng truy cập vào nội dung trong kết quả tìm kiếm, bằng cách sử dụng Danh sách kiểm soát quyền truy cập (ACL).
Bạn có thể cài đặt trình kết nối CSV của Google Cloud Search trên Linux hoặc Windows. Trước bạn triển khai trình kết nối CSV của Google Cloud Search, hãy đảm bảo rằng bạn có thành phần bắt buộc sau đây:
- Java JRE 1.8 được cài đặt trên máy tính chạy CSV Google Cloud Search trình kết nối
Thông tin cần thiết về Google Workspace để thiết lập mối quan hệ giữa Google Cloud Search và nguồn dữ liệu:
- Khoá riêng tư trên Google Workspace (chứa mã tài khoản dịch vụ)
- Mã nguồn dữ liệu trên Google Workspace
Thông thường, quản trị viên Google Workspace của miền có thể cung cấp các thông tin xác thực này cho bạn.
Các bước triển khai
Để triển khai trình kết nối CSV của Google Cloud Search, hãy làm theo các bước sau:
- Cài đặt phần mềm trình kết nối CSV của Google Cloud Search
- Chỉ định cấu hình trình kết nối CSV
- Thiết lập quyền truy cập vào nguồn dữ liệu của Google Cloud Search
- Định cấu hình quyền truy cập vào tệp CSV
- Chỉ định tên cột để lập chỉ mục, các cột chính duy nhất và cột ngày giờ
- Chỉ định các cột để sử dụng trong URL kết quả tìm kiếm có thể nhấp vào
- Chỉ định thông tin siêu dữ liệu, định dạng cột
- Lên lịch truyền tải dữ liệu
- Chỉ định các tuỳ chọn Danh sách kiểm soát quyền truy cập (ACL)
1. Cài đặt SDK
Cài đặt SDK vào kho lưu trữ Maven cục bộ.
Sao chép kho lưu trữ SDK trên GitHub.
$ git clone https://github.com/google-cloudsearch/connector-sdk.git $ cd connector-sdk/csv
Xem phiên bản SDK mong muốn:
$ git checkout tags/v1-0.0.3
Xây dựng trình kết nối:
$ mvn package
Sao chép tệp zip của trình kết nối vào thư mục cài đặt trên máy:
$ cp target/google-cloudsearch-csv-connector-v1-0.0.3.zip installation-dir $ cd installation-dir $ unzip google-cloudsearch-csv-connector-v1-0.0.3.zip $ cd google-cloudsearch-csv-connector-v1-0.0.3
2. Chỉ định cấu hình trình kết nối CSV
Là quản trị viên trình kết nối, bạn kiểm soát hành vi của trình kết nối CSV và xác định các tham số trong tệp cấu hình của trình kết nối. Các tham số có thể định cấu hình bao gồm:
- Quyền truy cập vào nguồn dữ liệu
- Vị trí của tệp CSV
- Định nghĩa cột CSV
- (Các) cột xác định một mã nhận dạng duy nhất
- Tuỳ chọn truyền tải
- Các tuỳ chọn Danh sách kiểm soát quyền truy cập (ACL) để hạn chế quyền truy cập dữ liệu
Để trình kết nối truy cập đúng cách vào tệp CSV và lập chỉ mục nội dung có liên quan, trước tiên, bạn phải tạo tệp cấu hình.
Cách tạo tệp cấu hình:
- Mở trình chỉnh sửa văn bản mà bạn chọn và đặt tên cho tệp cấu hình.
Thêm cặp khoá=giá trị vào nội dung tệp như mô tả trong phần sau . - Lưu và đặt tên cho tệp cấu hình.
Google khuyên bạn nên đặt tên cho tệp cấu hìnhconnector-config.properties
, nên không có tham số dòng lệnh bổ sung nào cần có để chạy trình kết nối.
Do bạn có thể chỉ định đường dẫn tệp cấu hình trên dòng lệnh, vị trí tệp chuẩn là không cần thiết. Tuy nhiên, hãy giữ tệp cấu hình trong cùng một thư mục với trình kết nối để đơn giản hoá việc theo dõi và chạy trình kết nối.
Để đảm bảo trình kết nối nhận ra tệp cấu hình của bạn, hãy chỉ định đường dẫn của tệp trên
dòng lệnh. Nếu không, trình kết nối sẽ sử dụng
connector-config.properties
trong thư mục địa phương của bạn dưới dạng
tên tệp mặc định. Để biết thông tin về cách chỉ định đường dẫn cấu hình trên
dòng lệnh, hãy xem phần Chạy trình kết nối CSV Cloud Search.
3. Định cấu hình quyền truy cập vào nguồn dữ liệu Google Cloud Search
Tham số đầu tiên mà mọi tệp cấu hình phải chỉ định là các tham số cần thiết để truy cập vào nguồn dữ liệu Cloud Search, như được thể hiện trong bảng. Thông thường, bạn sẽ cần có Mã nguồn dữ liệu, mã tài khoản dịch vụ và đường dẫn đến tệp khóa riêng tư của tài khoản dịch vụ để định cấu hình quyền truy cập của trình kết nối vào Cloud Search. Các bước cần thực hiện để thiết lập một nguồn dữ liệu được mô tả trong Quản lý nguồn dữ liệu của bên thứ ba
Xem xét | Thông số |
Mã nguồn dữ liệu | api.sourceId=1234567890abcdef
Bắt buộc. Mã nguồn Google Cloud Search do quản trị viên Google Workspace thiết lập, theo mô tả trong bài viết Quản lý nguồn dữ liệu của bên thứ ba. |
Đường dẫn đến tệp khoá riêng tư của tài khoản dịch vụ | api.serviceAccountPrivateKeyFile=./PrivateKey.json
Bắt buộc. Tệp khoá tài khoản dịch vụ Google Cloud Search để hỗ trợ khả năng tiếp cận của trình kết nối Google Cloud Search CSV. |
Mã nguồn nhận dạng | api.identitySourceId=x0987654321
Bắt buộc nếu sử dụng người dùng và nhóm bên ngoài. Mã nguồn nhận dạng trên Google Cloud Search do quản trị viên Google Workspace thiết lập. |
4. Định cấu hình thông số tệp CSV
Trước khi trình kết nối có thể truyền tải tệp CSV và trích xuất dữ liệu từ đó lập chỉ mục, bạn phải xác định đường dẫn đến tệp. Bạn cũng có thể chỉ định định dạng tệp và kiểu mã hoá tệp. Thêm các tham số sau để chỉ định các thuộc tính của tệp CSV trong tệp cấu hình.
Xem xét | Thông số |
Đường dẫn đến tệp CSV | csv.filePath=./movie_content.csv
Bắt buộc. Đường dẫn tới tệp CSV mà bạn có thể truy cập và trích xuất nội dung để lập chỉ mục. |
Định dạng tệp | csv.format=DEFAULT
Định dạng của tệp. Các giá trị có thể được lấy từ lớp CSVFormat (định dạng CSV) của Apache Commons. Các giá trị định dạng bao gồm: |
Đối tượng sửa đổi định dạng tệp | csv.format.withMethod=value
Sửa đổi cách Cloud Search xử lý tệp. Bạn có thể sử dụng các phương thức trong lớp CSVFormat (CSV) của Apache Commons và bao gồm các phương thức nhận một ký tự, chuỗi hoặc giá trị boolean duy nhất. Ví dụ: để chỉ định dấu chấm phẩy làm dấu phân cách, hãy sử dụng |
Loại mã hoá tệp | csv.fileEncoding=UTF-8
Bộ ký tự Java để sử dụng khi Cloud Search đọc tệp. Nếu bạn chưa chỉ định, Cloud Search sử dụng bộ ký tự mặc định của nền tảng. |
5. Chỉ định tên cột để lập chỉ mục và các cột chính duy nhất
Để trình kết nối truy cập và lập chỉ mục tệp CSV, bạn phải cung cấp thông tin về định nghĩa cột trong tệp cấu hình. Nếu tệp cấu hình không chứa các tham số chỉ định tên cột để lập chỉ mục và các cột khoá duy nhất, giá trị mặc định sẽ được dùng.
Xem xét | Thông số |
Cột cần lập chỉ mục | csv.csvColumns=movieId,movieTitle,description,actors,releaseDate,year,userratings...
Tên cột sẽ được lập chỉ mục từ tệp CSV. Nếu bạn không đặt |
Các cột khoá duy nhất | csv.uniqueKeyColumns=movieId
(Các) cột CSV có các giá trị sẽ được dùng để tạo mã nhận dạng duy nhất của mỗi bản ghi. Nếu không được chỉ định, bạn nên sử dụng hàm băm của bản ghi CSV làm khoá duy nhất. Giá trị mặc định là mã băm của bản ghi. |
6. Chỉ định cột để sử dụng trong URL kết quả tìm kiếm có thể nhấp
Khi người dùng tìm kiếm bằng Google Cloud Search, ứng dụng này sẽ phản hồi bằng cách hiển thị một kết quả bao gồm URL có thể nhấp cho từng kết quả. Để bật tính năng này, bạn phải thêm thông số hiển thị trong bảng sau vào tệp cấu hình.
Xem xét | Thông số |
Định dạng URL của kết quả tìm kiếm | url.format=https://mymoviesite.com/movies/{0}
Bắt buộc. Định dạng để tạo URL chế độ xem cho nội dung CSV. |
Tham số URL của kết quả tìm kiếm. | url.columns=movieId
Bắt buộc. Tên cột CSV có các giá trị sẽ được dùng để tạo URL xem của bản ghi. |
Tham số URL cần thoát của kết quả tìm kiếm | url.columnsToEscape=movieId
Không bắt buộc. Tên cột CSV có các giá trị sẽ là URL được thoát để tạo URL chế độ xem hợp lệ. |
7. Chỉ định thông tin siêu dữ liệu, định dạng cột, chất lượng tìm kiếm
Bạn có thể thêm các tham số vào tệp cấu hình chỉ định:
Tham số cấu hình siêu dữ liệu
Thông số cấu hình siêu dữ liệu mô tả các cột CSV dùng để điền sẵn dữ liệu siêu dữ liệu mặt hàng. Nếu tệp cấu hình không chứa các thông số này, đều sử dụng các giá trị mặc định. Bảng sau đây cho thấy các thông số này.
Chế độ cài đặt | Tham số |
Tiêu đề | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Thuộc tính siêu dữ liệu chứa giá trị tương ứng với tiêu đề tài liệu. Giá trị mặc định là một chuỗi trống. |
URL | itemMetadata.sourceRepositoryUrl.field=url
itemMetadata.sourceRepositoryUrl.defaultValue=https://www.imdb.com/title/tt0031381/
Thuộc tính siêu dữ liệu chứa giá trị của URL tài liệu cho kết quả tìm kiếm. |
Dấu thời gian đã tạo | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Thuộc tính siêu dữ liệu chứa giá trị của dấu thời gian tạo tài liệu. |
Lần sửa cuối | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Thuộc tính siêu dữ liệu chứa giá trị của dấu thời gian sửa đổi gần đây nhất đối với tài liệu. |
Ngôn ngữ của giấy tờ | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Ngôn ngữ nội dung cho tài liệu được lập chỉ mục. |
Loại đối tượng giản đồ | itemMetadata.objectType.field=type itemMetadata.objectType.defaultValue=movie
Loại đối tượng được sử dụng bởi trình kết nối, như được xác định trong giản đồ. Trình kết nối sẽ không lập chỉ mục bất kỳ dữ liệu có cấu trúc nào nếu thuộc tính này không được chỉ định. |
Định dạng ngày giờ
Định dạng ngày giờ chỉ định định dạng dự kiến trong các thuộc tính siêu dữ liệu. Nếu tệp cấu hình không chứa tham số này, giá trị mặc định sẽ được sử dụng. Bảng sau đây cho thấy thông số này.
Chế độ cài đặt | Tham số |
Định dạng ngày giờ bổ sung | structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Danh sách các mẫu java.time.format.DateTimeFormatter khác phân tách bằng dấu chấm phẩy. Các mẫu này được sử dụng khi phân tích cú pháp giá trị chuỗi cho bất kỳ trường ngày hoặc giờ nào trong siêu dữ liệu hoặc giản đồ. Giá trị mặc định là danh sách trống, nhưng các định dạng RFC 3339 và RFC 1123 luôn được hỗ trợ. |
Định dạng cột
Định dạng cột chỉ định thông tin về(các) cột thuộc nội dung có thể tìm kiếm. Nếu tệp cấu hình không chứa các thông số này tham số, giá trị mặc định sẽ được sử dụng. Bảng sau đây cho thấy các thông số này.
Xem xét | Thông số |
Bỏ qua tiêu đề | csv.skipHeaderRecord=true
Boolean. Bỏ qua bản ghi tiêu đề (dòng đầu tiên) trong tệp CSV. Nếu bạn đã thiết lập |
Cột nhiều giá trị | csv.multiValueColumns=genre,actors
Tên cột trong tệp CSV có nhiều giá trị. Giá trị mặc định là một chuỗi trống. |
Dấu phân cách cho các cột có nhiều giá trị | csv.multiValue.genre=;
Dấu phân cách cho các cột nhiều giá trị. Dấu phân cách mặc định là dấu phẩy. |
Chất lượng tìm kiếm
Trình kết nối CSV của Cloud Search cho phép tự động định dạng HTML cho các trường dữ liệu. Trình kết nối của bạn xác định các trường dữ liệu khi bắt đầu thực thi trình kết nối, sau đó dùng một mẫu nội dung để định dạng từng bản ghi dữ liệu trước khi tải lên lên Cloud Search.
Mẫu nội dung xác định tầm quan trọng của từng giá trị trường đối với hoạt động tìm kiếm. Trường tiêu đề là trường bắt buộc và được xác định là trường có mức độ ưu tiên cao nhất. Bạn có thể chỉ định các mức độ quan trọng về chất lượng tìm kiếm cho tất cả các trường nội dung khác: cao, trung bình hoặc thấp. Bất kỳ trường nội dung nào không được xác định trong một danh mục cụ thể mặc định là mức độ ưu tiên thấp. Bảng sau đây cho thấy các thông số này.
Xem xét | Thông số |
Tiêu đề nội dung | contentTemplate.csv.title=movieTitle
Tiêu đề nội dung là trường có chất lượng tìm kiếm cao nhất. |
Chất lượng tìm kiếm cao cho các trường nội dung | contentTemplate.csv.quality.high=actors
Các trường nội dung được cung cấp giá trị chất lượng tìm kiếm cao. Giá trị mặc định là một chuỗi trống. |
Chất lượng tìm kiếm thấp đối với các trường nội dung | contentTemplate.csv.quality.low=genre
Các trường nội dung được cung cấp giá trị có chất lượng tìm kiếm thấp. Giá trị mặc định là một chuỗi trống. |
Chất lượng tìm kiếm trung bình cho các trường nội dung | contentTemplate.csv.quality.medium=description
Các trường nội dung được cung cấp một giá trị có chất lượng tìm kiếm trung bình. Giá trị mặc định là một chuỗi trống. |
Trường nội dung chưa được chỉ định | contentTemplate.csv.unmappedColumnsMode=IGNORE
Cách trình kết nối xử lý các trường nội dung không xác định. Các giá trị hợp lệ là:
|
8. Lên lịch truyền tải dữ liệu
Truyền tải là quy trình của trình kết nối để khám phá nội dung từ dữ liệu nguồn, trong trường hợp này là tệp CSV. Khi chạy, trình kết nối CSV sẽ truyền tải các hàng của tệp CSV và lập chỉ mục từng hàng cho Cloud Search qua tính năng Lập chỉ mục API.
Truyền tải đầy đủ lập chỉ mục tất cả các cột trong tệp. Truyền tải gia tăng chỉ lập chỉ mục các cột được thêm hoặc sửa đổi từ lần truyền tải trước đó. Trình kết nối CSV chỉ thực hiện truyền tải đầy đủ. Phương thức này không thực hiện việc truyền tải dần dần.
Tham số lập lịch xác định tần suất trình kết nối chờ giữa truyền tải. Nếu tệp cấu hình không chứa thông số lập lịch, đều sử dụng các giá trị mặc định. Bảng sau đây cho thấy các thông số này.
Xem xét | Thông số |
Truyền tải toàn bộ sau một khoảng thời gian | schedule.traversalIntervalSecs=7200
Trình kết nối thực hiện truyền tải toàn bộ sau một khoảng thời gian được chỉ định. Chỉ định khoảng thời gian giữa các lần truyền tải tính bằng giây. Giá trị mặc định là 86400 (số giây trong một ngày). |
Truyền tải đầy đủ khi khởi động trình kết nối | schedule.performTraversalOnStart=false
Trình kết nối thực hiện truyền tải đầy đủ khi khởi động trình kết nối thay vì đợi khoảng thời gian đầu tiên hết hạn. Giá trị mặc định là true. |
9. Chỉ định các tuỳ chọn cho Danh sách kiểm soát quyền truy cập (ACL)
Trình kết nối CSV của Google Cloud Search hỗ trợ các quyền thông qua các ACL để kiểm soát quyền truy cập vào nội dung của tệp CSV trong kết quả tìm kiếm. Có nhiều Danh sách kiểm soát quyền truy cập (ACL) các tuỳ chọn hiện có để giúp bạn bảo vệ quyền truy cập của người dùng vào các bản ghi được lập chỉ mục.
Nếu kho lưu trữ của bạn có thông tin ACL cá nhân được liên kết với từng tài liệu, tải tất cả thông tin Danh sách kiểm soát quyền truy cập (ACL) lên để kiểm soát quyền truy cập tài liệu trong Cloud Search. Nếu kho lưu trữ của bạn cung cấp một phần hoặc không có thông tin ACL, bạn có thể cung cấp Thông tin ACL trong các tham số sau mà SDK cung cấp cho trình kết nối.
Trình kết nối dựa vào các Danh sách kiểm soát quyền truy cập (ACL) mặc định được bật trong tệp cấu hình. Người nhận
bật ACL mặc định, đặt defaultAcl.mode
thành bất kỳ chế độ nào khác ngoài none
và
định cấu hình nó bằng defaultAcl.*
Xem xét | Thông số |
chế độ Danh sách kiểm soát quyền truy cập (ACL) | defaultAcl.mode=fallback
Bắt buộc. Trình kết nối CSV dựa vào chức năng Danh sách kiểm soát quyền truy cập (ACL) mặc định. Trình kết nối chỉ hỗ trợ chế độ dự phòng. |
Tên ACL mặc định | defaultAcl.name=VIRTUAL_CONTAINER_FOR_CONNECTOR_1
Không bắt buộc. Cho phép ghi đè tên vùng chứa ảo mà trình kết nối sử dụng để thiết lập ACL mặc định. Giá trị mặc định là "DEFAULT_ACL_VIRTUAL_CONTAINER". Có thể bạn muốn ghi đè giá trị này nếu nhiều trình kết nối đang lập chỉ mục nội dung trong cùng một nguồn dữ liệu. |
Danh sách kiểm soát quyền truy cập (ACL) công khai mặc định | defaultAcl.public=true
Danh sách kiểm soát quyền truy cập (ACL) mặc định được sử dụng cho toàn bộ kho lưu trữ được đặt thành quyền truy cập thuộc phạm vi công cộng. Giá trị mặc định là false. |
Trình đọc nhóm ACL phổ biến | defaultAcl.readers.groups=google:group1, group2 |
Trình đọc ACL phổ biến | defaultAcl.readers.users=user1, user2, google:user3 |
Trình đọc nhóm bị từ chối danh sách kiểm soát quyền truy cập (ACL) phổ biến | defaultAcl.denied.groups=group3 |
Người đọc Acl thông thường bị từ chối | defaultAcl.denied.users=user4, user5 |
Toàn bộ quyền truy cập của miền | Để chỉ định mọi người dùng trong miền đều có thể truy cập công khai mọi bản ghi được lập chỉ mục, hãy đặt giá trị cho cả hai tuỳ chọn sau:
|
Danh sách kiểm soát quyền truy cập (ACL) phổ biến được xác định | Để chỉ định một ACL cho mỗi bản ghi của kho lưu trữ dữ liệu, hãy đặt tất cả các giá trị tham số sau:
|
Định nghĩa giản đồ
Cloud Search cho phép lập chỉ mục và phân phát nội dung có cấu trúc và không có cấu trúc. Để hỗ trợ các truy vấn dữ liệu có cấu trúc trên dữ liệu của mình, bạn cần thiết lập Schema cho nguồn dữ liệu của bạn.
Sau khi được xác định, Trình kết nối CSV có thể tham chiếu giản đồ đã xác định để xây dựng các yêu cầu lập chỉ mục. Để có ví dụ minh hoạ, hãy xem xét tệp CSV chứa về Phim.
Giả sử, tệp CSV nhập có nội dung như sau.
- movieId
- movieTitle
- description
- năm
- releaseDate
- diễn viên (nhiều giá trị được phân tách bằng dấu phẩy (,))
- thể loại (nhiều giá trị)
- xếp hạng
Dựa trên cấu trúc dữ liệu ở trên, bạn có thể xác định giản đồ cho nguồn dữ liệu trong mà bạn muốn lập chỉ mục dữ liệu từ tệp CSV.
{
"objectDefinitions": [
{
"name": "movie",
"propertyDefinitions": [
{
"name": "actors",
"isReturnable": true,
"isRepeatable": true,
"isFacetable": true,
"textPropertyOptions": {
"operatorOptions": {
"operatorName": "actor"
}
}
},
{
"name": "releaseDate",
"isReturnable": true,
"isRepeatable": false,
"isFacetable": false,
"datePropertyOptions": {
"operatorOptions": {
"operatorName": "released",
"lessThanOperatorName": "releasedbefore",
"greaterThanOperatorName": "releasedafter"
}
}
},
{
"name": "movieTitle",
"isReturnable": true,
"isRepeatable": false,
"isFacetable": false,
"textPropertyOptions": {
"retrievalImportance": {
"importance": "HIGHEST"
},
"operatorOptions": {
"operatorName": "title"
}
}
},
{
"name": "genre",
"isReturnable": true,
"isRepeatable": true,
"isFacetable": true,
"enumPropertyOptions": {
"operatorOptions": {
"operatorName": "genre"
},
"possibleValues": [
{
"stringValue": "Action"
},
{
"stringValue": "Documentary"
},
{
"stringValue": "Drama"
},
{
"stringValue": "Crime"
},
{
"stringValue": "Sci-fi"
}
]
}
},
{
"name": "userRating",
"isReturnable": true,
"isRepeatable": false,
"isFacetable": true,
"integerPropertyOptions": {
"orderedRanking": "ASCENDING",
"maximumValue": "10",
"operatorOptions": {
"operatorName": "score",
"lessThanOperatorName": "scorebelow",
"greaterThanOperatorName": "scoreabove"
}
}
}
]
}
]
}
Tệp cấu hình mẫu
Tệp cấu hình mẫu sau cho thấy các cặp thông số key=value
xác định hành vi của trình kết nối mẫu.
# data source access
api.sourceId=1234567890abcd
api.serviceAccountPrivateKeyFile=./PrivateKey.json
# CSV data structure
csv.filePath=./movie_content.csv
csv.csvColumns=movieId,movieTitle,description,releaseYear,genre,actors,ratings,releaseDate
csv.skipHeaderRecord=true
url.format=https://mymoviesite.com/movies/{0}
url.columns=movieId
csv.datetimeFormat.releaseDate=yyyy-mm-dd
csv.multiValueColumns=genre,actors
csv.multiValue.genre=;
contentTemplate.csv.title=movieTitle
# metadata structured data and content
itemMetadata.title.field=movieTitle
itemMetadata.createTime.field=releaseDate
itemMetadata.contentLanguage.defaultValue=en-US
itemMetadata.objectType.defaultValue=movie
contentTemplate.csv.quality.medium=description
contentTemplate.csv.unmappedColumnsMode=IGNORE
#ACLs
defaultAcl.mode=fallback
defaultAcl.public=true
Để biết nội dung mô tả chi tiết về từng thông số, hãy xem Tham số cấu hình tham chiếu.
Chạy trình kết nối CSV trên Cloud Search
Để chạy trình kết nối từ dòng lệnh, hãy nhập lệnh sau:
$ java -jar google-cloudsearch-csv-connector-v1-0.0.3.jar -Dconfig=my.config
Theo mặc định, nhật ký trình kết nối có sẵn trên đầu ra chuẩn. Bạn có thể đăng nhập vào các tệp
bằng cách chỉ định logging.properties
.