פריסת פלאגין של Norconex HTTP Collector Indexer

המדריך הזה מיועד לאדמינים של יישומי פלאגין ליצירת אינדקס של Google Cloud Search Norconex HTTP Collector, כלומר כל מי שאחראי להורדה, פריסה, הגדרה ותחזוקה של הפלאגין של כלי ההוספה לאינדקס. במדריך אנחנו יוצאים מנקודת הנחה שאתם מכירים את מערכות ההפעלה Linux, יסודות סריקת האינטרנט, XML ו-Norconex HTTP Collector.

המדריך הזה כולל הוראות לביצוע משימות מרכזיות שקשורות לפריסת הפלאגין של האינדקס:

  • הורדת תוכנת הפלאגין של האינדקס
  • הגדרת Google Cloud Search
  • הגדרה של Norconex HTTP Collector וסריקת אינטרנט
  • מתחילים את סריקת האינטרנט ומעלים תוכן

במדריך הזה לא מופיע מידע על המשימות שהאדמין ב-Google Workspace צריך לבצע כדי למפות את Google Cloud Search לפלאגין של כלי ההוספה לאינדקס של Norconex HTTP Collector. למידע נוסף על המשימות האלה, ראו ניהול מקורות נתונים של צד שלישי.

סקירה כללית של הפלאגין ליצירת אינדקס ב-Cloud Search Norconex HTTP Collector

כברירת מחדל, Cloud Search יכול למצוא, להוסיף לאינדקס ולהציג תוכן ממוצרי Google Workspace, כמו Google Docs ו-Gmail. כדי להרחיב את טווח ההגעה של Google Cloud Search, אתם יכולים לפרוס את הפלאגין של הכלי לאינדקס עבור Norconex HTTP Collector, סורק אינטרנט ארגוני בקוד פתוח, כדי לאפשר לכם גם להציג תוכן מהאינטרנט למשתמשים.

קובצי מאפייני הגדרות

כדי לאפשר לפלאגין של האינדקס לבצע סריקות אינטרנט ולהעלות תוכן לממשק ה-API של ההוספה לאינדקס, אתם, כמנהלי הפלאגין של האינדקס, צריכים לספק מידע ספציפי במהלך שלבי ההגדרה המתוארים במסמך הזה בשלבי הפריסה.

כדי להשתמש בפלאגין של כלי האינדקס, צריך להגדיר מאפיינים בשני קובצי תצורה:

  • {gcs-crawl-config.xml}-- מכיל הגדרות ל-Norconex HTTP Collector.
  • sdk-configuration.properties-- מכיל הגדרות ל-Google Cloud Search.

המאפיינים בכל קובץ מאפשרים לפלאגין של Google Cloud Search לאינדקס ול-Norconex HTTP Collector לתקשר זה עם זה.

סריקת אינטרנט והעלאת תוכן

אחרי שממלאים את קובצי התצורה, קובעים את ההגדרות הנדרשות כדי להתחיל את סריקת האינטרנט. Norconex HTTP Collector סורק את האינטרנט, מוצא תוכן של מסמכים שקשור להגדרות שלו ומעלים גרסאות בינאריות (או טקסט) של תוכן המסמך ל-Cloud Search Index API, שם הוא נוסף לאינדקס ובסופו של דבר מוצג למשתמשים.

מערכת הפעלה נתמכת

צריך להתקין ב-Linux את הפלאגין של Google Cloud Search Norconex HTTP Collector לאינדקס.

גרסה נתמכת של Norconex HTTP Collector

הפלאגין של Google Cloud Search Norconex HTTP Collector לאינדקס תומך בגרסה 2.8.0.

תמיכה ברשימת ACL

הפלאגין של האינדקס תומך בשליטה בגישה למסמכים בדומיין Google Workspace באמצעות רשימות של בקרת גישה (ACL).

אם רשימות ה-ACL שמשמשות כברירת המחדל מופעלות בתצורה של הפלאגין של Google Cloud Search (defaultAcl.mode מוגדר להיות אחר מ-none ומוגדר באמצעות defaultAcl.*), הפלאגין של הכלי לאינדקס ינסה קודם ליצור רשימת ACL שמשמשת כברירת מחדל ולהחיל אותה.

אם רשימות ה-ACL שמשמשות כברירת המחדל לא מופעלות, הפלאגין יחזור להעניק הרשאת קריאה לכל הדומיין ב-Google Workspace.

לתיאורים מפורטים של פרמטרים להגדרת ACL, ראו פרמטרים של מחברים ש-Google מספקת.

דרישות מוקדמות

לפני פריסת הפלאגין של האינדקס, צריך לוודא שיש לכם את הרכיבים הנדרשים הבאים:

  • התקנת Java JRE 1.8 במחשב שבו פועל הפלאגין של הכלי לאינדקס
  • המידע מ-Google Workspace שנדרש כדי ליצור קשרים בין Cloud Search לבין Norconex HTTP Collector:

    בדרך כלל האדמין ב-Google Workspace של הדומיין יכול לספק לכם את פרטי הכניסה האלה.

שלבי הפריסה

כדי לפרוס את הפלאגין של האינדקס, מבצעים את השלבים הבאים:

  1. התקנת Norconex HTTP Collector ואת תוכנת הפלאגין של כלי ההוספה לאינדקס
  2. הגדרת Google Cloud Search
  3. הגדרה של Norconex HTTP Collector
  4. הגדרת סריקת אינטרנט
  5. התחלה של סריקת אינטרנט והעלאת תוכן

שלב 1: מתקינים את Norconex HTTP Collector ואת תוכנת הפלאגין של Norconex

  1. מורידים את תוכנת ההגדרות של Norconex Commissioner מהדף הזה.
  2. מחלצים את התוכנה שהורדתם לתיקייה ~/norconex/
  3. משכפלים את הפלאגין של הלוקל מ-GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git ואז cd norconex-committer-plugin
  4. כדאי לבדוק את הגרסה הרצויה של הפלאגין להפקעה וליצור את קובץ ה-ZIP: git checkout tags/v1-0.0.3 ו-mvn package (כדי לדלג על הבדיקות בזמן פיתוח המחבר, משתמשים ב-mvn package -DskipTests).
  5. cd target
  6. מעתיקים את קובץ ה-jar של הפלאגין המובנה לספריית Norconex lib. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. מחלצים את קובץ ה-ZIP שיצרתם כרגע, ולאחר מכן מחלצים את הקובץ: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. מריצים את סקריפט ההתקנה כדי להעתיק את קובץ ה- .jar של הפלאגין ואת כל הספריות הנדרשות לספרייה של אוסף ה-http:
    1. שינוי לפריסת ה-ZIP של הפלאגין של Commissioner שחולץ למעלה: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. כשתוצג הבקשה, מריצים את $ sh install.sh ומציינים את הנתיב המלא ל-norconex/norconex-collector-http-{version}/lib כספריית היעד.
    3. אם נמצאו קבצים כפולים של צנצנות, בוחרים באפשרות 1 (העתקת ה-Jarr של המקור רק אם היא גדולה או זהה לגרסה של צנצנת היעד אחרי שינוי השם של צנצנת היעד).

שלב 2: מגדירים את Google Cloud Search

כדי שהפלאגין של האינדקס יוכל להתחבר ל-Norconex HTTP Collector ולהוסיף לאינדקס את התוכן הרלוונטי, עליכם ליצור את קובץ התצורה של Cloud Search בספרייה Norconex שבה מותקן Norconex HTTP Collector. Google ממליצה לתת לקובץ התצורה של Cloud Search את השם sdk-configuration.properties.

קובץ התצורה הזה חייב להכיל צמדי מפתח/ערך שמגדירים פרמטר. קובץ התצורה צריך לציין לפחות את הפרמטרים הבאים, שנדרשים כדי לגשת למקור הנתונים של Cloud Search.

הסביבה פרמטר
מזהה מקור הנתונים api.sourceId = 1234567890abcdef
חובה. מזהה המקור ב-Cloud Search שהוגדר על ידי האדמין ב-Google Workspace.
חשבון שירות api.serviceAccountPrivateKeyFile = ./PrivateKey.json
חובה. קובץ המפתח של חשבון השירות ב-Cloud Search שנוצר על ידי האדמין ב-Google Workspace לצורך נגישות לפלאגין של הכלי לאינדקס.

בדוגמה הבאה מוצג קובץ sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

קובץ התצורה יכול גם להכיל פרמטרים של תצורה ש-Google מספקת. הפרמטרים האלה יכולים להשפיע על האופן שבו הפלאגין הזה דוחף נתונים ל-Google Cloud Search API. לדוגמה, קבוצת הפרמטרים batch.* מזהה את האופן שבו המחבר משלב בקשות.

אם לא מגדירים פרמטר בקובץ התצורה, נעשה שימוש בערך ברירת המחדל, אם הוא זמין. לתיאורים מפורטים של כל פרמטר, ראו פרמטרים של מחברים ש-Google מספקת.

אפשר להגדיר את הפלאגין של האינדקס כדי לאכלס מטא-נתונים ונתונים מובְנים לתוכן שנוסף לאינדקס. אפשר לחלץ את הערכים שיאוכלסו בשדות של מטא-נתונים ושל נתונים מובְנים ממטא תגים בתוכן HTML שנוסף לאינדקס, או לציין ערכי ברירת מחדל בקובץ התצורה.

הגדרה פרמטר
שם הפריט itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
כברירת מחדל, הפלאגין משתמש ב-HTML title ככותרת של המסמך שנוסף לאינדקס. במקרה של כותרת חסרה, אפשר להפנות למאפיין המטא-נתונים שמכיל את הערך המתאים לכותרת המסמך או להגדיר ערך ברירת מחדל.
חותמת הזמן שנוצרה itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
מאפיין המטא-נתונים שמכיל את הערך של חותמת הזמן של יצירת המסמך.
זמן השינוי האחרון itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
מאפיין המטא-נתונים שמכיל את הערך של חותמת הזמן של השינוי האחרון במסמך.
שפת המסמך itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
שפת התוכן של המסמכים שנוספו לאינדקס.
סוג אובייקט Schema itemMetadata.objectType=movie
סוג האובייקט שמשמש את האתר, כפי שמוגדר בהגדרות האובייקטים של סכימת מקור הנתונים. המחבר לא יוסיף לאינדקס נתונים מובְנים אם המאפיין הזה לא צוין.

הערה: מאפיין ההגדרה הזה מפנה לערך ולא למאפיין של מטא-נתונים, והסיומות של .field ו-.defaultValue לא נתמכות.

פורמטים של תאריך ושעה

הפורמטים של תאריך ושעה מציינים את הפורמטים הנדרשים במאפייני המטא-נתונים. אם קובץ התצורה לא מכיל את הפרמטר הזה, המערכת תשתמש בערכי ברירת המחדל. הפרמטר הזה מוצג בטבלה הבאה.

הגדרה

פרמטר

תבניות נוספות של תאריכים ושעות

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

רשימה של תבניות Java.time.format.DateTimeFormatter נוספות שמופרדות באמצעות נקודה-פסיק. התבניות משמשות לניתוח ערכי מחרוזות של שדות תאריך או תאריך-שעה במטא-נתונים או בסכימה. ערך ברירת המחדל הוא רשימה ריקה, אבל תמיד יש תמיכה בפורמטים RFC 3339 ו-RFC 1123.

שלב 3: מגדירים את Norconex HTTP Collector

ארכיון ה-ZIP norconex-committer-google-cloud-search-{version}.zipכולל קובץ תצורה לדוגמה, minimum-config.xml.

Google ממליצה להתחיל את תהליך ההגדרה על ידי העתקת הקובץ לדוגמה:

  1. עוברים לספרייה של Norconex HTTP Collector:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. מעתיקים את קובץ התצורה:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. עורכים את הקובץ החדש שנוצר (בדוגמה הזו, gcs-crawl-config.xml) ומוסיפים או מחליפים את הצמתים <committer> ו-<tagger> הקיימים, כפי שמתואר בטבלה הבאה.
הסביבה פרמטר
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

חובה. כדי להפעיל את הפלאגין, צריך להוסיף צומת <committer> כצאצא של צומת השורש <httpcollector>.
<UploadFormat> <uploadFormat>raw</uploadFormat>
אופציונלי. הפורמט שבו הפלאגין ליצירת האינדקס דוחף תוכן מסמכים ל-Google Cloud Search Indexer API. הערכים החוקיים הם:
  • raw: הפלאגין של הכלי לאינדקס דוחף תוכן מקורי של מסמך שלא עבר המרה.
  • text: הפלאגין של הכלי לאינדקס דוחף תוכן טקסטואלי שחולץ.

ערך ברירת המחדל הוא raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
חובה אם הערך של <UploadFormat> הוא raw. במקרה כזה, הפלאגין של האינדקס צריך ששדה התוכן הבינארי של המסמך יהיה זמין.

צריך להוסיף את הצומת BinaryContentTagger <tagger> כרכיב צאצא של הצומת <importer> / <preParseHandlers>.

בדוגמה הבאה אפשר לראות את השינוי הנדרש ב-gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

שלב 4: הגדרה של סריקת האינטרנט

לפני תחילת סריקת אינטרנט, צריך להגדיר את הסריקה כך שהיא תכלול רק מידע שהארגון שלכם רוצה להציג בתוצאות החיפוש. ההגדרות החשובות ביותר לסריקת אינטרנט הן חלק מהצמתים <crawler>, והן יכולות לכלול:

  • כתובות URL להתחלה
  • עומק מקסימלי של הסריקה
  • מספר השרשורים

משנים את ערכי ההגדרות האישיות בהתאם לצרכים שלכם. למידע מפורט יותר על הגדרת סריקת אינטרנט ולרשימה מלאה של הפרמטרים הזמינים של ההגדרות, קראו את הדף הגדרות אישיות של HTTP Collector.

שלב 5: מתחילים סריקת אינטרנט והעלאת תוכן

אחרי שמתקינים ומגדירים את הפלאגין של האינדקס, אפשר להריץ אותו לבד במצב מקומי.

בדוגמה הבאה ההנחה היא שהרכיבים הנדרשים נמצאים בספרייה המקומית במערכת Linux. מריצים את הפקודה הבאה:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

מעקב אחרי הסורק באמצעות JEF Monitor

מעקב אחרי ההתקדמות של סורק האינטרנט Norconex (HTTP Collector) – מעקב אחרי ההתקדמות של Norconex Web Scanner (HTTP Collector) הוא כלי גרפי. למדריך המלא על אופן ההגדרה של כלי השירות הזה, תוכלו לקרוא את המאמר מעקב אחרי התקדמות הסורק באמצעות JEF Monitor.