Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

פריסת פלאגין של Norconex HTTP Collector Indexer

המדריך הזה מיועד לאדמינים שאחראים על הורדה, פריסה ותחזוקה של הפלאגין Google Cloud Search Norconex HTTP Collector indexer. חשוב שתכירו את Linux, את העקרונות הבסיסיים של סריקת אתרים, XML ו-Norconex HTTP Collector.

במדריך הזה מפורטות הוראות לביצוע הפעולות הבאות:

מורידים את תוכנת הפלאגין של יצירת האינדקס.
מגדירים את Cloud Search.
הגדרת Norconex HTTP Collector וסריקת אתרים.
מתחילים בסריקת האינטרנט ומעלים את התוכן.

במדריך הזה לא מופיע מידע על המשימות שהאדמין ב-Google Workspace צריך לבצע. מידע על המשימות האלה זמין במאמר בנושא ניהול מקורות נתונים של צד שלישי.

סקירה כללית של התוסף Norconex HTTP Collector indexer

כברירת מחדל, Cloud Search יכול לגלות, להוסיף לאינדקס ולהציג תוכן ממוצרי Google Workspace, כמו Google Docs ו-Gmail. כדי להרחיב את החיפוש כך שיכלול תוכן מהאינטרנט, אפשר לפרוס את פלאגין יצירת האינדקס של Norconex HTTP Collector, סורק אינטרנט ארגוני בקוד פתוח.

קובצי מאפייני הגדרה

כדי לאפשר לתוסף לסרוק ולהעלות תוכן, צריך לספק מידע ספציפי בשני קובצי תצורה:

‫{gcs-crawl-config.xml}: הגדרות עבור Norconex HTTP Collector.
‫sdk-configuration.properties: הגדרות של Cloud Search.

סריקת אינטרנט והעלאת תוכן

אחרי שממלאים את קובצי ההגדרות, אפשר להתחיל בסריקת האינטרנט. הכלי Norconex HTTP Collector סורק את האינטרנט ומעלה תוכן של מסמכים בינאריים או מסמכי טקסט מקוריים אל Cloud Search Indexing API.

דרישות מערכת

מערכת הפעלה: Linux בלבד.
גרסת Norconex: גרסה 2.8.0.
תוכנה: Java JRE 1.8.

תמיכה ב-ACL

תוסף יצירת האינדקס תומך ברשימות של בקרת גישה (ACL) כדי לשלוט בגישה למסמכים בדומיין Google Workspace.

אם מפעילים רשימות ACL כברירת מחדל בהגדרת הפלאגין (defaultAcl.mode מוגדר לערך שונה מ-none), הפלאגין מחיל את ברירות המחדל האלה. אחרת, התוסף מעניק הרשאת קריאה לכל הדומיין. פרמטרים של מחברים שסופקו על ידי Google

דרישות מוקדמות

לפני שמפעילים את תוסף יצירת האינדקס, צריך לאסוף את הרכיבים הבאים:

מפתח פרטי של Google Workspace (שכולל את מזהה חשבון השירות). הגדרת גישה ל-Cloud Search API
מזהה מקור הנתונים של Google Workspace. אפשר לעיין במאמר בנושא ניהול מקורות נתונים של צדדים שלישיים.

שלבי הפריסה

התקנה של Norconex HTTP Collector ותוכנת הפלאגין
הגדרת Cloud Search
הגדרת Norconex HTTP Collector
הגדרת סריקת אתרים
התחלת סריקת אינטרנט והעלאת תוכן

שלב 1: התקנה של Norconex HTTP Collector ותוכנת הפלאגין

מורידים את תוכנת ה-committer של Norconex מדף ההורדה של Norconex.
מחפשים את התוכנה ומחלצים אותה לתיקייה ~/norconex/.

משכפלים את הפלאגין של השולח:

git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
cd norconex-committer-plugin

בודקים את הגרסה שנבחרה ויוצרים את הפלאגין:
```
git checkout tags/v1-0.0.3
mvn package
```
כדי לדלג על בדיקות, משתמשים ב-mvn package -DskipTests.

מעתיקים את קובץ ה-JAR לספרייה lib של Norconex:

cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib

מחלצים את קובץ ה-ZIP שנוצר:

unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3

מריצים את סקריפט ההתקנה ומזינים את הנתיב המלא לספריית Norconex lib:
```
sh install.sh
```
אם מוצגת בקשה למחוק קבצים כפולים, בוחרים באפשרות 1.

שלב 2: הגדרת Cloud Search

יוצרים את הספרייה sdk-configuration.properties בספרייה Norconex. בקובץ צריך לציין את הפרמטרים הבאים:

הגדרה	פרמטר
מזהה מקור הנתונים	‫`api.sourceId = 1234567890abcdef` חובה. מזהה המקור מהאדמין ב-Google Workspace.
חשבון שירות	‫`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` חובה. קובץ המפתח של חשבון השירות.

דוגמה sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

אפשר גם לכלול פרמטרים כמו batch.* כדי לשלוט באופן שבו התוסף דוחף נתונים. פרמטרים של מחברים שסופקו על ידי Google

כדי לאכלס את המטא-נתונים, מגדירים את הפרמטרים האופציונליים האלה:

הגדרה	פרמטר
כותרת	`itemMetadata.title.field=movieTitle`
סוג אובייקט הסכימה	`itemMetadata.objectType=movie`

שלב 3: הגדרה של Norconex HTTP Collector

התוסף כולל קובץ לדוגמה, minimum-config.xml.

עוברים לספרייה Norconex ומעתיקים את הדוגמה:

cd ~/norconex/norconex-collector-http-VERSION/
cp examples/minimum/minimum-config.xml gcs-crawl-config.xml

עריכה gcs-crawl-config.xml כדי להוסיף או להחליף צמתי <committer> ו-<tagger>:

הגדרה	פרמטר
צומת `<committer>`	‫`<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">` חובה. מוסיפים את זה מתחת לצומת `<httpcollector>`.
`<uploadFormat>`	‫`<uploadFormat>raw</uploadFormat>` אופציונלי. ‫`raw` או `text`. ערך ברירת המחדל הוא `raw`.

דוגמה gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

שלב 4: הגדרת סריקת אתרים

מגדירים את הצמתים <crawler> בהתאם לצרכים, כולל:

כתובות URL להתחלה
עומק הסריקה המקסימלי
מספר השרשורים

אפשר לעיין בדף ההגדרה של Norconex.

שלב 5: מתחילים סריקת אינטרנט והעלאת תוכן

מריצים את הכלי לאיסוף נתונים במצב מקומי:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

מעקב אחרי הסורק באמצעות JEF Monitor

הכלי Norconex JEF (Job Execution Framework) Monitor מספק תצוגה גרפית של ההתקדמות. אפשר לעיין במאמר מעקב אחר הסורק באמצעות JEF Monitor.

פריסת פלאגין של Norconex HTTP Collector Indexer קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.