פריסת פלאגין של Apache Nutch Indexer

אתם יכולים להגדיר את Google Cloud Search כך שיציג למשתמשים תוכן מהאינטרנט באמצעות פריסת הפלאגין של Cloud Search Indexer ל-Apache Nutch, סורק אינטרנט בקוד פתוח.

כשמתחילים בסריקת האינטרנט, Apache Nutch סורק את האינטרנט ומשתמש בתוסף indexer כדי להעלות גרסאות בינאריות (או טקסט) מקוריות של תוכן המסמך ל-Google Cloud Search API. ‫Cloud Search API מבצע אינדוקס של התוכן ומציג את התוצאות למשתמשים.

שיקולים חשובים

לפני שמפעילים את הפלאגין של הכלי ליצירת אינדקסים, חשוב להביא בחשבון את הנקודות הבאות.

דרישות מערכת

דרישות מערכת
מערכת הפעלה	ב-Linux בלבד: Ubuntu ‫Red Hat Enterprise Linux 5.0 ‫SUSE Enterprise Linux 10 (64 bit)
תוכנה	‫Apache Nutch גרסה 1.15. תוכנת הפלאגין ליצירת אינדקס כוללת את הגרסה הזו של Nutch. ‫Java JRE 1.8 מותקן במחשב שבו יופעל הפלאגין של כלי יצירת האינדקסים
סוגי מסמכים של Apache Tika	Apache Tika 1.18 supported document formats

פריסת הפלאגין ליצירת אינדקס

בשלבים הבאים מוסבר איך להתקין את הפלאגין ליצירת אינדקס ואיך להגדיר את הרכיבים שלו כדי לסרוק כתובות אתרים ולהחזיר תוצאות ל-Cloud Search.

דרישות מוקדמות

לפני שמפעילים את פלאגין יצירת האינדקס, אוספים את המידע שנדרש לחיבור בין Cloud Search לבין מקור הנתונים:

מפתח פרטי של Google Workspace (שכולל את מזהה חשבון השירות). מידע על קבלת מפתח פרטי זמין במאמר בנושא הגדרת גישה ל-Cloud Search API.
מזהה מקור הנתונים של Google Workspace. מידע על קבלת מזהה של מקור נתונים זמין במאמר הוספת מקור נתונים לחיפוש.

שלב 1: בנייה והתקנה של תוכנת הפלאגין ו-Apache Nutch

משכפלים את מאגר התוסף של כלי יצירת האינדקס מ-GitHub.

$ git clone https://github.com/google-cloudsearch/apache-nutch-indexer-plugin.git
$ cd apache-nutch-indexer-plugin

בודקים את הגרסה של תוסף יצירת האינדקס שרוצים:
```
$ git checkout tags/v1-0.0.5
```
יוצרים את הפלאגין של יצירת האינדקס.
```
$ mvn package
```
כדי לדלג על בדיקות כשיוצרים את הפלאגין, משתמשים בפקודה mvn package -DskipTests.
מורידים את Apache Nutch 1.15 ופועלים לפי ההוראות להתקנה של Apache Nutch.
חלץ את target/google-cloudsearch-apache-nutch-indexer-plugin-v1.0.0.5.zip לתיקייה. מעתיקים את התיקייה plugins/indexer-google-cloudsearch לתיקייה plugins של Apache Nutch‏ (apache-nutch-1.15/plugins).

שלב 2: הגדרת הפלאגין של יצירת האינדקס

כדי להגדיר את הפלאגין, יוצרים קובץ בשם plugin-configuration.properties. כדי לגשת למקור הנתונים של Cloud Search, צריך לציין בקובץ ההגדרות את הפרמטרים הבאים.

הגדרה	פרמטר
מזהה מקור הנתונים	‫`api.sourceId = 1234567890abcdef` חובה. מזהה המקור של Cloud Search שהאדמין ב-Google Workspace הגדיר לתוסף של כלי יצירת האינדקס.
חשבון שירות	‫`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` חובה. קובץ מפתח של חשבון שירות Cloud Search שהאדמין ב-Google Workspace יצר כדי לאפשר גישה לתוסף של כלי יצירת האינדקס.

בדוגמה הבאה מוצג קובץ הגדרה לדוגמה:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

קובץ התצורה יכול להכיל גם פרמטרים ששולטים בהתנהגות של התוסף, כמו האופן שבו התוסף דוחף נתונים ל-Cloud Search API, והאופן שבו הוא מאכלס מטא-נתונים ונתונים מובְנים. תיאורים של הפרמטרים האלה מופיעים במאמר פרמטרים של מחברים שסופקו על ידי Google.

שלב 3: הגדרה של Apache Nutch

פותחים את conf/nutch-site.xml ומוסיפים את הפרמטרים הבאים:

הגדרה פרמטר

התוסף כולל

plugin.includes = text

חובה. רשימת יישומי הפלאגין לשימוש. היא צריכה לכלול לפחות את הפרטים הבאים:

index-basic
index-more
indexer-google-cloudsearch

‫conf/nutch-default.xml מספק ערך ברירת מחדל, אבל צריך להוסיף אליו את indexer-google-cloudsearch באופן ידני.

שמות של מטא תגים

metatags.names = text

אופציונלי. רשימה מופרדת בפסיקים של תגים שממופים למאפיינים בסכימה של מקור הנתונים המתאים. מידע נוסף זמין במאמר בנושא Nutch-parse metatags.

בדוגמה הבאה אפשר לראות את השינוי הנדרש ב-nutch-site.xml:

<property>
  <name>plugin.includes</name>
  <value>protocol-(http|httpclient)|urlfilter-regex|index-(basic|more|metadata)|query-(basic|site|url|lang)|indexer-google-cloudsearch|nutch-extensionpoints|parse-(text|html|msexcel|msword|mspowerpoint|pdf|metatags)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|parse-(html|tika|metatags)|index-(basic|anchor|more|metadata)</value>
</property>

פותחים את conf/index-writers.xml ומוסיפים את הקטע הבא:

<writer id="indexer_google_cloud_search_1" class="org.apache.nutch.indexwriter.gcs.GoogleCloudSearchIndexWriter">
  <parameters>
    <param name="gcs.config.file" value="path/to/sdk-configuration.properties"/>
  </parameters>
  <mapping>
    <copy />
    <rename />
    <remove />
  </mapping>
</writer>

הקטע <writer> מכיל את הפרמטרים הבאים:

הגדרה פרמטר

נתיב לקובץ התצורה של Cloud Search

gcs.config.file = path

חובה. הנתיב המלא (המוחלט) לקובץ התצורה של Cloud Search.

פורמט ההעלאה

gcs.uploadFormat = text

אופציונלי. הפורמט שבו התוסף משתמש כדי לשלוח את תוכן המסמך אל Cloud Search API. הערכים החוקיים כוללים:

‫raw: דחיפה של תוכן מקורי שלא עבר המרה.
‫text: דחיפה של תוכן טקסטואלי שחולץ. ערך ברירת המחדל הוא raw.

שלב 4: הגדרת סריקת אתרים

לפני שמתחילים בסריקת אתרים, צריך להגדיר אותה כך שתכלול רק מידע שהארגון רוצה להפוך לזמין. מידע נוסף זמין במדריך Nutch.

מגדירים כתובות URL להתחלה.

כתובות URL להתחלה קובעות איפה סורק האינטרנט מתחיל לסרוק את התוכן שלכם. הסורק צריך להיות מסוגל להגיע לכל התוכן שרוצים לכלול באמצעות מעקב אחרי הקישורים.

כדי להגדיר כתובות URL להתחלה:
1. עוברים לספריית ההתקנה של Nutch:
```
$ cd ~/nutch/apache-nutch-X.Y/
```
2. יוצרים ספרייה לכתובות URL:
```
$ mkdir urls
```
3. יוצרים קובץ בשם seed.txt ומזינים כתובת URL אחת בכל שורה.
הגדרת כללים למעקב ולביטול מעקב.

כללים של כתובות URL קובעים אילו כתובות URL יתווספו לאינדקס על ידי הסורק. כללי do-not-follow מחריגים כתובות URL מסריקה.

כדי להגדיר את הכללים האלה:
1. עוברים לספריית ההתקנה של Nutch.
2. עריכה של conf/regex-urlfilter.txt:
```
$ nano conf/regex-urlfilter.txt
```
3. מזינים ביטויים רגולריים עם הקידומת '+' או '-':
```
# skip file extensions
-\.(gif|GIF|jpg|JPG|png|PNG|ico)

# skip protocols (file: ftp: and mailto:)
-^(file|ftp|mailto):

# allow urls starting with https://support.google.com/gsa/
+^https://support.google.com/gsa/

# accept anything else
#+.
```

עריכת סקריפט הסריקה.

אם הפרמטר gcs.uploadFormat חסר או מוגדר כ-raw, צריך להוסיף ארגומנטים -addBinaryContent -base64 לפקודה nutch index. הארגומנטים האלה אומרים למודול Nutch Indexer לכלול תוכן בינארי ב-Base64.

פותחים את הסקריפט crawl ב-apache-nutch-1.15/bin.

מוסיפים את האפשרויות כמו בדוגמה הזו:

      if $INDEXFLAG; then
          echo "Indexing $SEGMENT to index"
          __bin_nutch index $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb -addBinaryContent -base64 -linkdb "$CRAWL_PATH"/linkdb "$CRAWL_PATH"/segments/$SEGMENT

          echo "Cleaning up index if possible"
          __bin_nutch clean $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb
      else
          echo "Skipping indexing ..."

שלב 5: מתחילים סריקת אינטרנט והעלאת תוכן

אחרי שמגדירים את הפלאגין של כלי היצירה, אפשר להפעיל פתרונות חכמים במצב מקומי. משתמשים בסקריפטים מ-./bin כדי להריץ משימת סריקה.

בדוגמה הבאה נניח שהרכיבים נמצאים בספרייה המקומית. מריצים את Nutch מהספרייה apache-nutch-1.15:

$ bin/crawl -i -s urls/ crawl-test/ 5

יומני הסריקה זמינים בטרמינל או בספרייה logs/. כדי להפנות את פלט הרישום, עורכים את conf/log4j.properties.