אפשר להגדיר את Google Cloud Search כדי להחזיר תוצאות משיתופי Microsoft Windows בארגון שלכם, בנוסף לתוכן שלכם מ-Google Workspace. משתמשים במחבר של Google Cloud Search File Systems ומגדירים אותו לגשת לשיתופי Windows שצוינו. מופע של מחבר אחד יכול לתמוך במספר שיתופים של Microsoft Windows.
שיקולים חשובים
עדכונים אוטומטיים רציפים
כברירת מחדל, המחבר עוקב באופן רציף אחר נתיבי התחלה (ערכים מ-fs.src
בקובץ תצורת המחבר) כאשר המחבר מופעל. כאשר מערכת הקבצים מדווחת על שינויים בבקרות התוכן או הגישה, המחבר מופעל לסריקה מחדש של מערכת הקבצים. הסריקה מחדש יכולה להיות עמוסה במשאבים. כדי להשבית את המעקב אחרי מערכת הקבצים, צריך להגדיר את fs.monitorForUpdates
לערך false
. מצמצמים את השימוש במשאבים של המחבר באופן משמעותי, אבל משהים את הזמן שבו המחבר משקף את השינויים. מידע נוסף
בקרת גישה ל-DFS
מערכת ה-DFS מחילה בקרת גישה על הקישורים שלה, ובדרך כלל לכל קישור ל-DFS יש ACL משלו. אחד מהמנגנונים של DFS הוא Access-based Enumeration (ABE), שיכול להגביל את הקישורים של ה-DFS שמוחזרים למשתמש. משתמשים יכולים לקבל רק קבוצת משנה של קישורי DFS, או אפילו קישור אחד בלבד כש-ABE מבודד ספריות ביתיות מתארחות. כשהמחבר חוצה מערכת DFS, המחבר מכבד את רשימת ה-ACL של קישור ל-DFS ואת רשימת ה-ACL לשיתוף של היעד, ורשימת ה-ACL לשיתוף יורשת מה-ACL של DFS.
מגבלות ידועות
- מערכת קבצים: מחבר מערכות הקבצים לא תומך בכוננים ממופים ובכוננים מקומיים.
- מערכת קבצים מבוזרת: אחסון שממופה ל-UNC DFS לא פועל כראוי. חלק מרשימות ה-ACL לא נקראות בצורה נכונה.
- מחבר File Systems תומך במרחבי שמות ובקישורים של מערכת קבצים מבוזרת (DFS). עם זאת, המחבר תומך בקישורים של DFS רק במרחב שמות של DFS, ולא בתיקיות הרגילות במרחב השמות של DFS.
- לא ניתן ללחוץ על קישורים לקבצים שהוחזרו ב-cloudsearch.google.com. כמו כן, ברוב הדפדפנים אין אפשרות ללחוץ על הקישורים לקבצים שמוחזרים על ידי Query API.
דרישות המערכת
דרישות המערכת | |
---|---|
מערכת הפעלה |
|
תוכנות |
|
פרוטוקולים של מערכות קבצים |
לא נתמך: מערכות קבצים מקומיות של Windows, Sun Network File System (NFS) 2.0, Sun Network File System (NFS) 3.0 או מערכת קבצים מקומית Linux. |
פריסת המחבר
דרישות מוקדמות
לפני שפורסים את מחבר מערכות הקבצים של Cloud Search, צריך לוודא שבסביבה שלכם יש את כל הרכיבים המוקדמים הבאים:
המידע מ-Google Workspace שנדרש כדי ליצור קשרים בין Google Cloud Search לבין מקור הנתונים:
- מפתח פרטי של Google Workspace (שמכיל את מזהה חשבון השירות). מידע על קבלת מפתח פרטי מופיע במאמר הגדרת גישה ל-API ל-REST של Google Cloud Search.
- מזהה מקור נתונים ב-Google Workspace. מידע על קבלת מזהה של מקור נתונים מופיע במאמר הוספת מקור נתונים לחיפוש.
- המזהה של מקור הזהות. במאמר יצירת מקור זהות מוסבר איך מקבלים מזהה של מקור זהות. אם אתם מסנכרנים את ספריית Google Workspace עם Active Directory, צריך להגדיר את מקור הזהויות עם GCDS.
בדרך כלל האדמין בארגון שלכם ב-Google Workspace יכול לקבל את פרטי הכניסה האלה.
מוודאים שלחשבון Windows יש את ההרשאות המתאימות, כפי שמתואר בקטע הבא.
ההרשאות הנדרשות לחשבון Microsoft Windows
לחשבון Microsoft Windows שבו פועל המחבר צריכות להיות ההרשאות הנדרשות כדי לבצע את הפעולות הבאות:
- הצגת רשימה של תוכן התיקיות
- קריאת תוכן המסמכים
- קריאת המאפיינים של קבצים ותיקיות
- הרשאות קריאה (ACL) לקבצים ולתיקיות
- כתיבת הרשאות של מאפיינים בסיסיים
חברות באחת מהקבוצות הבאות מעניקה לחשבון Windows את ההרשאות המתאימות הנדרשות על ידי המחבר:
- מנהלי מערכת
- משתמשים מתקדמים
- אופרטורים של הדפסה
- אופרטורים של שרתים
שלב 1. התקנת המחבר של Google Cloud Search File Systems
מוצאים את מאגר המחברים מ-GitHub ומפתחים אותו.
כדי להשתמש ב-Git בשרת Windows:
משכפלים את המאגר:
> git clone https://github.com/google-cloudsearch/windows-filesystems-connector.git > cd windows-filesystems-connector
בדוק את הגרסה הרצויה של המחבר:
> git checkout tags/v1-0.0.3
כדי להוריד ישירות מ-GitHub:
- עוברים אל https://github.com/google-cloudsearch/windows-filesystems-connector.
- לוחצים על שכפול או הורדה הורדת קובץ ZIP.
- מחלצים את החבילה.
- עוברים לספרייה החדשה:
> cd windows-filesystems-connector
יוצרים את המחבר. אם יש צורך, מתקינים את Apache Maven.
> mvn package
כדי לדלג על הבדיקות בזמן יצירת המחבר, מריצים את
mvn package -DskipTests
במקוםmvn package
.מעתיקים את קובץ ה-ZIP של המחבר לספריית ההתקנה המקומית:
> cp target/google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip installation-dir > cd installation-dir > unzip google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip > cd google-cloudsearch-windows-filesystems-connector-v1-0.0.3
שלב 2. יצירת קובץ התצורה של המחבר
באותה ספרייה כמו התקנת המחבר, יוצרים קובץ ונותנים לו את השם
connector-config.properties
.מוסיפים פרמטרים בתור צמדי מפתח/ערך לתוכן הקובץ, כמו בדוגמה הבאה:
### File system connector configuration ### # Required parameters for Cloud Search data source and identity source access api.serviceAccountPrivateKeyFile=/path/to/file.json api.sourceId=0123456789abcde api.identitySourceId=a1b1c1234567 # Required parameters for file system access fs.src=\\\\host\\share;\\\\dfshost\\dfsnamespace;\\\\dfshost\\dfsnamespace\\link # Optional parameters for file system monitoring traverse.abortAfterExceptions=500 fs.monitorForUpdates = true fs.preserveLastAccessTime = IF_ALLOWED
תיאורים מפורטים של כל פרמטר מופיעים בחומר העזר בנושא פרמטרים של הגדרה.
(אופציונלי) מגדירים פרמטרים אחרים של המחבר לפי הצורך. מידע נוסף מופיע במאמר פרמטרים של מחברים ש-Google מספקת.
שלב 3. הפעלת רישום
- יוצרים תיקייה בשם
logs
בספרייה שמכילה את הקובץ הבינארי של המחבר. יוצרים בספרייה קובץ ASCII או UTF-8 בשם
logging.properties
שמכיל את הקובץ הבינארי של המחבר ומוסיפים את התוכן הבא:handlers = java.util.logging.ConsoleHandler,java.util.logging.FileHandler # Default log level .level = WARNING com.google.enterprise.cloudsearch.level = INFO com.google.enterprise.cloudsearch.fs.level = INFO # uncomment line below to increase logging level to enable API trace #com.google.api.client.http.level = FINE java.util.logging.ConsoleHandler.level = INFO java.util.logging.FileHandler.pattern=logs/connector-fs.%g.log java.util.logging.FileHandler.limit=10485760 java.util.logging.FileHandler.count=10 java.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter
שלב 4. (אופציונלי) הגדרת סוגי מדיה
כברירת מחדל, המחבר מנסה לזהות את סוג המדיה של כל קובץ באמצעות זיהוי סוג מדיה של JDK. ב-Microsoft Windows, JDK מסתמך על מערכת הרישום של Windows כדי לקבוע את סוגי המדיה לקבצים. אם חסר ערך במרשם, יכול להיות שסוג המדיה יהיה null עבור קבצים מסוימים.
במקרה הצורך, תוכלו לציין סוג מדיה שיחליף את כל הקישורים הקיימים או מונע סוג של מדיה null.
- בספריית המחברים, יוצרים קובץ בהצפנת Latin-1 בשם
mime-type.properties
. מזינים את סיומות הקבצים ואת סוגי המדיה התואמים שלהן, כמו בדוגמאות הבאות:
xlsx=application/vnd.openxmlformats-officedocument.spreadsheetml.sheet one=application/msonenote txt=text/plain pdf=application/pdf
שלב 5: מריצים את המחבר של File Systems
אחרי שמתקינים ומגדירים את מחבר File Systems (מערכות קבצים), כדי להפעיל אותו במכונה המארחת, מריצים פקודה כמו הדוגמה הבאה:
> java -jar google-cloudsearch-windows-filesystems-connector-v1-0.0.3.jar -Djava.util.logging.config.file=logging.properties[ -Dconfig=my.config]
יש לציין את הנתיב של קובץ התצורה אם הוא שונה מברירת המחדל (באותה ספרייה כמו הקובץ הבינארי בשם connector-config.properties
).
מאמרי עזרה על פרמטרים של הגדרות אישיות
גישה למקור נתונים
הסביבה | פרמטר |
מזהה של מקור נתונים | api.sourceId=1234567890abcdef
חובה. מזהה המקור ב-Google Cloud Search שהוגדר על ידי האדמין ב-Google Workspace. |
נתיב לקובץ המפתח הפרטי של חשבון השירות | api.serviceAccountPrivateKeyFile=./PrivateKey.json
חובה. קובץ המפתח של חשבון השירות של Google Cloud Search, לצורך נגישות של מחבר Google Cloud Search File Systems. |
המזהה של מקור הזהות | api.identitySourceId=x0987654321
חובה. המזהה של מקור הזהויות ב-Cloud Search, שהוגדר על ידי האדמין ב-Google Workspace, לסנכרון זהויות בספריות פעילות באמצעות GCDS. |
גישה למערכת קבצים
הסביבה | פרמטר |
מערכות קובצי מקור | fs.src=path1[,path2, ...]
חובה. צריך לציין מערכות קובצי מקור כמקור UNC אחד או יותר שמופרדים באמצעות התו המפריד שהוגדר באמצעות |
תו מפריד נתיב
הסביבה | פרמטר |
תו מפריד נתיב | fs.src.separator=separator-character
מפריד ברירת המחדל הוא ';'. אם נתיבי המקור מכילים נקודה ופסיק, אפשר להגדיר תו מפריד שונה, כמו פסיק (','), שלא מתנגש עם תווים בנתיבים ולא נשמר לתחביר של קובץ הנכס עצמו. אם הערך של |
התנהגות המחבר
הסביבה | פרמטר |
דומיין של Windows | fs.supportedDomain=domain
נדרשת כדי לאפשר למשתמשים שהוגדרו ב-GCDS לגשת למסמכים באמצעות Cloud Search. יש לציין כשם דומיין יחיד של NetBIOS של ה-Active Directory. |
הכללת חשבונות ב-ACLS | fs.supportedAccounts=account-1[, account-2,...]
רשימה מופרדת בפסיקים של חשבונות שצריך לכלול ברשימות ACL, גם אם הם חשבונות מובנים. ערך ברירת המחדל הוא |
החרגה של חשבונות מובנים מרשימות ACL | fs.builtinGroupPrefix=prefix
מציינים את הקידומת של חשבונות מובנים. חשבון שמתחיל בקידומת הזו נחשב לחשבון מובנה ולא ייכלל ברשימות ה-ACL. ערך ברירת המחדל הוא |
אפשר להוסיף לאינדקס קבצים ותיקיות מוסתרים | fs.crawlHiddenFiles=boolean
יש להגדיר את הערך |
אפשר להוסיף לאינדקס רישומים של תיקיות שנסרקו וספירות של מרחב שמות של DFS | fs.indexFolders=boolean
בהגדרה |
הפעלת מעקב אחר שינויים במערכת הקבצים | fs.monitorForUpdates=boolean
אם המדיניות מוגדרת לערך |
הגדרת הגודל המקסימלי של המטמון של הספריות | fs.directoryCacheSize=number-of-entries
הגודל המקסימלי של המטמון של הספרייה. המחבר משתמש במטמון כדי לזהות תיקיות נסתרות וכך להימנע מהוספה לאינדקס של קבצים ותיקיות שנמצאים בתיקיות נסתרות. ברירת המחדל היא 50,000 רשומות, שבדרך כלל צורכות זיכרון RAM בנפח של 10-15 מגה-בייט. |
שימור חותמות זמן ובקרת סריקה
הסביבה | פרמטר |
שימור חותמת הזמן של הגישה האחרונה | fs.preserveLastAccessTime=value
כאשר המחבר סורק קבצים ותיקיות, המחבר יכול לשנות את חותמת הזמן של הגישה האחרונה לקבצים ולתיקיות לזמן הסריקה. כשזמני הגישה האחרונים לא נשמרים, יכול להיות שמערכות הגיבוי והארכיון לא מעבירות קבצים ותיקיות מתאימים לאחסון משני בגלל הביקור של המחבר. כברירת מחדל, המחבר מנסה לשמור את זמן הגישה האחרונה ( ערכים אפשריים:
|
סריקה של קבצים שבוצעה אליהם גישה אחרי תאריך מסוים | fs.lastAccessedDate=YYYY-MM-DD
סריקת התוכן רק אם זמן הגישה האחרון הוא אחרי התאריך שצוין. ערך ברירת המחדל הוא יש לציין את התאריך בפורמט התאריך ISO8601: YYYY-MM-DD. לדוגמה, אם הערך הוא 2010-01-01, המחבר סורק רק תוכן שבוצעה אליו גישה אחרי תחילת 2010. אם מציינים |
סריקה של קבצים שבוצעה אליהם גישה במספר הימים האחרונים | fs.lastAccessedDays=number-of-days
סריקת התוכן רק אם זמן הגישה האחרון הוא במסגרת מספר הימים לפני היום. ערך ברירת המחדל הוא אפשר להשתמש בנכס הזה כדי לבטל את התוקף של תוכן שנוסף לאינדקס ולא ניגש אליו במשך זמן מה. לדוגמה, אפשר להגדיר לסריקת 365 תוכן רק אם התבצעה גישה אליו בשנה האחרונה. אם מציינים |
סריקה רק של קבצים ששונו לאחר תאריך מסוים | fs.lastModifiedDate=YYYY-MM-DD
סריקת התוכן רק אם מועד השינוי האחרון הוא אחרי התאריך שצוין. ערך ברירת המחדל הוא יש לציין את התאריך בפורמט התאריך ISO8601: YYYY-MM-DD. לדוגמה, אם הערך הוא 2010-01-01, המחבר סורק רק תוכן שהשתנה לאחר תחילת 2010. אם מציינים |
סריקה רק של קבצים ששונו במהלך מספר הימים האחרונים | fs.lastModifiedDays=number-of-days
יש לסרוק את התוכן רק אם מועד השינוי האחרון הוא במסגרת מספר הימים לפני היום. ערך ברירת המחדל הוא אפשר להשתמש במאפיין הזה כדי לבטל את התוקף של תוכן שנוסף לאינדקס ולא השתנה במשך זמן מה. לדוגמה, אפשר להגדיר לסריקת 365 תוכן רק אם הוא השתנה בשנה האחרונה. אם מציינים |
דילוג על בקרת הגישה לשיתוף קבצים
כברירת מחדל, המחבר שומר על תקינות בקרת הגישה כשהוא שולח רשימות של בקרת גישה (ACL) לממשק ה-API של ההוספה לאינדקס, כולל רשימות ACL בשיתוף הקבצים. עם זאת, בתצורות מסוימות, ייתכן שלמחבר אין הרשאות מספיקות לקריאת רשימת ה-ACL של השיתוף. במקרים כאלה, המחבר לא מחזיר בתוצאות חיפוש קבצים שמנוהלים על ידי אותו שיתוף קבצים.
אפשר להגדיר את המחבר כך שיתעלם מרשימת ה-ACL של השיתוף כך שהתוכן תמיד יוחזר בתוצאות החיפוש. במקרה זה, ממשק ה-API להוספה לאינדקס מקבל רשימת ACL מתירנית לחלוטין, ולא רשימת ה-ACL בפועל של השיתוף.
הסביבה | פרמטר |
דילוג על בקרת הגישה לשיתוף קבצים | fs.skipShareAccessControl=boolean
יש להגדיר את הערך |