הערות: הגדרת אתרים לחיפוש

בדף הזה נסביר איך להגדיר את הכיסוי של מנוע החיפוש באמצעות קובץ הערות XML.

  1. סקירה כללית
  2. שימוש בפורמט XML של Programmable Search
  3. שיפור הכיסוי בחיפוש
  4. מגבלות של הערות

סקירה כללית

ניהול אוסף גדול של אתרים יכול להיות משימה לא פשוטה אם אתם בונים מנוע חיפוש גדול. במקום זאת, אפשר להוסיף ולנהל אתרים רבים על ידי רישום שלהם בקובץ הערות והעלאתו. בנוסף, קובצי הערות מעניקים לך שליטה רבה יותר על הדירוג של תוצאות חיפוש.

קובץ הערות הוא פשוט רשימה של הערות. כל הערה מכילה שני רכיבים: האתר והתוויות המשויכות אליו. התווית מנחה את Programmable Search Engine איך לטפל באתר. כלומר, האם לכלול, להחריג, לקדם או להוריד את האתר בדרגה. בקובץ ההקשר מגדירים תוויות. בקובץ ההערות, אתם מתייגים אתרים עם התוויות המתאימות.

כשמתחילים לערוך את קובץ ההערות, כדאי להתחיל עם מספר קטן של הערות. קל יותר לבדוק את מנוע החיפוש ולפתור בעיות בעזרת מספר קטן של הערות. כשמשיגים את התוצאות הצפויות, מוסיפים עוד הערות בהדרגה.

ניתן להעלות את קובץ ההערות ללוח הבקרה. לפרטים על מגבלות הקבצים, אפשר לעיין בקטע מגבלות הערות.

חזרה למעלה

שימוש בפורמט XML של Programmable Search

אם אתם רוצים לנצל את כל התכונות הזמינות בקובץ התצורה של Programmable Search Engine, מומלץ להשתמש ב-XML.

הערות XML

הדוגמה הבאה היא להערות XML. קובץ ההערות הזה מורה ל-Programmable Search Engine לכלול את כל מה שנמצא ב-www.webmd.com/hw/* אבל לא לכלול את כל התוכן שמתחת ל-www.webmd.com/hw/cancer/*.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

קובץ ההערות מכיל ארבעה רכיבים בהיררכיה הבאה:

  • Annotations (רכיב בסיס)
    • Annotation
      • Label
      • Comment (אופציונלי)

חזרה למעלה

יצירת הערות חיצוניות

כדי להציג רשימת אתרים שרוצים שמנוע החיפוש יכסה, מבצעים את הפעולות הבאות:

  1. הקובץ צריך להתחיל עם רכיב הבסיס <Annotations></Annotations>.
  2. כדי ליצור הערה צריך להוסיף את התגים <Annotation></Annotation>, ואז להגדיר את המאפיין about עם תבנית ה-URL של האתר.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. משייכים את האתר למנוע החיפוש באמצעות התג <Label name=" "/>, ומציינים איך מנוע החיפוש יטפל באתר. ניתן למצוא את התוויות של מנוע החיפוש בקובץ ההקשר של מנוע החיפוש. יוצגו שתי תוויות: אחת להוספת אתרים ל-Programmable Search Engine ואחת להחרגה של אתרים ממנו. אם לא שיניתם את השם של התווית של מנוע החיפוש בקובץ ההקשר, התווית להכללה של אתרים תהיה _include_ והתווית להחרגה של אתרים תהיה _exclude_. כדי להימנע משגיאות, כדאי להעתיק ולהדביק את התוויות האלה במקום להקליד אותן ידנית.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    לאתר אחד יכולות להיות מספר תוויות שמשויכות אליו,

    אם שיניתם את שם התווית בקובץ ההקשר, חשוב לעדכן את הערכים של Label name בקובץ ההערות.

  4. כדי להוסיף עוד אתרים, צריך ליצור ולהגדיר עוד רכיב Annotation.
  5. שומרים את קובץ ה-XML.

חזרה למעלה

שיפור הכיסוי בחיפוש

Programmable Search Engine מבוסס על אינדקס Google. כלומר, דפי אינטרנט שנמצאים באינדקס Google זמינים למנוע החיפוש שלך. לעומת זאת, דפי אינטרנט שלא נסרקו על ידי Google לא יוצגו בתוצאות החיפוש. אם אתם רוצים ש-Programmable Search Engine יכלול אתרים שלא נמצאים כרגע באינדקס Google, צריך לשלוח sitemap אל Google Search Console.

Sitemap כולל רשימה של דפים באתר שלכם, וכן מידע על תדירות העדכון של דפי האינטרנט והחשיבות שלהם ביחס זה לזה. שליחת Sitemap עוזרת ל-Google לגלות את דפי האינטרנט שלך ולשפר את תזמון הסריקה. לקבלת מידע נוסף על קובצי Sitemap, ראו מרכז העזרה למנהלי אתרים ושימוש בפרוטוקול Sitemap. אם אתם מעוניינים לבנות קובצי Sitemap גדולים יותר, ראו http://www.sitemaps.org/protocol.php.

שליחת קובצי Sitemap עוזרת במיוחד אם האתר כולל:

  • תוכן דינמי
  • דפי אינטרנט שלא ניתן לגלות בקלות על ידי Googlebot (סורק האינטרנט של Google), כגון דפים עם תכונות AJAX או Flash עשירות
  • יש מעט אתרים שמקשרים אליו.

    Googlebot סורק את האינטרנט על ידי מעקב אחר קישורים מדף אחד לדף אחר, כך שאם האתר שלך אינו מקושר כראוי, לסורק קשה לגלות אותו. אם האתר שלכם חדש, סביר להניח שאין הרבה אתרים שמפנים לאתר שלכם.

  • ארכיון גדול של דפי תוכן שאין לו רשת חזקה של קישורים שונים

Google יכולה להוסיף לאינדקס רק דפים שיש לה גישה אליהם. לכן, אם אתם משתמשים בקובץ robots.txt או במטא תגים של קובצי robots בדפי האינטרנט שלכם, חשוב לוודא שהדפים האלה לא חוסמים את הסורקים.

הכיסוי המשופר לא מיידי, כי חולף זמן מה עד שהדף נסרק ונוסף לאינדקס. אבל אחרי שדפי האינטרנט נמצאים באינדקס, הם יכולים להופיע גם בחיפוש Google וגם ב-Programmable Search Engine.

חזרה למעלה

מגבלות על הערות

בטבלה הבאה מפורטות המגבלות של קובצי הערות שמועלים ל-Programmable Search Engine:

הערה: חשוב להקפיד על המגבלות; אם תחרגו מהם, ייתכן שמנוע החיפוש לא יציג תוצאות.

יחס הגבלה
גודל הקובץ (קובצי הקשר או הערות) 30KB
מספר ההערות המקסימלי למנוע חיפוש 5,000

טיפ: אם מנוע החיפוש שלכם חורג מהמגבלה של 5,000 אתרים רבים, כדאי לאחד כתובות URL בודדות לתבניות URL.

חזרה למעלה