ניהול אירועים בפלטפורמה של מפות Google

מחזור החיים של אירוע

הפלטפורמה של מפות Google פועלת בהתאם למסגרת לניהול אירועים ב-Google Cloud Platform.

כשיש הפסקה זמנית בשירות או פגיעה בשירות, צוות מהנדסי המוצר וצוות התמיכה בפלטפורמה של מפות Google עובדים יחד כדי לטפל באירוע ולהודיע לכם עליו.

lifecycle

זיהוי

אנחנו משתמשים בניטור פנימי ובקופסה שחורה ב-Google כדי לזהות אירועים ולהפעיל התראות למהנדסים שלנו לצורך חקירה. למידע נוסף, ראו פרק 6 במסמך Site Reliability Engineering.

אם זיהית אירוע שעדיין לא דווח בIssue Tracker, עליך לעבור אל דף היצירה של בקשת תמיכה בפלטפורמת מפות Google (במסוף Google Cloud) וליצור בקשת תמיכה חדשה.

מענה ראשוני

כש-Google מזהה אירוע, צוות התמיכה מוביל את התקשורת איתכם. בדר"כ העדכון הראשון על אירועים הוא תמציתי וכולל רק אזכור של המוצר שקשור לאירוע, לצד הסימפטומים העיקריים. הסיבה לכך היא שאנחנו מעדיפים לעדכן מהר במקום לפרט. ככל שנקבל מידע נוסף, נוסיף פרטים בעדכונים הבאים.

תשובה

ערוצי תקשורת באירועים

כדי לספק את כמות המידע המתאימה, צוות התמיכה של פלטפורמת מפות Google מציע ערוצים שונים לדיווח על אירועים, בהתאם להיקף ולחומרה של הבעיה:

לוח הבקרה הציבורי של מפות Google הוא המקום הראשון שכדאי לכם לבדוק כשאתם מזהים בעיה שמשפיעה עליכם. בלוח הבקרה מופיעים אירועים שמשפיעים על לקוחות רבים. אם אתם רואים בו אירוע, סביר להניח שהוא קשור לבעיה שלכם. כדי לציין את חומרת האירוע, הוא מסומן בלוח הבקרה של סטטוס שירותי Google בתור הפסקה זמנית בשירות, שיבוש בשירות או מידע.

קבוצת ההתראות של הפלטפורמה של מפות Google היא קבוצת Google ציבורית שבה מדווחים על כל השיבושים הנרחבים, בנוסף לעדכונים טכניים אחרים לגבי ממשקי ה-API של הפלטפורמה של מפות Google. כל חברי הקבוצה יקבלו התראה באימייל כשהפסקת השירות תזוהה לראשונה, וגם עדכונים נוספים עד שהבעיה תיפתר.

כרטיס הסטטוס של פלטפורמת מפות Google הוא הודעה מידע שמוצגת תמיד בקטע תמיכה במפות Google במסוף Cloud, ומציגה את הסטטוס הנוכחי של ממשקי ה-API והשירותים של פלטפורמת מפות Google. כשיש אירוע פעיל, תוצג הודעה עם זיהוי המוצר המושפע, וגם קישור למרכז הבקרה הציבורי של מפות Google, שבו אפשר לראות את האירועים הפעילים.

הפסקה זמנית בשירות

כלי המעקב אחרי בעיות מכיל רשימה של כל התקריות הידועות. אתם יכולים לראות את התקריות הפתוחות, לעקוב אחרי ההתקדמות שלהן על ידי הרשמה אליהן ולהוסיף תגובות כדי לעזור לצוותים שלנו בחקירה. אפשר למצוא את הקישור למעקב אחר בעיות גם במסמכי התמיכה של פלטפורמת מפות Google.

בקשות תמיכה משמשות במקרים שבהם יכול להיות שהבעיה מוגבלת רק לפרויקטים שלכם או שמשפיעה על מספר מצומצם של לקוחות. אם לא דווח על אירוע אבל הבעיה נמשכת, תוכלו לעבור אל דף היצירה של בקשת תמיכה בפלטפורמת מפות Google (במסוף Cloud) וליצור בקשת תמיכה חדשה.

חקירה

צוותים של מהנדסי מוצר הם שחוקרים את הגורמים לבעיות. פעמים רבות מהנדס Site Reliability מנהל את האירוע, אבל גם מהנדסי תוכנה או בעלי תפקידים אחרים יכולים לנהל אותו, בהתאם לסיטואציה ולמוצר. למידע נוסף, ראו פרק 12 במסמך Site Reliability Engineering.

הפחתת ההשפעה/פתרון

מבחינת Google, הבעיה נפתרת רק כשמיושמים שינויים שבביטחון רב ישימו קץ לאירוע. לדוגמה, הפתרון יכול להיות החזרה למצב קודם (roll back) בעקבות שינוי שגרם לאירוע.

במהלך האירוע, צוותי התמיכה והמוצר ינסו להפחית את ההשפעה של הבעיה. הפחתת ההשפעה היא צמצום ההשלכות או ההיקף של הבעיה, לדוגמה, על ידי הקצאת משאבים נוספים באופן זמני לשירות שחווה עומס יתר.

אם לא תימצא דרך להפחית את ההשפעה, נציגי התמיכה ינסו למצוא פתרונות זמניים ולעדכן עליהם. פתרונות זמניים הם פעולות שאפשר לבצע כדי לתת מענה לצורך, למרות שהאירוע לא נפתר. פתרון זמני יכול להיות שימוש בהגדרות שונות לקריאה ל-API כדי למנוע נתיב בעייתי של קוד.

המשך מעקב

במהלך האירוע, צוות התמיכה מספק עדכונים שוטפים. בדר"כ העדכונים כוללים:

  • מידע נוסף על האירוע, כמו הודעות שגיאה, מאפיינים שהושפעו והיקף ההשפעה.
  • הפעולות שנעשו בניסיון להפחית את ההשפעה, כולל פתרונות זמניים.
  • לוחות זמנים לתקשורת, בהתאם לאירוע.
  • שינויים בסטטוס, כמו פתרון האירוע.

הסקת מסקנות לאחר האירוע

כל אירוע מנותח פנימית ב-Google לאחר סיומו, כדי להבין את מלוא היקפו ולזהות אפשרויות לשיפור האמינות. השיפורים שמזוהים מיושמים עם המשך מעקב אחריהם. למידע נוסף על הסקת מסקנות לאחר אירועים ב-Google, ראו פרק 15 במסמך Site Reliability Engineering.

דוח אירוע

כשלאירוע יש השפעה רחבה ומשמעותית, Google מספקת דוח אירוע עם פירוט של תיאור הבעיה, ההשפעה, הגורמים, הפתרונות וצעדי המנע. כמו בשלב של הסקת המסקנות לאחר האירוע, אנחנו מקדישים תשומת לב למה שעשינו כדי להפיק לקחים מהבעיה ולשפר את האמינות. המטרה של Google בכתיבה ובפרסום דוחות של הסקת מסקנות לאחר האירועים, היא לשמור על שקיפות ולהראות את המחויבות שלנו ליצירת שירותים יציבים ללקוחות.

שאלות נפוצות

אני רוצה לקבל התראות כשיש הפסקה זמנית בשירות. מה לעשות?

  • כדי לקבל התראות על בעיות מתמשכות ולעקוב אחרי התקדמות הטיפול בתקרית בזמן אמת, תוכלו להצטרף לקבוצת ההתראות של פלטפורמת מפות Google. הקבוצה הזו גם תעזור לכם להתעדכן בהודעות על מוצרים ופלטפורמות.
  • אפשר להשתמש בקישור פיד ה-RSS או בקישור היסטוריית ה-JSON שבתחתית לוח הבקרה הציבורי של מצב המפות כדי להציג פיד של אירועים נוכחיים וקודמים. כל פרסום בלוח הבקרה יגרום לפרסום בפיד. כדי לעדכן אתכם, כל פוסט בפיד יכלול את כל ההודעות והעדכונים שקשורים לאירוע התואם בלוח הבקרה. כך לא תצטרכו לחפש בהיסטוריית הפיד כדי להבין איך הדברים מתקדמים. פידים של RSS מתפרסמים בפורמט XML. תוספים לדפדפן כמו תוסף המינוי ל-RSS (של Google) מאפשרים לכם לראות תצוגה מקדימה של תוכן הפיד ולהירשם למינוי דרך קורא ה-RSS המועדף עליכם. היסטוריית JSON היא פיד אינטרנט מסוג JSON של אירועים קודמים. מגוון ספריות תוכנה ותבניות framework לאינטרנט תומכות בסינדיקציה של תוכן באמצעות פיד JSON.

איזה סוג של מידע אפשר למצוא בדף הבית של מרכז הבקרה?

לוח הסטטוסים הציבורי של מפות Google מספק מידע על ממשקי API ושירותים שהם חלק מהפלטפורמה של מפות Google. אם יש אירוע פעיל, המידע יפורסם כאן לגבי כל ממשק API ושירות ספציפיים בפלטפורמה של מפות Google. תמיד מוצגים אינדיקטורים של סטטוס, שמייצגים את המצב הכללי של כל ממשק API ושירות, לפי אחד מהגורמים הבאים:

  • הפסקה זמנית בשירות: מערכת ייצור או שירות מושבתים. הפתרון החלופי לא זמין או לא קל להטמיע אותו.
  • הפרעה בשירות: מערכת ייצור או שירות פגומים באופן חלקי או לא פועלים כצפוי. יש פתרון עקיף.
  • מידע על השירות: מערכת ייצור או שירות פגומים באופן חלקי ו/או לא פועלים כצפוי. בדרך כלל, השירות עדיין זמין, ההשפעה קטנה ומשפיעה על מספר קטן של משתמשים.
  • זמין: השירות פועל באופן מלא ומתנהג כמצופה.

האם לוח הבקרה מעודכן בזמן אמת?

מרכז הבקרה הציבורי של סטטוס מפות Google נועד לספק סטטוס של מוצרים שזמינים באופן כללי ומכוסים בהסכם רמת השירות של פלטפורמת מפות Google, כמעט בזמן אמת. כל האירועים עוברים קודם אימות לפני פרסום, כך שיכול להיות שיהיה עיכוב קל מרגע הזיהוי הראשון שלהם. לכן, אין להשתמש בלוח הבקרה למעקב אחרי זמן פעולה תקינה.

האם אפשר להשתמש בלוח הבקרה כדי לעקוב אחרי זמן הפעולה של פלטפורמת מפות Google?

מרכז הבקרה הציבורי של סטטוס מפות Google לא מיועד למעקב אחרי סטטוס השירותים של GMP בהתאם ל הסכם רמת השירות של GMP, כי משך ההפסקות המוצג במרכז הבקרה עשוי שלא לשקף את 'זמן ההשבתה' בפועל (כפי שמוגדר בהסכם רמת השירות) בפרויקט שלכם, במיוחד במקרים של אירועים ברמת חומרה נמוכה יותר. בנוסף, משכי הזמן שמוצגים עשויים לכלול זמן נוסף לאחר שהבעיה טופלה, כדי לוודא שהתיקון פועל במלואו.

כדי לעקוב אחרי השימוש ב-API, ליצור מרכזי בקרה ולהגדיר התראות, אפשר להיכנס אל Google Maps Platform Monitoring.

מה קורה אם אירוע לא מופיע בלוח הבקרה?

לא כל הלקוחות והפרויקטים מושפעים מכל אירוע. בלוח הבקרה מוצגים רק אירועים רחבים וחמורים. אם נתקלת בבעיה שלא מופיעה בלוח הבקרה, פנה לתמיכה .

איפה אפשר למצוא מידע היסטורי על שיבושים והפסקות זמניות בשירות?

בדף היסטוריה בלוח הבקרה הציבורי של מפות Google מוצגים הפרעות ואירועי הפסקה זמנית בשירות מ-365 הימים האחרונים. אפשר ללחוץ על אירוע כדי לבדוק את הפוסטים שפורסמו עליו בזמן שהוא התרחש, וגם את דוחות האירועים שפורסמו על ידי צוות התמיכה.

מי מעדכן את לוח הסטטוסים?

צוות התמיכה הגלובלי של פלטפורמת מפות Google מנטר את הסטטוס של השירותים באמצעות סוגים רבים של אותות, ומעדכן את לוח הסטטוסים במקרה של בעיה עם השפעה נרחבת. במידת הצורך, אחרי שהאירוע ייפתר הצוות יפרסם גם דוח מפורט של ניתוח האירוע.

מה ההבדל בין 'אירוע' לבין 'הפסקה זמנית בשירות'?

למרות שהרבה פעמים משתמשים במונחים האלה כמילים נרדפות, בלוח הסטטוסים הציבורי של מפות Google ובתקשורת שלנו עם הלקוחות אנחנו משתמשים במונח 'אירוע' כדי להתייחס לכל פרק זמן של תקלה בשירות, ובמונח 'הפסקה זמנית בשירות' כדי להתייחס רק לבעיות המשמעותיות ביותר שבהן השירות לא פועל עד כדי כך שהחוויה של הלקוחות שלנו הופכת ללא יעילה.