כאן תוכלו להבין מה המשמעות של רעש, איפה הוא נוסף ואיך הוא משפיע על מאמצי המדידה.
דוחות סיכום הם תוצאה של צבירת דוחות נצברים. כשדוחות נצברים נצברים על ידי אוסף נתונים ומעובדים על ידי שירות הצבירה, רעש – כמות אקראית של נתונים – מתווסף לדוחות הסיכום שמתקבלים. אנחנו מוסיפים רעש כדי להגן על פרטיות המשתמש. המטרה של המנגנון הזה היא להגדיר מסגרת שיכולה לתמוך במדידה פרטית דיפרנציאלית.
מבוא לרעש בדוחות סיכום
הוספת רעש בדרך כלל לא נכללת כיום במדידת הביצועים של המודעות, אבל במקרים רבים הרעש שנוסף לא ישנה באופן משמעותי את האופן שבו מפרשים את התוצאות.
כדאי לחשוב על הנושא באופן הבא: האם הייתם בטוחים שתקבלו החלטה על סמך נתונים מסוימים אם הנתונים האלה לא יהיו רועשים?
לדוגמה, האם מפרסם יהיה בטוח בשינוי האסטרטגיה או התקציבים של הקמפיין שלו, על סמך העובדה שבקמפיין א' היו 15 המרות ובקמפיין ב' היו 16 המרות?
אם התשובה היא לא, הרעש הוא לא רלוונטי.
מומלץ להגדיר את השימוש ב-API כך:
- התשובה לשאלה שלמעלה היא כן.
- הרעש מנוהל בדרך שלא משפיעה באופן משמעותי על היכולת שלכם לקבל החלטה על סמך נתונים מסוימים. אפשר לעשות זאת כך: אם רוצים להשיג מספר מינימלי של המרות, מומלץ לוודא שהרעש במדד שנאסף צריך להיות נמוך מאחוז מסוים.
בחלק הזה ובהמשך נפרט את האסטרטגיות להשגת 2.
מושגי ליבה
שירות הצבירה מוסיף רעש פעם אחת לכל ערך סיכום – כלומר, פעם אחת לכל מפתח – בכל פעם שנשלחת בקשה לדוח סיכום.
ערכי ה"רעש" האלה נשלפים באופן אקראי מתוך התפלגות הסתברות ספציפית, שמפורטת בהמשך.
כל הרכיבים שמשפיעים על רעש מסתמכים על שני מושגים עיקריים.
התפלגות הרעשים (פרטים בהמשך) זהה, ללא קשר לערך הסיכום, נמוך או גבוה. לכן, ככל שערך הסיכום גבוה יותר, כך סביר להניח שתהיה פחות השפעה ביחס לערך הזה.
לדוגמה, נניח שגם ערך רכישה מצטבר כולל של 20,000 $וגם ערך רכישה מצטבר כולל של 200 $כפופים לרעש שייבחר מאותה התפלגות.
נניח שהרעש מההתפלגות הזו משתנה בערך בין -100 ל- +100.
- בערך סיכום הרכישה של 20,000$, הרעש משתנה בין 0 ל-100/20,000=0.5%.
- בערך הסיכום של רכישה בסך 200$, הרעש נע בין 0 ל-50%=100/200.
לכן, סביר להניח שלרעש תהיה השפעה נמוכה יותר על ערך הרכישה המצטבר בסך 20,000 $מאשר על הערך של 200$. באופן יחסי, סביר להניח ש-20,000$ יהיו פחות רועשים, ולכן סביר להניח שיחס אות לרעש יהיה גבוה יותר.
יש לכך כמה השלכות מעשיות חשובות המתוארות בקטע הבא. המנגנון הזה הוא חלק מעיצוב ה-API, וההשלכות המעשיות הן לטווח הארוך. הם ימשיכו למלא תפקיד חשוב כשטכנולוגיות הפרסום מתכננים ובוחנים אסטרטגיות שונות של צבירת נתונים.
הרעש נגזר מאותה התפלגות ללא קשר לערך הסיכום, אבל ההתפלגות הזו תלויה בכמה פרמטרים. טכנולוגיות פרסום יכולות לשנות את אחד מהפרמטרים האלה, epsilon, במהלך תקופת הניסיון הסופית כדי לבחון התאמות שונות של יעילות או פרטיות. עם זאת, כדאי לקחת בחשבון את היכולת לבצע התאמות של אפסילון כזמנית. נשמח לקבל ממך משוב על תרחישי השימוש שלך ועל הערכים של אפסילון שפועלים היטב.
לחברת פרסום דיגיטלי אין שליטה ישירה על הדרכים שבהן מוסיפים רעש, אבל היא יכולה להשפיע על ההשפעה של הרעש על נתוני המדידות שלה. בחלקים הבאים נתעמק באופן שבו ניתן להשפיע על רעש.
לפני שנעשה זאת, בואו נבחן מקרוב את האופן שבו מחילים את הרעש.
התקרבות: אופן השימוש ברעש
התפלגות רעשים אחת
הרעש נלקח לפי ההתפלגות הזאת עם הפרמטרים הבאים:
- ממוצע (
μ
) של 0. כלומר, ערך הרעש בעלי הסבירות הגבוהה ביותר הוא 0 (ללא רעש נוסף), ושערך הרעש צפוי להיות קטן יותר מהמקור מכיוון שהוא גדול יותר (לפעמים הערך הזה נקרא ללא הטיה). - פרמטר של טווח
b = CONTRIBUTION_BUDGET
/epsilon
.- ההגדרה של
CONTRIBUTION_BUDGET
בדפדפן. - הערך
epsilon
קבוע בשרת הצבירה.
- ההגדרה של
התרשים הבא מציג את פונקציית צפיפות ההסתברות של התפלגות לפלס עם μ=0, b = 20:
ערכי רעש אקראיים, התפלגות רעשים אחת
נניח שהודעת סיכום של בקשות טכנולוגיות פרסום מדווחת על שני מפתחות צבירה: key1 ו-key2.
בשירות הצבירה נבחרו שני ערכי רעשים x1 ו-x2, אחרי אותה התפלגות רעשים. x1 מתווסף לערך הסיכום של key1 ו-x2 נוסף לערך הסיכום של key2.
בדיאגרמות, ערכי הרעש ייצגו את הערכים הזהים. זו פישוט. במציאות, ערכי ה"רעש" ישתנו מכיוון שהם נשלפים באופן אקראי מההתפלגות.
המדד הזה ממחיש שכל ערכי ה"רעש" מגיעים מאותה ההתפלגות, והם לא תלויים בערך הסיכום שעליו הם מוחלים.
מאפיינים אחרים של רעש
המערכת מחילה רעש על כל ערך סיכום, כולל ערכים ריקים (0).
לדוגמה, גם אם ערך הסיכום האמיתי של מפתח נתון הוא 0, ערך הסיכום עם רמת הרעש שיוצג בדוח הסיכום של המפתח הזה לא יהיה 0.
מספר הרעש יכול להיות מספר חיובי או שלילי.
לדוגמה: ברכישה בסכום של 327,000 לפני רעשים, הרעש יכול להיות +6,000 או -6,000 (אלה ערכים שרירותיים לדוגמה).
מתבצעת הערכה של הרעש
חישוב סטיית התקן של הרעש
סטיית התקן של הרעש היא:
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2)
דוגמה
כשאפסילון = 10, סטיית התקן של הרעש היא:
b*sqrt(2) = (CONTRIBUTION_BUDGET / epsilon)*sqrt(2) = (65,536/10)*sqrt(2) = 9,267
איך לבצע הערכה מתי ההבדלים במדידה משמעותיים
תדעו מהי סטיית התקן של הרעש שנוספה לכל פלט ערך על ידי שירות הצבירה, ולכן אתם יכולים לקבוע ערכי סף מתאימים להשוואה כדי לקבוע אם ההבדלים שזוהו נובעים מרעש.
לדוגמה, אם הרעש שנוסף לערך הוא בערך +/- 10 (כדי להביא בחשבון את ההתאמה לעומס (scaling) וההפרש בערך בין שני קמפיינים הוא מעל 100, סביר להניח שההפרש בערך שנמדד בין כל הקמפיינים הוא לא נובע מרעש בלבד.
עניין ושיתוף משוב
אתם יכולים להשתתף ב-API הזה ולהתנסות בו.
- מומלץ לקרוא על דוחות נצברים ועל שירות הצבירה, לשאול שאלות ולשלוח משוב.
- קראו את המדריכים לדיווח על שיוך (Attribution).
- אפשר לשאול שאלות ולהצטרף לדיונים במאגר התמיכה למפתחים של ארגז החול לפרטיות.
השלבים הבאים
- כדי לראות באילו משתנים אפשר לשלוט כדי לשפר את יחס האות לרעש, עיינו במאמר עבודה עם רעש.
- מומלץ לעיין במאמר ניסויים עם עיצוב דוחות סיכום כדי לקבל עזרה בתכנון של אסטרטגיות הדיווח על צבירת נתונים.
- כדאי לנסות את מעבדת הרעש.