Нойзелаб

Об этом документе

Прочитав этот документ, вы:

  • Поймите, какие стратегии следует создать, прежде чем создавать сводные отчеты.
  • Познакомьтесь с Noise Lab — инструментом, который помогает понять влияние различных параметров шума и позволяет быстро исследовать и оценивать различные стратегии управления шумом.
Скриншот Лаборатории шума
Шумовая лаборатория

Поделитесь своим отзывом

Хотя в этом документе обобщаются некоторые принципы работы со сводными отчетами, существует множество подходов к управлению шумом, которые здесь не отражены. Ваши предложения, дополнения и вопросы приветствуются!

Прежде чем начать

  1. Прочтите «Отчетность по атрибуции: сводные отчеты» и полный обзор системы «Отчеты по атрибуции» для ознакомления.
  2. Просмотрите разделы «Понимание шума» и «Понимание ключей агрегирования», чтобы максимально эффективно использовать это руководство.

Дизайнерские решения

Основной принцип проектирования

Существуют фундаментальные различия между тем, как работают сторонние файлы cookie и сводные отчеты. Одним из ключевых отличий является шум, добавляемый к данным измерений в сводных отчетах. Другой вопрос заключается в том, как планируются отчеты.

Чтобы получить доступ к данным измерений сводных отчетов с более высоким соотношением сигнал/шум, платформам спроса (DSP) и поставщикам измерения рекламы необходимо будет работать со своими рекламодателями над разработкой стратегий управления шумом. Чтобы разработать эти стратегии, DSP и поставщики измерений должны принять проектные решения. Эти решения вращаются вокруг одной важной концепции:

Хотя значения распределения шума получены, абсолютно говоря, зависят только от двух параметров — эпсилон и бюджета вклада — в вашем распоряжении есть ряд других элементов управления, которые будут влиять на соотношение сигнал/шум ваших выходных данных измерений.

Хотя мы ожидаем, что итерационный процесс приведет к лучшим решениям, каждый вариант этих решений приведет к немного другой реализации — поэтому эти решения должны приниматься перед написанием каждой итерации кода (и перед запуском рекламы).

Решение: Детализация измерения

Попробуйте это в Noise Lab

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите данные о ваших конверсиях.
  3. Соблюдайте параметры по умолчанию. По умолчанию общее количество конверсий, связанных с атрибуцией, в день составляет 1000. В среднем это составляет примерно 40 на сегмент, если вы используете настройки по умолчанию (параметры по умолчанию, количество возможных различных значений по умолчанию для каждого параметра, ключевая стратегия A). Обратите внимание, что во входном параметре «Среднее ежедневное количество атрибутивных конверсий» на PER BUCKET указано значение 40.
  4. Нажмите «Имитировать», чтобы запустить моделирование с параметрами по умолчанию.
  5. На боковой панели «Параметры» найдите «Размеры». Переименуйте «Географию» в «Город» и измените количество возможных значений на 50.
  6. Посмотрите, как это изменит Среднее ежедневное количество конверсий на ВЕДРО. Сейчас он намного ниже. Это связано с тем, что если вы увеличиваете количество возможных значений в этом измерении, не меняя ничего другого, вы увеличиваете общее количество сегментов, не изменяя при этом количество событий-конверсий, попадающих в каждый сегмент.
  7. Нажмите «Имитировать».
  8. Наблюдайте за коэффициентами шума полученной симуляции: коэффициенты шума теперь выше, чем для предыдущей симуляции.

Учитывая основной принцип проектирования , небольшие суммарные значения, вероятно, будут более зашумленными, чем большие суммарные значения. Таким образом, выбор конфигурации влияет на то, сколько атрибутированных событий-конверсий попадает в каждый сегмент (иначе называемый ключом агрегирования), и это количество влияет на шум в окончательных сводных отчетах.

Одним из проектных решений, которое влияет на количество событий-конверсий с атрибутами в одном сегменте, является детализация измерения. Рассмотрим следующие примеры ключей агрегации и их размерностей:

  • Подход 1: одна ключевая структура с грубыми размерами: Страна x Рекламная кампания (или самый большой сегмент агрегирования кампаний) x Тип продукта (из 10 возможных типов продукта).
  • Подход 2: одна ключевая структура с детализированными параметрами: город x идентификатор креатива x продукт (из 100 возможных продуктов).

«Город» — более детальное измерение, чем «Страна» ; Creative ID более детализирован, чем Campaign ; и Product более детализирован, чем Product type . Таким образом, подход 2 будет иметь меньшее количество событий (конверсий) на сегмент (= на ключ) в сводном отчете, чем подход 1. Учитывая, что шум, добавляемый к выходным данным, не зависит от количества событий в сегменте, измерение При использовании подхода 2 данные в сводных отчетах будут более зашумленными. Для каждого рекламодателя экспериментируйте с различными компромиссными вариантами детализации в конструкции ключа, чтобы получить максимальную полезность результатов.

Решение: Ключевые структуры

Попробуйте это в Noise Lab

В простом режиме используется структура ключей по умолчанию. В расширенном режиме вы можете экспериментировать с различными структурами клавиш. Включены некоторые примеры размеров; вы также можете изменить их.

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите «Ключевая стратегия». Обратите внимание, что стратегия по умолчанию, названная в инструменте A, использует одну детализированную структуру ключей, включающую все измерения: география x идентификатор кампании x категория продукта.
  3. Нажмите «Имитировать».
  4. Наблюдайте за коэффициентами шума полученной симуляции.
  5. Измените стратегию ключей на B. При этом отобразятся дополнительные элементы управления, позволяющие настроить структуру ключей.
  6. Настройте структуру ключей, например, следующим образом:
    1. Количество ключевых структур: 2
    2. Ключевая структура 1 = География x Категория продукта.
    3. Ключевая структура 2 = идентификатор кампании x категория продукта.
  7. Нажмите «Имитировать».
  8. Обратите внимание, что теперь вы получаете два сводных отчета для каждого типа цели измерения (два для количества покупок, два для стоимости покупки), учитывая, что вы используете две разные ключевые структуры. Соблюдайте их коэффициент шума.
  9. Вы также можете попробовать это со своими собственными размерами. Для этого найдите Данные, которые вы хотите отслеживать: Измерения. Рассмотрите возможность удаления измерений из примера и создания собственных с помощью кнопок «Добавить/Удалить/Сбросить» под последним измерением.

Еще одно проектное решение, которое повлияет на количество атрибутированных событий-конверсий в одном сегменте, — это ключевые структуры, которые вы решите использовать. Рассмотрим следующие примеры ключей агрегирования:

  • Одна ключевая структура со всеми размерами; назовем эту Ключевую Стратегию А.
  • Две ключевые структуры, каждая из которых имеет подмножество измерений; назовем это Ключевой стратегией Б.
Диаграмма:

Стратегия А проще, но вам может потребоваться свести (суммировать) зашумленные сводные значения, включенные в сводные отчеты, чтобы получить доступ к определенной информации. Суммируя эти значения, вы также суммируете шум. При использовании стратегии Б сводные значения, представленные в сводных отчетах, уже могут предоставить вам необходимую информацию. Это означает, что стратегия B, скорее всего, приведет к лучшим отношениям сигнал/шум, чем стратегия A. Однако шум уже может быть приемлемым для стратегии A, поэтому вы все равно можете решить отдать предпочтение стратегии A из соображений простоты. Узнайте больше в подробном примере, описывающем эти две стратегии .

Управление ключами — это глубокая тема. Можно рассмотреть ряд сложных методов для улучшения отношения сигнал/шум. Один из них описан в разделе «Расширенное управление ключами» .

Решение: частота дозирования

Попробуйте это в Noise Lab

  1. Перейдите в простой режим (или расширенный режим — оба режима работают одинаково, когда дело касается частоты пакетной обработки)
  2. На боковой панели «Параметры» найдите «Ваша стратегия агрегирования» > «Частота пакетной обработки». Это относится к частоте пакетной обработки агрегированных отчетов, которые обрабатываются службой агрегирования за одно задание.
  3. Соблюдайте частоту дозирования по умолчанию: по умолчанию моделируется ежедневная частота дозирования.
  4. Нажмите «Имитировать».
  5. Наблюдайте за коэффициентами шума полученной симуляции.
  6. Измените частоту дозирования на еженедельную.
  7. Наблюдайте за коэффициентами шума полученной симуляции: коэффициенты шума теперь ниже (лучше), чем в предыдущей симуляции.

Еще одно проектное решение, которое повлияет на количество атрибутированных событий-конверсий в одном сегменте, — это частота пакетной обработки, которую вы решите использовать. Частота пакетной обработки – это частота обработки агрегированных отчетов.

Отчет, агрегирование которого запланировано чаще (например, каждый час), будет содержать меньше событий конверсии, чем тот же отчет с менее частым графиком агрегирования (например, каждую неделю). В результате почасовой отчет будет содержать больше шума. В него будет включено меньше событий конверсий, чем в тот же отчет с менее частым графиком агрегирования (например, каждую неделю). В результате ежечасный отчет будет иметь более низкое соотношение сигнал/шум, чем еженедельный отчет, при прочих равных условиях. Поэкспериментируйте с требованиями к передаче сообщений на различных частотах и ​​оцените соотношение сигнал/шум для каждой из них.

Узнайте больше в разделе «Пакетирование и агрегирование» за более длительные периоды времени .

Решение: переменные кампании, влияющие на атрибутивные конверсии.

Попробуйте это в Noise Lab

Хотя это может быть трудно предсказать и может иметь значительные различия в дополнение к сезонным эффектам, попробуйте оценить количество ежедневных атрибутивных конверсий с одним касанием в ближайшей степени 10: 10, 100, 1000 или 10 000.

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите данные о ваших конверсиях.
  3. Соблюдайте параметры по умолчанию. По умолчанию общее количество конверсий, связанных с атрибуцией, в день составляет 1000. В среднем это составляет примерно 40 на сегмент, если вы используете настройки по умолчанию (параметры по умолчанию, количество возможных различных значений по умолчанию для каждого параметра, ключевая стратегия A). Обратите внимание, что во входном параметре «Среднее ежедневное количество атрибутивных конверсий» на PER BUCKET указано значение 40.
  4. Нажмите «Имитировать», чтобы запустить моделирование с параметрами по умолчанию.
  5. Наблюдайте за коэффициентами шума полученной симуляции.
  6. Теперь установите для параметра TOTAL число конверсий, связанных с атрибуцией за день, значение 100. Обратите внимание, что это снижает значение Среднее количество конверсий, связанных с атрибуцией за день, НА ВЕДРО.
  7. Нажмите «Имитировать».
  8. Обратите внимание, что коэффициенты шума теперь выше: это связано с тем, что когда у вас меньше конверсий на сегмент, для обеспечения конфиденциальности применяется больше шума.

Важным различием является общее количество возможных конверсий рекламодателя и общее количество возможных конверсий с атрибуцией . Именно последнее в конечном итоге влияет на шум в сводных отчетах. Атрибутированные конверсии – это подмножество общих конверсий, которые зависят от переменных кампании, таких как рекламный бюджет и таргетинг рекламы. Например, при прочих равных условиях вы ожидаете большего количества атрибутивных конверсий для рекламной кампании стоимостью 10 миллионов долларов по сравнению с рекламной кампанией стоимостью 10 тысяч долларов.

Что следует учитывать:

  • Оценивайте конверсии с атрибуцией с помощью модели атрибуции одним касанием на том же устройстве, поскольку они входят в сферу сводных отчетов, собираемых с помощью API отчетов по атрибуции.
  • Учитывайте количество наихудших и лучших сценариев для атрибутивных конверсий. Например, при прочих равных условиях рассмотрите минимальный и максимально возможный бюджет кампании для рекламодателя, а затем спрогнозируйте соответствующие конверсии для обоих результатов в качестве входных данных для вашего моделирования.
  • Если вы планируете использовать Android Privacy Sandbox , при расчете учитывайте межплатформенные атрибутивные конверсии.

Решение: Использование масштабирования

Попробуйте это в Noise Lab

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите «Ваша стратегия агрегации» > «Масштабирование». По умолчанию установлено значение «Да».
  3. Чтобы понять положительное влияние масштабирования на коэффициент шума, сначала установите для параметра «Масштабирование» значение «Нет».
  4. Нажмите «Имитировать».
  5. Наблюдайте за коэффициентами шума полученной симуляции.
  6. Установите для параметра Масштабирование значение Да. Обратите внимание, что Noise Lab автоматически рассчитывает коэффициенты масштабирования, которые будут использоваться, с учетом диапазонов (средних и максимальных значений) целей измерения для вашего сценария. В реальной системе или исходной пробной версии вам может понадобиться реализовать собственный расчет коэффициентов масштабирования.
  7. Нажмите «Имитировать».
  8. Обратите внимание, что коэффициенты шума теперь ниже (лучше) во второй модели. Это потому, что вы используете масштабирование.

Учитывая основной принцип проектирования , добавленный шум является функцией бюджета вклада.

Таким образом, чтобы увеличить соотношение сигнал/шум, вы можете решить преобразовать значения, собранные во время события преобразования, масштабируя их по бюджету вклада (и уменьшая их масштаб после агрегирования). Используйте масштабирование для увеличения отношения сигнал/шум.

Решение: количество целей измерения и распределение бюджета конфиденциальности.

Это относится к масштабированию; обязательно прочитайте Использование масштабирования .

Попробуйте это в Noise Lab

Цель измерения – это отдельная точка данных, собранная в ходе событий-конверсий.

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите Данные, которые вы хотите отслеживать: Цели измерения. По умолчанию у вас есть две цели измерения: стоимость покупки и количество покупок.
  3. Нажмите «Имитировать», чтобы запустить моделирование с целями по умолчанию.
  4. Нажмите «Удалить». Это приведет к удалению последней цели измерения (в данном случае количества покупок).
  5. Нажмите «Имитировать».
  6. Обратите внимание, что коэффициенты шума для стоимости покупки теперь ниже (лучше) для этого второго моделирования. Это связано с тем, что у вас меньше целей измерения, поэтому ваша одна цель измерения теперь получает весь бюджет вклада.
  7. Нажмите «Сбросить». Теперь у вас снова есть две цели измерения: стоимость покупки и количество покупок. Обратите внимание, что Noise Lab автоматически рассчитывает коэффициенты масштабирования, которые будут использоваться, с учетом диапазонов (средних и максимальных значений) целей измерения для вашего сценария. По умолчанию Noise Lab распределяет бюджет поровну между целями измерения.
  8. Нажмите «Имитировать».
  9. Наблюдайте за коэффициентами шума полученной симуляции. Обратите внимание на коэффициенты масштабирования, отображаемые при моделировании.
  10. Теперь давайте настроим распределение бюджета конфиденциальности, чтобы добиться лучшего соотношения сигнал/шум.
  11. Настройте процент бюджета, назначенный для каждой цели измерения. Учитывая параметры по умолчанию, цель измерения 1, а именно стоимость покупки, имеет гораздо более широкий диапазон (от 0 до 1000), чем цель измерения 2, а именно количество покупок (от 1 до 1, т. е. всегда равно 1). Из-за этого ему требуется «больше места для масштабирования»: было бы идеально выделить больший бюджет вклада для цели измерения 1, чем для цели измерения 2, чтобы его можно было масштабировать более эффективно (см. Масштабирование) и, следовательно,
  12. Назначьте 70 % бюджета на цель измерения 1. Назначьте 30 % на цель измерения 2.
  13. Нажмите «Имитировать».
  14. Наблюдайте за коэффициентами шума полученной симуляции. Что касается покупной стоимости, коэффициенты шума теперь заметно ниже (лучше), чем в предыдущем моделировании. Что касается количества покупок, то они практически не изменились.
  15. Продолжайте корректировать распределение бюджета по показателям. Посмотрите, как это влияет на шум.

Обратите внимание, что вы можете установить свои собственные цели измерения с помощью кнопок «Добавить/Удалить/Сбросить».


Если вы измеряете одну точку данных (цель измерения) для события конверсии, например количества конверсий, эта точка данных может получить весь бюджет вклада (65536). Если вы установили несколько целей измерения для события конверсии, например количество конверсий и ценность покупки, то эти точки данных должны будут совместно использовать бюджет вклада. Это означает, что у вас меньше возможностей для расширения своих ценностей.

Следовательно, чем больше целей измерения вы преследуете, тем более низким будет соотношение сигнал/шум (более высокий уровень шума).

Еще одно решение, которое необходимо принять в отношении целей измерения, — это разделение бюджета. Если вы разделите бюджет вклада поровну на две точки данных, каждая точка данных получит бюджет 65536/2 = 32768. Это может быть или не быть оптимальным в зависимости от максимально возможного значения для каждой точки данных. Например, если вы измеряете количество покупок, максимальное значение которого равно 1, и стоимость покупки с минимальным значением 1 и максимальным значением 120, значение покупки выиграет от наличия «большего пространства» для масштабирования, т. е. , чтобы получить большую часть бюджета взносов. Вы увидите, следует ли некоторым целям измерения иметь приоритет над другими в отношении воздействия шума.

Решение: управление выбросами

Попробуйте это в Noise Lab

Цель измерения – это отдельная точка данных, собранная в ходе событий-конверсий.

  1. Перейдите в расширенный режим.
  2. На боковой панели «Параметры» найдите «Ваша стратегия агрегации» > «Масштабирование».
  3. Убедитесь, что для параметра «Масштабирование» установлено значение «Да». Обратите внимание, что Noise Lab автоматически рассчитывает используемые коэффициенты масштабирования на основе диапазонов (среднего и максимального значений), заданных вами для целей измерения.
  4. Предположим, что самая крупная когда-либо совершенная покупка составила 2000 долларов, но большинство покупок происходит в диапазоне от 10 до 120 долларов. Во-первых, давайте посмотрим, что произойдет, если мы воспользуемся буквальным подходом к масштабированию (не рекомендуется): введите 2000 долларов США в качестве максимального значения для PurchaseValue.
  5. Нажмите «Имитировать».
  6. Обратите внимание, что коэффициент шума высокий. Это связано с тем, что наш коэффициент масштабирования в настоящее время рассчитывается на основе 2000 долларов США, тогда как на самом деле стоимость большинства покупок будет значительно ниже этой суммы.
  7. Теперь давайте воспользуемся более прагматичным подходом к масштабированию. Измените максимальную стоимость покупки на 120 долларов США.
  8. Нажмите «Имитировать».
  9. Обратите внимание, что коэффициенты шума ниже (лучше) во второй модели.

Чтобы реализовать масштабирование, вы обычно рассчитываете коэффициент масштабирования на основе максимально возможного значения для данного события конверсии ( подробнее см. в этом примере ).

Однако избегайте использования буквального максимального значения для расчета этого коэффициента масштабирования, так как это ухудшит соотношение сигнал/шум. Вместо этого удалите выбросы и используйте прагматичное максимальное значение.

Управление выбросами — это глубокая тема. Можно рассмотреть ряд сложных методов для улучшения отношения сигнал/шум. Один из них описан в разделе «Расширенное управление выбросами» .

Следующие шаги

Теперь, когда вы оценили различные стратегии управления шумом для вашего варианта использования, вы готовы начать экспериментировать со сводными отчетами, собирая реальные данные измерений с помощью первоначального испытания. Ознакомьтесь с руководствами и советами по использованию API .

Приложение

Краткий обзор Noise Lab

Noise Lab помогает вам быстро оценить и сравнить стратегии управления шумом. Используйте его, чтобы:

  • Поймите основные параметры, которые могут влиять на шум, и их влияние.
  • Моделируйте влияние шума на выходные данные измерений с учетом различных проектных решений. Настраивайте параметры конструкции, пока не достигнете соотношения сигнал/шум, подходящего для вашего варианта использования.
  • Поделитесь своим мнением о полезности сводных отчетов: какие значения параметров эпсилон и шума вам подходят, какие нет? Где переломные моменты?

Воспринимайте это как подготовительный этап. Noise Lab генерирует данные измерений для моделирования результатов сводного отчета на основе ваших входных данных. Он не сохраняется и не передает никаких данных.

В Noise Lab есть два разных режима:

  1. Простой режим: изучите основы управления шумом.
  2. Расширенный режим: протестируйте различные стратегии управления шумом и оцените, какая из них обеспечивает наилучшее соотношение сигнал/шум для ваших сценариев использования.

Нажимайте на кнопки в верхнем меню, чтобы переключаться между двумя режимами ( №1 на скриншоте ниже ).

Простой режим
  • В простом режиме вы управляете параметрами (находится слева или № 2 на снимке экрана ниже ), такими как Epsilon, и смотрите, как они влияют на шум.
  • Каждый параметр имеет всплывающую подсказку (кнопка `?`). Нажмите на них, чтобы увидеть объяснение каждого параметра ( №3 на скриншоте ниже ).
  • Для начала нажмите кнопку «Имитировать» и посмотрите, как выглядит результат ( № 4 на скриншоте ниже ).
  • В разделе «Вывод» вы можете увидеть различные детали. Рядом с некоторыми элементами есть знак `?`. Потратьте время, щелкнув каждый знак `?`, чтобы увидеть объяснение различных фрагментов информации.
  • В разделе «Вывод» нажмите переключатель «Подробности», если вы хотите увидеть расширенную версию таблицы ( № 5 на снимке экрана ниже ).
  • Под каждой таблицей данных в разделе вывода есть возможность загрузить таблицу для использования в автономном режиме. Дополнительно в правом нижнем углу есть возможность скачать все таблицы данных ( #6. на скриншоте ниже )
  • Проверьте различные настройки параметров в разделе «Параметры» и нажмите «Имитировать», чтобы увидеть, как они влияют на выходные данные:
    Шум
    Интерфейс Noise Lab для простого режима.
Расширенный режим
  • В расширенном режиме у вас есть больше контроля над параметрами. Вы можете добавить собственные цели и параметры измерений ( №1 и №2 на скриншоте ниже ).
  • Прокрутите вниз раздел «Параметры» и увидите параметр «Ключевая стратегия». Это можно использовать для тестирования различных ключевых структур ( №3 на скриншоте ниже ).
    • Чтобы протестировать различные ключевые структуры, переключите ключевую стратегию на «B».
    • Введите количество различных ключевых структур, которые вы хотите использовать (по умолчанию установлено «2»).
    • Нажмите «Создать ключевые структуры».
    • Вы увидите варианты указания структур ключей, установив флажки рядом с ключами, которые вы хотите включить в каждую структуру ключей.
    • Нажмите «Имитировать», чтобы увидеть результат.
      Расширенный режим предлагает элементы управления целями измерения и отслеживаемыми параметрами, выделенными на боковой панели.
      Интерфейс Noise Lab для расширенного режима.
      Расширенный режим также является опцией ключевой стратегии в разделе «Параметры» на боковой панели.
      Интерфейс Noise Lab для расширенного режима.

Метрики шума

Основная концепция

Шум добавляется для защиты конфиденциальности отдельных пользователей.

Высокое значение шума указывает на то, что сегменты/ключи разрежены и содержат вклады от ограниченного числа чувствительных событий. Noise Lab делает это автоматически, чтобы позволить людям «прятаться в толпе» или, другими словами, защищает конфиденциальность этих ограниченных людей за счет большего количества дополнительного шума.

Низкое значение шума указывает на то, что настройка данных была спроектирована таким образом, что уже позволяет людям «прятаться в толпе». Это означает, что корзины содержат информацию от достаточного количества событий, чтобы обеспечить защиту конфиденциальности отдельных пользователей.

Это утверждение справедливо как для средней процентной ошибки (APE), так и для RMSRE_T (среднеквадратическая относительная ошибка с пороговым значением).

APE (средняя процентная ошибка)

APE — это отношение шума к сигналу, а именно истинное суммарное значение. p> Более низкие значения APE означают лучшее соотношение сигнал/шум.

Формула

Для данного сводного отчета APE рассчитывается следующим образом:

Уравнение для APE. Требуются абсолютные значения, поскольку шум может быть отрицательным.

True — истинное суммарное значение. APE — это среднее значение шума по каждому истинному сводному значению, усредненное по всем записям сводного отчета. В Noise Lab это значение затем умножается на 100, чтобы получить процент.

Плюсы и минусы

Ковши меньшего размера оказывают непропорционально большое влияние на итоговое значение APE. Это может ввести в заблуждение при оценке шума. Вот почему мы добавили еще одну метрику, RMSRE_T, призванную смягчить это ограничение APE. Подробности смотрите в примерах .

Код

Просмотрите исходный код для расчета APE.

RMSRE_T (среднеквадратическая относительная ошибка с порогом)

RMSRE_T (среднеквадратическая относительная ошибка с порогом) — еще одна мера шума.

Как интерпретировать RMSRE_T

Более низкие значения RMSRE_T означают лучшее соотношение сигнал/шум.
Например, если коэффициент шума, приемлемый для вашего варианта использования, составляет 20 %, а RMSRE_T равен 0,2, вы можете быть уверены, что уровни шума попадают в допустимый диапазон.

Формула

Для данного сводного отчета RMSRE_T рассчитывается следующим образом:

Формула
Уравнение для RMSRE_T. Требуются абсолютные значения, поскольку шум может быть отрицательным.
Плюсы и минусы

RMSRE_T немного сложнее понять, чем APE. Однако у него есть несколько преимуществ, которые делают его в некоторых случаях более подходящим, чем APE, для анализа шума в сводных отчетах:

  • RMSRE_T более стабилен. «Т» — порог. «T» используется для придания меньшего веса в расчете RMSRE_T сегментам, которые имеют меньше преобразований и, следовательно, более чувствительны к шуму из-за своего небольшого размера. При использовании T показатель не резко возрастает в сегментах с небольшим количеством конверсий. Если T равно 5, значение шума, равное 1, в сегменте с 0 конверсиями не будет отображаться как намного больше 1. Вместо этого оно будет ограничено значением 0,2, что эквивалентно 1/5, поскольку T равно до 5. Благодаря меньшему весу сегментов меньшего размера, которые, следовательно, более чувствительны к шуму, этот показатель становится более стабильным и, следовательно, упрощает сравнение двух моделей.
  • RMSRE_T позволяет легко агрегировать. Знание RMSRE_T нескольких сегментов вместе с их истинным количеством позволяет вычислить RMSRE_T их суммы. Это также позволяет оптимизировать RMSRE_T для этих объединенных значений.

Хотя для APE агрегирование возможно, формула довольно сложна, поскольку она включает в себя абсолютное значение суммы шумов Лапласа. Это усложняет оптимизацию APE.

Код

Просмотрите исходный код для расчета RMSRE_T.

Примеры

Сводный отчет с тремя сегментами:

  • ведро_1 = шум: 10, trueSummaryValue: 100
  • ведро_2 = шум: 20, trueSummaryValue: 100
  • ведро_3 = шум: 20, trueSummaryValue: 200

АПЕ = (0,1 + 0,2 + 0,1)/3 = 13%

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2 +
(20/max(5,200))^2) / 3) =  sqrt( (0.01 + 0.04 + 0.01) / 3) =  0.14 

Сводный отчет с тремя сегментами:

  • ведро_1 = шум: 10, trueSummaryValue: 100
  • ведро_2 = шум: 20, trueSummaryValue: 100
  • ведро_3 = шум: 20, trueSummaryValue: 20

АПЕ = (0,1 + 0,2 + 1) / 3 = 43%

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2 +
(20/max(5,20))^2) / 3)  =  sqrt( (0.01 + 0.04 + 1.0) / 3) =  0.59

Сводный отчет с тремя сегментами:

  • ведро_1 = шум: 10, trueSummaryValue: 100
  • ведро_2 = шум: 20, trueSummaryValue: 100
  • ведро_3 = шум: 20, trueSummaryValue: 0

APE = (0,1 + 0,2 + бесконечность) / 3 = бесконечность

RMSRE_T = sqrt( ( (10/max(5,100))^2  + (20/max(5,100))^2  +
(20/max(5,0))^2) / 3) =  sqrt( (0.01 + 0.04 + 16.0) / 3) =  2.31

Расширенное управление ключами

У DSP или компании, занимающейся измерением рекламы, могут быть тысячи рекламных клиентов по всему миру, охватывающие различные отрасли, валюты и потенциальные цены покупки. Это означает, что создание и управление одним ключом агрегирования для каждого рекламодателя, скорее всего, будет крайне непрактичным. Кроме того, будет сложно выбрать максимальную совокупную стоимость и совокупный бюджет, которые смогут ограничить влияние шума на эти тысячи рекламодателей по всему миру. Вместо этого давайте рассмотрим следующие сценарии:

Ключевая стратегия А

Поставщик рекламных технологий решает создать один ключ и управлять им для всех своих рекламных клиентов. У всех рекламодателей и во всех валютах диапазон покупок варьируется от небольших объемов дорогостоящих покупок до крупных объемов недорогих покупок. В результате получается следующий ключ:

Ключ (несколько валют)
Макс. совокупная стоимость 5 000 000
Диапазон стоимости покупки [120 - 5000000]
Ключевая стратегия Б

Поставщик рекламных технологий решает создать два ключа и управлять ими для всех своих рекламных клиентов. Они решают разделить ключи по валютам. У всех рекламодателей и во всех валютах диапазон покупок варьируется от небольших объемов дорогостоящих покупок до крупных объемов недорогих покупок. Разделяя по валютам, создают 2 ключа:

Ключ 1 (доллары США) Клавиша 2 (¥)
Макс. совокупная стоимость 40 000 долларов США 5 000 000 йен
Диапазон стоимости покупки [120 – 40 000] [15 000 - 5 000 000]

Результат ключевой стратегии B будет меньше шума, чем ключевой стратегии A, поскольку значения валют не распределены по валютам неравномерно. Например, рассмотрим, как покупки, выраженные в йенах, в сочетании с покупками, выраженными в долларах США, изменят базовые данные и, как следствие, зашумят выходные данные.

Ключевая стратегия C

Поставщик рекламных технологий решает создать четыре ключа и управлять ими для всех своих рекламных клиентов и разделить их по отрасли «Валюта x Рекламодатель»:

Ключ 1
(доллары США x рекламодатели элитных ювелирных изделий)
Ключ 2
(¥ x рекламодатели элитных ювелирных изделий)
Ключ 3
(доллары США x рекламодатели розничной торговли одеждой)
Ключ 4
(¥ x рекламодатели розничной торговли одеждой)
Макс. совокупная стоимость 40 000 долларов США 5 000 000 йен 500 долларов США 65 000 иен
Диапазон стоимости покупки [10 000 – 40 000] [1 250 000 - 5 000 000] [120 - 500] [15 000 – 65 000]

Результат ключевой стратегии C будет меньше шума, чем ключевой стратегии B, поскольку стоимость покупок рекламодателей не распределяется между рекламодателями неравномерно. Например, рассмотрим, как покупки дорогих ювелирных изделий в сочетании с покупками бейсболок изменят исходные данные и, как следствие, зашумят выходные данные.

Рассмотрите возможность создания общих максимальных совокупных значений и общих коэффициентов масштабирования для нескольких рекламодателей, чтобы уменьшить шум в выходных данных. Например, вы можете поэкспериментировать с различными стратегиями для своих рекламодателей, представленными ниже:

  • Одна стратегия, разделенная по валютам (USD, ¥, CAD и т. д.)
  • Одна стратегия, разделенная по отраслям рекламодателя (страхование, автомобили, розничная торговля и т. д.).
  • Одна стратегия, разделенная одинаковыми диапазонами стоимости покупки ([100], [1000], [10000] и т. д.

Благодаря созданию ключевых стратегий, основанных на общих чертах рекламодателей, ключами и соответствующим кодом становится легче управлять, а соотношение сигнал/шум становится выше. Поэкспериментируйте с различными стратегиями с разными общими чертами рекламодателей, чтобы выявить переломные моменты в максимизации воздействия шума по сравнению с управлением кодом.


Расширенное управление выбросами

Давайте рассмотрим сценарий для двух рекламодателей:

  • Рекламодатель А:
    • Возможная цена покупки всех продуктов на сайте рекламодателя А составляет от [120 до 1000 долларов США] в диапазоне 880 долларов США.
    • Цены покупки равномерно распределены в диапазоне 880 долларов США без отклонений за пределами двух стандартных отклонений от медианной цены покупки.
  • Рекламодатель Б:
    • Возможная цена покупки всех продуктов на сайте рекламодателя Б составляет от [120 до 1000 долларов США] в диапазоне 880 долларов США.
    • Цены закупок сильно колеблются в диапазоне 120–500 долларов США, при этом только 5% покупок приходится на диапазон 500–1000 долларов США.

Учитывая требования к бюджету вклада и методологию применения шума к конечным результатам, рекламодатель Б по умолчанию будет иметь более шумные результаты, чем рекламодатель А, поскольку у рекламодателя Б более высокая вероятность того, что выбросы повлияют на базовые расчеты.

Это можно смягчить с помощью специальной настройки ключа. Протестируйте ключевые стратегии, которые помогут управлять выбросами данных и более равномерно распределять значения покупок по диапазону покупок ключа.

Для рекламодателя Б вы можете создать два отдельных ключа, чтобы охватить два разных диапазона стоимости покупки. В этом примере рекламный техник заметил, что выбросы появляются выше стоимости покупки в 500 долларов. Попробуйте реализовать два отдельных ключа для этого рекламодателя:

  • Ключевая структура 1: ключ, который охватывает только покупки в диапазоне от 120 до 500 долларов США (охватывающий ~ 95% от общего объема покупок).
  • Ключевая структура 2: Ключ, который фиксирует только покупки на сумму более 500 долларов США (охватывает ~ 5% от общего объема покупок).

Реализация этой ключевой стратегии должна помочь рекламодателю Б лучше управлять шумом и помочь им максимизировать полезность сводных отчетов. Учитывая новые меньшие диапазоны, ключи A и B теперь должны иметь более равномерное распределение данных по каждому соответствующему ключу, чем для предыдущего одиночного ключа. Это приведет к меньшему воздействию шума на выходе каждого ключа, который для предыдущего единственного ключа.