地理位置级数据和国家级数据

Meridian 提供了相关选项,可用于对地理位置级数据或国家级数据进行模型分析。地理位置级数据是指按互斥的地理区域(例如州、城市、特定媒体市场区域,甚至多个国家/地区)细分的数据。这些区域通常都位于较大的地理区域(例如国家/地区)内。国家级数据是指为单个地理区域(通常是整个国家/地区)提供的数据。国家级数据本质上是单一地理位置数据。

地理位置级数据具有多项优势,因此建议在可能的情况下尽量使用。如果大多数(而非全部)媒体渠道都有地理位置级数据,我们建议在地理位置级插补国家级数据,并运行地理位置级模型。如需详细了解插补,请参阅地理位置级模型中的国家级媒体。如需详细了解国家级模型,请参阅国家级建模

地理位置级模型的优势

统计建模依赖于数据中的模式。地理位置级数据比国家级数据更常出现可重复的模式。

地理位置级数据还具有以下优势:

  • 通过在地理位置级建模中汇集不同地理位置的数据来扩大有效样本规模。
  • 提供更小的可信区间,前提是就模型假设的媒体影响机制而言,各地理位置是相似的。如需了解详情,请参阅“Geo-level Bayesian Hierarchical Media Mix Modeling”(地理位置级贝叶斯分层媒体组合建模)。
  • 由于每个时间段有多个观测值,因此可以提高时间效应(例如趋势和季节性变化)估计值的准确性。
  • 可以支持使用更多 knots 将 \(\mu_t\) 形参纳入模型。国家级数据在时间效应方面的自由度较低。例如,每个时间段一个结会使国家级模型完全饱和。
  • 显示营销支出的变化幅度更大,这对于估计非线性效应(例如饱和度 [Hill 函数形参])至关重要。
  • 通过减少媒体支出与混杂变量之间的相关性,降低因缺少混杂变量而导致的遗漏变量偏差。如需了解详情,请参阅“Geo-level Bayesian Hierarchical Media Mix Modeling”(地理位置级贝叶斯分层媒体组合建模分析)的第 4.3 节。

地理位置选择

在选择地理位置时,请考虑以下指导原则:

  • 首先按总 KPI 舍弃最小的地理位置。较小的地理位置对投资回报率的贡献较小,但仍会对模型拟合产生很大影响,尤其是在所有组都存在单个残差方差时(ModelSpec 中的 unique_sigma_for_each_geo = False)。

  • 对于将特定媒体市场区域 (DMA) 作为地理单位的美国广告客户来说,大致准则是将人口规模最大的前 50-100 个 DMA 纳入到模型中。这通常能包括绝大多数 KPI 单位,同时排除了可能影响模型拟合和收敛的大多数噪声较大的小型 DMA。

  • 当每个地理位置都有自己的残差方差时(ModelSpec 中的 unique_sigma_for_each_geo = True),噪声较大的地理位置对模型拟合的影响较小。不过,此选项为模型增加了很多灵活性,因此可能会导致模型针对某些数据集难以收敛。如果在此选项下 MCMC 抽样确实收敛了,您不妨绘制地理位置人口规模与平均残差标准差(sigma 形参)的对比图,在大多数情况下,您应该会看到一个相当单调的模式。如果您没有看到这种模式,那么最好设置 unique_sigma_for_each_geo = False 并使用一些范围较小的地理位置。

如果您想确保模型能够反映您的所有 KPI 单位数,可以将较小的地理位置汇总到较大的区域。不过,采用此选项时需要注意以下几点:

  • 地理位置级建模具有显著优势,但如果地理位置相对较少,这种优势就会减弱。最好以更精细的地理位置粒度拟合模型,并排除最小的地理位置,而不是将地理位置汇总到更宽泛的级别。

  • 不同的地理位置汇总分组方法可能会导致不同的 MMM 结果。

  • 展示次数或费用等媒体执行变量通常可以跨地理位置汇总。不过,温度等控制变量可能不太容易汇总。

地理位置级模型中的国家级媒体

如果大多数媒体在地理位置级可用,但有一两个媒体仅在国家级可用,我们建议在地理位置级插补国家级媒体数据,并运行地理位置级模型。一种简单的插补方法是,利用地理位置内人口占总人口的比例,根据国家级媒体变量值粗略估计地理位置级媒体变量值。虽然最好能有准确的地理位置级数据,这样就不必进行插补,但插补仍然能提供有关模型形参的有用信息。如需了解详情,请参阅“Geo-level Bayesian Hierarchical Media Mix Modeling”(地理位置级贝叶斯分层媒体组合建模分析)的第 4.4 节。