定义以下索引变量:
- \(g=1,\ldots,G\) 用于标识各地理位置单位。
\(t=1,\ldots,T\) 用于标识各时间单位。
对于付费和自然媒体变量,可以将时间段 \(t<1\) 的数据纳入到模型输入数据中,以便根据模型准确评估早期时间段的滞后效应。如果未提供 \(t<1\) 的数据,则假设在 \(t=1\)之前没有媒体投放。
\(i=1,\ldots,N_C\) 用于标识各控制变量
\(i=1,\ldots,N_N\) 用于标识各非媒体处理变量
\(i=1,\ldots,N_M\) 用于标识没有覆盖面和频次数据的各付费媒体渠道
\(i=1,\ldots, N_{OM}\) 用于标识没有覆盖面和频次数据的各自然媒体渠道
\(i=1,\ldots,N_{RF}\) 用于标识具有覆盖面和频次数据的各付费媒体渠道
\(i=1,\ldots, N_{ORF}\) 用于标识具有覆盖面和频次数据的各自然媒体渠道
Meridian 需要两个主要数据数组作为模型输入(KPI 和付费媒体)。如果有可用的自然媒体和非媒体处理变量,也可以作为可选输入提供。对于具有覆盖面和频次数据(按地理位置和时间段提供)的付费和自然媒体渠道,可以选择使用覆盖面和频次数据,而不是单个媒体指标。您还可以选择将混杂变量或 KPI 的强预测因子作为控制变量纳入模型。最好提供收入数据(如果 KPI 不是收入)和媒体支出数据(如果媒体单位不是支出),以便在计算投资回报率时将单位转换为货币值。
| 数据 | 维度 | 模型输入:原始单位 | 模型输入:单位值 | 缩放后的单位(用于模型方程) | 价值/费用 |
|---|---|---|---|---|---|
| KPI | $$G \times T$$ | $$\overset{\cdot \cdot}{y}_{g,t}$$ | $$u^{[Y]}_{g,t}$$ | $$y_{g,t} = L^{[Y]}_{g,t} (\overset{\cdot \cdot}{y}_{g,t})$$ | $$\overset{\sim}y_{g,t} = u^{[Y]}_{g,t} \cdot \overset{\cdot \cdot}{y}_{g,t}$$ |
| 控制变量 | $$G \times T \times N_C$$ | $$\overset{\cdot \cdot}{z}_{g,t,i}$$ | $$\text{N/A}$$ | $$z_{g,t,i} = L^{[C]}_{g,i}(\overset{\cdot \cdot}{z}_{g,t,i})$$ | $$\text{N/A}$$ |
| 媒体 | $$G \times T \times N_M$$ | $$\overset{\cdot \cdot}{x}^{[M]}_{g,t,i}$$ | $$u^{[M]}_{g,t,i}$$ | $$x^{[M]}_{g,t,i} = L^{[M]}_{g,i}(\overset{\cdot \cdot}{x}^{[M]}_{g,t,i})$$ | $$\overset{\sim}x_{g,t,i}^{[M]} = u^{[M]}_{g,t,i}\cdot\overset{\cdot \cdot}{x}^{[M]}_{g,t,i}$$ |
| 覆盖面 | $$G \times T \times N_{RF}$$ | $$\overset{\cdot \cdot}{r}^{[RF]}_{g,t,i}$$ | $$u^{[RF]}_{g,t,i}$$ | $$r_{g,t,i} = L^{[RF]}_{g,i}(\overset{\cdot \cdot}{r}^{[RF]}_{g,t,i})$$ | $$\overset{\sim}r^{[RF]}_{g,t,i} = u^{[RF]}_{g,t,i} \cdot \overset{\cdot \cdot}{r}^{[RF]}_{g,t,i} \cdot f^{[RF]}_{g,t,i}$$ |
| 频次 | $$G \times T \times N_{RF}$$ | $$f^{[RF]}_{g,t,i}$$ | $$\text{N/A}$$ | ||
| 自然媒体 | $$G \times T \times N_{OM}$$ | $$\overset{\cdot \cdot}{x}^{[OM]}_{g,t,i}$$ | $$u^{[OM]}_{g,t,i}$$ | $$x^{[OM]}_{g,t,i} = L^{[OM]}_{g,i}(\overset{\cdot \cdot}{x}^{[OM]}_{g,t,i})$$ | $$\overset{\sim}x^{[OM]}_{g,t,i} = u^{[OM]}_{g,t,i}\cdot\overset{\cdot \cdot}{x}^{[OM]}_{g,t,i}$$ |
| 自然覆盖面 | $$G \times T \times N_{ORF}$$ | $$\overset{\cdot \cdot}{r}^{[ORF]}_{g,t,i}$$ | $$u^{[ORF]}_{g,t,i}$$ | $$r^{[ORF]}_{g,t,i} = L^{[ORF]}_{g,i}(\overset{\cdot \cdot}{r}^{[ORF]}_{g,t,i})$$ | $$\overset{\sim}r^{[ORF]}_{g,t,i} = u^{[ORF]}_{g,t,i} \cdot \overset{\cdot \cdot}{r}^{[ORF]}_{g,t,i} \cdot f^{[ORF]}_{g,t,i}$$ |
| 自然频次 | $$G \times T \times N_{ORF}$$ | $$f^{[ORF]}_{g,t,i}$$ | $$\text{N/A}$$ | ||
| 非媒体处理变量 | $$G \times T \times N_N$$ | $$\overset{\cdot \cdot}{x}^{[N]}_{g,t,i}$$ | $$\text{N/A}$$ | $$x^{N}_{g,t,i} = L^{N}_{g,i}(\overset{\cdot \cdot}{x}^{N}_{g,t,i})$$ | $$\text{N/A}$$ |
单位缩放由 Meridian 在内部处理。在进行层次化建模时,需要按地理位置人口规模进行缩放,以便将所有地理位置放到同一个可比较的量纲内。此外,还需要进行其他标准化,以便使用标准化的先验分布,而无需考虑每个变量的缩放比例。
将 \(p_g\) 定义为每个地理位置的人口规模,这也是一个必须由用户指定的模型输入。现将线性缩放函数总结如下:
缩放函数:KPI 单位
KPI 单位按人口规模缩放,以便将所有地理位置大致放到同一个量纲内。这样,模型形参就无需随着人口规模进行缩放。
按人口规模进行缩放后,再对 KPI 进行标准化,使其均值为 0,标准差为 1。通过中心化将均值调整为 0 之后,可以合理地为截距项(knot_values 和 tau_g)选择以 0 为中心的先验。将标准差缩放为 1 之后,可以将所有形参放到同一个量纲内,以便分配合理的默认先验。
表示法: \(L^{[Y]}_{g,t} (\cdot)\)
说明:
- 除以地理位置人口。
- 对按地理人口规模调整后的数值进行中心化和标准化,使其均值为 0,标准差为 1。
定义:
\(L^{[Y]}_{g,t} (q) = \dfrac{\dfrac{q}{p_g} - m^{[Y]}}{s^{[Y]}}\)
其中:
- \(y^\dagger_{g,t} = \dfrac{\overset {\cdot \cdot} y_{g,t}}{p_g}\)
- \(m^{[Y]} = \frac{1}{GT}\sum\limits_{g,t} y^\dagger_{g,t}\)
- \(s^{[Y]} = \sqrt{\frac{1}{GT-1} \sum\limits_{g,t} \left( y^\dagger_{g,t}-m^{[Y]} \right)^2}\)
缩放函数:控制变量
控制变量仅在其值大致与人口规模成比例时,才需要按人口规模进行缩放。Meridian 具有特定于地理位置的随机效应系数 (gamma_gc),但最好是缩放变量,而不是依赖模型拟合来获取随着人口规模进行缩放的系数。
控制变量会被标准化,使其均值为 0,标准差为 1。通过中心化将均值调整为 0 之后,可以合理地为截距项(knot_values 和 tau_g)选择以 0 为中心的先验。将标准差缩放为 1 之后,可以让系数均值 (gamma_c) 处于一个合适的量纲内,以便分配合理的非信息性默认先验。
表示法: \(L^{[C]}_{g,i} (\cdot)\)
说明:
对于某些控制变量,可能需要按人口规模进行缩放。这可以使用
control_population_scaling_id实参来处理。默认情况下,不会对任何控制变量按人口规模进行缩放。对每个控制变量进行中心化和标准化,使其均值为 0,标准差为 1。
定义:
\(L^{[C]}_{g,i}(q) = \dfrac{\dfrac{q}{p^{I^{[C]}_i}_g} - m^{[C]}}{s^{[C]}}\)
其中:
如果对变量使用
control_population_scaling_id=True,则为\(I_i^{[C]} = 1\) ;否则为 \(i;0\) 。- \(z^{\dagger}_{g,t,i} = \dfrac{\overset {\cdot \cdot} z_{g,t,i}}{p_g^{I_i^{[C]}}}\)
- \(m^{[C]} = \frac{1}{GT}\sum\limits_{g,t} z^{\dagger}_{g,t,i}\)
- \(s^{[C]} = \sqrt{\frac{1}{GT-1} \sum\limits_{g,t} \left( z^{\dagger}_{g,t,i}-m^{[C]} \right)^2}\)
缩放函数:媒体单位
媒体单位按人口规模缩放,以便将所有地理位置大致放到同一个量纲内。这样,半饱和形参 (ec_m) 就无需随着人口规模进行缩放。
然后,对于每个渠道,按非零的中位数值对媒体单位进行缩放。这样做是为了让 ec_m 形参更容易解读,也就是说,ec_m 值为 1 意味着半饱和点出现在人均非零媒体单位数的中位数处。
表示法: \(L^{[M]}_{g,i} (\cdot)\)
说明:
- 除以地理位置人口。
- 对于每个媒体渠道,将按地理人口规模调整后的数值按非零值的中位数进行缩放。
定义:
\(L^{[M]}_{g,i} (q) = \dfrac{q}{p_g d^{[M]}}\)
其中:
- \(x^{\dagger [M]}_{g,t,i} = \dfrac{\overset {\cdot \cdot} x_{g,t,i}^{[M]}}{p_g}\)
- \(d^{[M]} = \text{Median}\left( \left\{ x^{\dagger [M]}_{g,t,i}:x^{\dagger [M]}_{g,t,i} > 0 \right\}_{g,t} \right)\)
缩放函数:覆盖面
覆盖面按人口规模缩放,以便将所有地理位置大致放到同一个量纲内。Meridian 具有特定于地理位置的随机效应系数 (beta_grf),但最好是缩放变量,而不是依赖模型拟合来获取随着人口规模进行缩放的系数。
对于每个渠道,按非零的中位数值对覆盖面进行缩放,这使系数均值形参 (beta_rf) 处于标准化量纲内,以便为 beta_rf 分配合理的默认先验(当 ModelSpec.rf_prior_type 设置为 'coefficient' 时)。
表示法: \(L^{[RF]}_{g,i} (\cdot)\)
说明:
所用缩放函数与媒体单位一致。
缩放函数:自然媒体单位
所用缩放方式和理由与付费媒体单位一致。
表示法: \(L^{[OM]}_{g,i} (\cdot)\)
说明:
- 除以地理位置人口。
- 对于每个自然媒体渠道,将按地理人口规模调整后的数值按非零值的中位数进行缩放。
定义:
\(L^{[OM]}_{g,i} (q) = \dfrac{q}{p_g d^{[OM]}}\)
其中:
- \(x^{\dagger [OM]}_{g,t,i} = \dfrac{\overset {\cdot \cdot} x_{g,t,i}^{[OM]}}{p_g}\)
- \(d^{[OM]} = \text{Median}\left( \left\{ x^{\dagger [OM]}_{g,t,i}:x^{\dagger [OM]}_{g,t,i} > 0 \right\}_{g,t} \right)\)
缩放函数:自然覆盖面
所用缩放方式和理由与付费媒体覆盖面一致。
表示法: \(L^{[ORF]}_{g,i} (\cdot)\)
说明:
所用缩放函数与自然媒体单位一致。
缩放函数:非媒体处理变量
非媒体处理变量仅在其值大致与人口规模成比例时,才需要按人口规模进行缩放。Meridian 具有特定于地理位置的随机效应系数 (gamma_gn),但最好是缩放变量,而不是依赖模型拟合来获取随着人口规模进行缩放的系数。
非媒体处理变量会被标准化,使其均值为 0,标准差为 1。通过中心化将均值调整为 0 之后,可以合理地为截距项(knot_values 和 tau_g)选择以 0 为中心的先验。将标准差缩放为 1 之后,可以将系数均值形参 (gamma_n) 放到一个标准化量纲内,以便分配合理的默认先验(当 ModelSpec.non_media_treatments_prior_type 设置为 'coefficient' 时)。
表示法: \(L^{[N]}_{g,i} (\cdot)\)
说明:
对于某些非媒体处理变量,可能需要按人口规模进行缩放。这可以使用
non_media_population_scaling_id实参来处理。默认情况下,非媒体处理变量不会按人口规模进行缩放。对每个非媒体处理变量进行中心化和标准化,使其均值为 0,标准差为 1。
定义:
\(L^{[N]}_{g,i}(q) = \dfrac{\dfrac{q}{p^{I^{[N]}_i}_g} - m^{[N]}}{s^{[N]}}\)
其中:
如果对变量使用
non_media_population_scaling_id=True,则为\(I_i^{[N]} = 1\) ;否则为 \(i;0\) 。- \(X^{\dagger [N]}_{g,t,i} = \dfrac{\overset {\cdot \cdot} x_{g,t,i}}{p_g^{I_i^{[N]}}}\)
- \(m^{[N]} = \frac{1}{GT}\sum\limits_{g,t} x^{\dagger [N]}_{g,t,i}\)
- \(s^{[N]} = \sqrt{\frac{1}{GT-1} \sum\limits_{g,t} \left( x^{\dagger [N]}_{g,t,i}-m^{[N]} \right)^2}\)