模型健康状况得分

Meridian 模型健康状况得分通过将六项单独的健康状况检查整合成一个介于 0 到 100 之间的指标,提供了模型完整性的统一视图。各项具体的诊断可针对特定的模型组件提供精细的数据洞见,而模型健康状况得分则能对因果推理场景下模型的健康状况进行综合衡量。如需了解底层诊断的细分数据,请参阅模型健康状况检查

解读健康状况得分

我们建议您将这些得分视为方向性数据洞见,而不是对模型质量的绝对排名。如果得分达到 90 或更高,表明模型不存在严重的统计问题,通常能作为决策的可靠依据。反之,如果得分为 70 或更低,则表示可能存在系统性错误,建议您仔细检查各项具体诊断,以查明根本原因。

需要特别注意的是,在因果推理场景下,95 分不一定优于 90 分。在此高分区间,分值的波动往往反映的是特定渠道的细微差别或数据噪声,而非可靠性的实质性差异。例如,缺少先验-后验偏移未必是一个负面信号;这可能意味着您的先验本就与实测数据高度吻合。建议您深入分析底层的健康状况结果详情,确保全面了解模型性能,并确认投资回报率 (ROI) 和贡献率等关键结果是否与您的总体业务目标一致。

了解模型健康状况得分的计算方式

健康状况得分的计算逻辑遵循严格的层级体系,其中统计有效性是得出有意义结果的前提条件。模型收敛是首要门槛。如果 MCMC 链尚未收敛,则后验估计值不可靠,模型的健康状况得分为零。

对于已收敛的模型,健康状况得分的计算方式为:对已执行的各项健康状况检查(例如拟合优度、负基准和投资回报率一致性)的组件得分 ($S_i$) 进行加权平均:

$$ \text{Model health score} = \frac{\sum w_i S_i}{\sum w_i}, $$

其中,$w_i$ 代表每项检查被赋予的权重。如需了解详情,请参阅了解各项健康状况检查的加权

每项基本健康状况检查均采用特定的数学转换,以将其诊断输出映射到 0 到 100 的分值范围。

贝叶斯后验预测 P 值 (PPP)

贝叶斯 PPP 是评估模型拟合度的基本合理性门槛。它并非一个连续的质量指标,而是作为一种二元指标,用于判定模型是否达到统计合理性的阈值。如需了解详情,请参阅贝叶斯后验预测 P 值

  • PASS(贝叶斯 PPP >= 0.05):组件得分 = 100

  • FAIL(贝叶斯 PPP < 0.05):组件得分 = 0

负基准

这项检查用于评估基准为负的后验概率 ($P_{\text{neg baseline}}$)。其评分方法遵循健康状况检查原则:概率小于 0.2 表示统计噪声可忽略不计,而概率超过 0.8 表示模型存在根本性故障。如需详细了解此项检查,请参阅负基准部分。

负基准概率经过转换后的组件得分
  • PASS(负基准概率 < 0.2):组件得分 = 100

  • REVIEW(负基准概率介于 0.20.8 之间):得分按以下公式线性插值计算:

$$ \text{Component score} = 100 \times \left(1-\frac{P_{\text{neg baseline}} - 0.2}{0.6}\right) $$
  • FAIL(负基准概率 > 0.8):组件得分 = 0

拟合优度

对于拟合优度检查,该方法采用 S 型函数将 R 平方映射到 0 到 100 的分值范围,体现了回报递减的原则。该曲线会对拟合度不佳的情况施以重罚,在中间范围(0.3 到 0.7)急剧攀升,并在 R 平方趋近 1.0 时趋于平缓。

R 平方经过 S 型转换后的组件得分

当因果推理才是真正的目标时,这种机制可防止以追求预测准确性作为提高健康状况得分的主要手段。它会淡化那些边际投入带来的微小提升(例如将估计值从 0.91 提高到 0.93),因为这样的增益未必能带来更好的因果推理洞见。

投资回报率的先验-后验偏移

投资回报率的先验-后验偏移的得分基于失败率计算得出。失败率定义为未通过的渠道数与适用渠道总数的比率,该比率随后通过一个幂转换函数进行处理。

失败率经过幂转换后的组件得分
$$ \text{Component score} = 100 \times \left(1- \text{failure rate}\right)^{0.4} $$

这样一来,系统便可容忍某些渠道中的轻微噪声,但能确保一旦失败在整个营销组合中演变为系统性问题,得分会迅速下降。

投资回报率一致性

投资回报率一致性的得分基于渠道失败率计算得出,采用与投资回报率先验-后验偏移相同的幂转换方法。这确保了极端的投资回报率值(可能表明基准估计或模型设定存在问题)能够在健康状况得分中得到体现。

了解各项健康状况检查的加权

健康状况得分遵循因果优先原则,该原则强调商业准则和因果合理性,而非单纯的原始预测能力。如果一个模型虽然能完美拟合历史数据,但违反了基本业务逻辑(例如暗示存在负基准),其得分也会很低。这样可确保模型能为决策制定提供可靠依据,而不是仅奖励高 R 平方值。赋给各项检查的权重反映了这些标准之间基于原则的层级关系。由于这些诊断的相对重要性尚无实证依据,因此预配置的值提供了一个有侧重的框架,旨在确保方向上的可靠性。建议您逐一研究各项检查,以便全面了解模型的健康状况。

健康状况检查 权重
负基准 30%
贝叶斯 PPP 30%
拟合优度(R 平方) 10%
投资回报率的先验-后验偏移 15%
投资回报率一致性 15%

了解跳过检查时的得分计算方式

为适应不同的模型配置,健康状况得分采用动态归一化机制。如果跳过某项检查,其权重会从分子和分母中一并移除。例如,如果使用了默认先验,则不会执行投资回报率一致性检查;在这种情况下,其权重将不纳入计算。剩余的权重随后会进行归一化处理,以确保无论实际执行的检查数量是多少,最终得分始终保持在 0 到 100 的分值范围内。