执行探索性数据分析

收集数据后,请执行探索性数据分析 (EDA),以查找并解决任何数据质量问题。这是营销组合建模分析 (MMM) 流程中的一个关键步骤,因为它让您可以评估数据,确认数据能否准确反映营销活动、客户响应和其他相关指标。通过修正 EDA 流程中发现的问题,您可以提高模型输出的可靠性。

执行 EDA 的基本流程如下:

  1. 运行数据审核,以确定是否存在任何数据缺失或不完整的情况。
  2. 修复原始输入文件中的缺失值。
  3. 评估数据的准确性。
  4. 修正数据中的任何异常值、离群点或不准确之处。
  5. 检查 KPI、媒体和控制变量之间的相关性。

执行 EDA 的方法有很多种,因此 Meridian 并没有为此流程提供可视化图表。我们建议您根据自身需求,在下列两者之间找到适当的平衡:进行全面的精细分析,以增强信心;快速检查概要数据,以提供较不详细的数据洞见。

在制作自己的可视化图表以协助执行 EDA 时,请考虑以下准则:

  • 检查数据完整性:检查数据中是否存在缺失值。您可以创建图表来显示每个变量(渠道)的数据完整性百分比,然后调查显示为不完整的变量。

    为进一步完善 EDA,您可以创建可视化图表,按年、月、周和工作日显示观测结果的数量。查找任意时间段内观测结果意外偏低的情况。

  • 检查数据准确性:确保数据准确无误,且不存在可能导致结果偏差的异常值或离群点。通过创建可视化图表来检查准确性,包括比较每个渠道的媒体支出份额,以及检查某个渠道的趋势以发现任何异常情况。您可以将这些可视化图表与媒体策划方案进行比较,也可以与营销团队合作,帮助确定数据是否准确且足够精细。

  • 检查渠道规模:查看渠道的支出占比。 支出占比非常小的渠道可能难以准确估计, 建议将这类渠道与其他渠道组合分析。

  • 检查渠道媒体执行的可变性:媒体执行(展示次数、点击次数等)可变性较低的渠道可能难以估计。若掌握相关先验信息,不妨考虑使用自定义先验。

  • 检查变量之间的相关性:虽然不要求 KPI、媒体和控制变量之间存在相关性,但在以下使用情形中,创建可视化图表来检查相关性还是很有帮助的:

    • 衡量媒体变量与控制变量之间的相关性,看看是否存在任何意想不到的关系。这可以帮助您决定是保留还是移除任何媒体或控制变量。

    • 识别多重共线性。如果媒体变量和控制变量中的两个或更多变量彼此高度相关,就会产生多重共线性,这会导致回归模型难以计算共线变量的影响。通过在数据审核中识别多重共线性,您可以决定在模型中包含或排除哪些变量。

在确信数据准确无误且完整后,您可以使用支持的格式加载数据,然后创建模型