La especificación del modelo Meridian contiene un argumento holdout_id
(un array booleano de dimensiones \(G \times T\)) que se puede usar para especificar una muestra de datos de exclusión. Los datos de KPI de las observaciones de los datos de exclusión se ignoran durante el entrenamiento del modelo (por ejemplo, durante el muestreo posterior de MCMC) y no afectan la verosimilitud ni la densidad de probabilidades a posteriori del modelo. No obstante, los datos de medios de las observaciones de los datos de exclusión sí se usan para entrenar el modelo, ya que afectan los valores de los medios almacenados en Adstock para períodos posteriores.
La muestra de datos de exclusión se usa principalmente para calcular las métricas de bondad de ajuste fuera de la muestra, como el R cuadrado. Esto es útil para comparar diferentes especificaciones de modelos, como las fortalezas de la distribución de probabilidades a priori, siempre que cada modelo que se compare use la misma muestra de datos de exclusión. No se puede garantizar que el modelo con el mejor ajuste fuera de la muestra sea el más adecuado para la inferencia causal, pero, por lo general, se prefiere un modelo con mejor ajuste. Las especificaciones incorrectas del modelo que generan un ajuste deficiente también pueden causar sesgos en la inferencia causal.
Recomendamos usar una muestra de datos de exclusión que esté relativamente equilibrada en cuanto a ubicaciones geográficas y períodos. En otras palabras, usa una muestra de datos de exclusión que tenga aproximadamente la misma cantidad de observaciones de datos de exclusión para cada ubicación geográfica y para cada período. Si la muestra de datos de exclusión no está equilibrada, se pueden obtener muy pocas observaciones en el entrenamiento para estimar el efecto geográfico\(\tau_g\) para ciertas ubicaciones geográficas o el efecto temporal \(\mu_t\) para ciertos períodos. De forma predeterminada, Meridian no especifica una muestra de datos de exclusión. Tú debes especificar la muestra de datos de exclusión y asegurarte de que esté razonablemente equilibrada.
Evita excluir grandes fragmentos de datos contiguos en el tiempo, como al final del período del MMM, para evaluar el error de previsión en el KPI. Meridian no está diseñado para predecir el KPI, sobre todo si tiene una tendencia y una estacionalidad fuertes. En su lugar, Meridian estima el impacto causal de los medios y usa el enfoque basado en nudos para modelar la tendencia y la estacionalidad. El enfoque basado en nudos necesita datos cerca del nudo para realizar una estimación efectiva. Si se excluyen grandes fragmentos de datos contiguos en el tiempo, no habrá datos cerca de los nudos dentro del período excluido. En este caso, la distribución de la probabilidad a posteriori del nudo estará impulsada por la probabilidad a priori, lo que puede generar una previsión deficiente.
Además, Meridian se puede usar para estimar el impacto de los medios en el pasado y en el futuro, ya que supone que los parámetros del modelo que determinan el impacto son constantes a lo largo del tiempo.