ホールドアウト観測(トレーニングおよびテスト用スプリット)

メリディアン モデルの仕様には、ホールドアウト サンプルの指定に使用できる holdout_id 引数(ディメンションのブール値配列 \(G \times T\))が含まれています。ホールドアウト観測の KPI データは、モデルのトレーニング中(例: MCMC による事後分布サンプリング中)は無視され、モデルの尤度や事後密度に影響しません。ホールドアウト観測のメディアデータは、その後の期間の Adstock メディア値に影響するため、モデルのトレーニングに引き続き使われます。

ホールドアウト サンプルは主に、アウトオブサンプル適合度指標(R 2 乗など)の計算に使われます。これは、事前分布の強さなどについて、異なるモデル仕様を比較する場合に便利です(比較する個々のモデルが同じホールドアウト サンプルを使っていることが前提です)。アウトオブサンプル モデルの適合度が最も高いモデルが、因果推論に最適なモデルであるとは限りませんが、通常は適合性の高いモデルが優先されます。モデル仕様が不適切な場合、モデルの適合性低下につながり、因果推論にバイアスを引き起こす可能性もあります。

地域と期間について適正なバランスが取れたホールドアウト サンプルを使うことをおすすめします。つまり、各地域のホールドアウト観測数がほぼ同じで、各期間のホールドアウト観測数もほぼ同じであるホールドアウト サンプルを使用してください。ホールドアウト サンプルのバランスが取れていないと、特定地域の地域効果\(\tau_g\) や特定期間の時間効果 \(\mu_t\) を推定するためのトレーニング観測数が不足する可能性があります。メリディアンは、デフォルトではホールドアウト サンプルを指定しません。ご自身でホールドアウト サンプルを指定し、適度なバランスが取れたサンプルであることを確認する必要があります。

MMM 時間枠の終了時などに KPI の予測誤差を評価する目的で、時間的に連続した大きなデータのチャンクを除外しないようにしてください。メリディアンは KPI を予測するように設計されておらず、特に KPI に強い傾向や季節性がある場合は予測できません。メリディアンは代わりにメディアの因果効果を推定し、ノットベースのアプローチを使って傾向と季節性をモデリングします。ノットベースのアプローチでは、ノットを効果的に推定するために、ノット付近のデータが必要になります。時間的に連続した大きなデータのチャンクが除外されると、除外期間内のノット付近のデータが存在しなくなります。この場合、ノットの事後分布が事前分布によって決定されるため、予測が不正確になる可能性があります。

またメリディアンは、過去と将来の両方のメディア効果の推定に使用できます。これは、時間が推移してもメディア効果を決定するモデル パラメータに一貫性があることがメリディアンの前提であるためです。