新しく開設された
Discord コミュニティに参加して、リアルタイムのディスカッション、ユーザー同士のサポート、メリディアン チームとの直接の交流をお楽しみください。
地域レベルと全国レベルのデータ
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
メリディアンでは、地域レベルや全国レベルのデータをモデル化できます。地域レベルのデータとは、州、都市、DMA、複数の国など、相互に排他的な地理的地域に分割されているデータです。通常、これらの地域はすべて、より広い地理的地域(国など)の中にあります。国レベルのデータとは、1 つの地理的地域(通常は国全体)について提供されているデータです。全国レベルのデータは、本質的に単一地域のデータです。
地域レベルのデータには複数の利点があるため、可能な場合には使うことが推奨されます。一部を除くほとんどのメディア チャネルで地域レベルのデータが利用できる場合は、地域レベルの欠損データを全国レベルのデータで補完したうえで、地域モデルを実行することをおすすめします。欠損データの補完について詳しくは、地域レベルのモデルにおける全国レベルのメディアをご覧ください。全国モデルについて詳しくは、全国レベルのモデリングをご覧ください。
地域レベルのモデルのメリット
統計モデリングはデータのパターンに依存します。再現性のあるパターンは、全国レベルよりも地域レベルのデータで多く出現します。
地域レベルのデータには、他にも次のようなメリットがあります。
- 地域モデリングでさまざまな地域のデータがプールされるため、有効なサンプルサイズが増えます。
- 地域ごとのメディア効果のメカニズムが似ているとモデルが推定した場合は、信頼区間が狭まります。詳しくは、地域レベルの階層ベイズのメディア ミックス モデリングをご覧ください。
- 期間ごとに複数の観測値があるため、傾向や季節性といった時間効果の推定精度が高まります。
- より多くの
knots
を使って \(\mu_t\) パラメータをモデル化できます。全国レベルのデータでは、時間効果を柔軟に推定する余地が少なくなります。たとえば、全国レベルのモデルは、各期間ごとに 1 つずつノットを置くと完全に飽和状態になってしまいます。
- マーケティング支出のばらつきが大きくなります。これは、飽和(Hill 関数のパラメータ)などの非線形効果を推定するうえで重要です。
- メディア費用と交絡因子の相関関係が下がることで、交絡因子の欠落による脱落変数バイアスが軽減されます。詳しくは、地域レベルの階層ベイズのメディア ミックス モデリングのセクション 4.3 をご覧ください。
地域の選択
地域を選択する際のガイダンスは次のとおりです。
最初に、KPI の合計が最も少ない地域を除外します。小規模な地域は費用対効果への貢献度が低くなりますが、特にすべてのグループに単一の残差分散(ModelSpec
の unique_sigma_for_each_geo = False
)がある場合は、モデルの適合度に大きく影響する可能性があります。
米国の広告主様が指定マーケット エリア(DMA)を地域単位として使用している場合、おおまかなガイドラインとして、人口上位 50~100 の DMA をモデル化することをおすすめします。通常、これには KPI ユニットの大部分が含まれますが、モデルの適合度と収束に影響する可能性があるノイズの多い小規模な DMA のほとんどは除外されます。
各地域に残差分散(ModelSpec
の unique_sigma_for_each_geo =
True
)がある場合、ノイズの多い地域はモデルの適合度に与える影響が少なくなります。ただし、この方法を使用するとモデルの柔軟性が大幅に増加するため、一部のデータセットでは収束が難しくなる可能性があります。この方法で MCMC サンプリングが収束する場合は、地域の人口規模と平均残差標準偏差(sigma
パラメータ)をプロットすることをおすすめします。ほとんどの場合、かなり単調なパターンになります。そうしたパターンになっていない場合は、unique_sigma_for_each_geo = False
を設定して、地域のより小さなサブセットを使用することをおすすめします。
モデルで KPI 単位の 100% を表現するには、小さい地域を大きな地域に統合することもできます。ただし、この方法にはいくつか注意点があります。
地域レベルのモデリングには大きなメリットがありますが、地域数が比較的に少ない場合、そのメリットは小さくなります。モデリングを行う際は、地域を粗いレベルでまとめるよりも、より細かい地域単位で扱って、特に規模の小さい地域だけを除外するほうがよいでしょう。
地域データの集約方法が変わると、マーケティング ミックス モデリングの結果も変わる可能性があります。
インプレッション数や費用などのメディア マーケティング変数は、通常、地域全体で合算できます。ただし、気温などのコントロール変数は、集計が簡単ではない場合があります。
地域レベルのモデルにおける全国レベルのメディア
ほとんどのメディアが地域レベルで利用できるものの、全国レベルでしか利用できないメディアが 1 つか 2 つ場合は、全国レベルのメディアを地域レベルで代入し、地域モデルを実行することをおすすめします。簡単な代入方法の 1 つは、地域の人口が全人口に占める割合を基に、地域レベルのメディア変数を全国レベルの値から近似値を求める方法です。代入が不要になるように、正確な地域レベルのデータを用意することが望ましいですが、代入でもモデル パラメータに関する有用な情報を得ることができます。詳細については、地域レベルの階層ベイズのメディア ミックス モデリングの 4.4 をご確認ください。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-08-25 UTC。
[null,null,["最終更新日 2025-08-25 UTC。"],[[["\u003cp\u003ePrioritize modeling larger geos based on total KPI, as smaller geos have less ROI contribution and can negatively impact model fit.\u003c/p\u003e\n"],["\u003cp\u003eFor US advertisers, modeling the top 50-100 DMAs by population generally captures significant KPI units while excluding noisy smaller DMAs.\u003c/p\u003e\n"],["\u003cp\u003eWhen using national-level media in a geo-level model, impute national data to the geo-level, preferably using accurate geo-level data if available.\u003c/p\u003e\n"],["\u003cp\u003eAggregating smaller geos into larger regions can be an option to represent 100% of KPI units, but consider the potential impact on model results and interpretation.\u003c/p\u003e\n"],["\u003cp\u003eAvoid redundant national-level variables when \u003ccode\u003eknots = n_times\u003c/code\u003e by either adjusting \u003ccode\u003eknots\u003c/code\u003e or carefully selecting variables based on interpretation goals.\u003c/p\u003e\n"]]],["When selecting geos, prioritize dropping smaller geos with lower KPI contribution first, especially if using a single residual variance. For US DMAs, model the top 50-100 by population. If each geo has unique residual variance, smaller geos matter less, but convergence may be difficult. National-level media can be imputed to the geo level using population proportions. Avoid national-level controls when each time period has its own parameter, as they create redundancy.\n"],null,["# Geo-level and national-level data\n\nMeridian offers the option to model geo-level or national level-data. Geo-level\ndata is when data is broken down into mutually exclusive geographic regions such\nas states, cities, DMAs, or even multiple countries. These regions are typically\nall within a larger geographic region, such as a country. National-level data is\nwhen data is provided for a single geographic region, typically an entire\ncountry. National-level data is essentially single-geo data.\n\nGeo-level data offers several advantages and is thus recommended when\npossible. If geo-level data is available for most, but not all, media channels,\nthen we recommend imputing the national-level data at the geo-level, and running\na geo-model. For more information on imputation,\nsee [National-level media in a geo-level model](#national-imputation). For more\ninformation on the national model,\nsee [National-level modeling](/meridian/docs/basics/national-models).\n\nGeo-level model advantages\n--------------------------\n\nStatistical modeling relies on patterns in the data. Repeatable patterns\nare more common in geo-level data than national-level data.\n\nHere are some other advantages of geo-level data:\n\n- Increases the effective sample size, by pooling data across geos in geo-modeling.\n- Provides tighter credible intervals, provided the geos are similar in terms of the media impact mechanism as the model assumes. For more information, see [Geo-level Bayesian Hierarchical Media Mix\n Modeling](//research.google/pubs/geo-level-bayesian-hierarchical-media-mix-modeling/).\n- Improves estimates for time-effects (such as trend and seasonality), since there are multiple observations per time period.\n- Can support the use of more `knots` to model the \\\\(\\\\mu_t\\\\) parameter. National-level data has fewer degrees of freedom for time-effects. For example, one knot per time period completely saturates the national-level model.\n- Shows greater variability in marketing spend, which is crucial for estimating non-linear effects, like saturation (Hill function parameters).\n- Reduces omitted variable bias due to missing confounders, by reducing the correlation between media spend and confounders. See section 4.3 of [Geo-level Bayesian Hierarchical Media Mix\n Modeling](//research.google/pubs/geo-level-bayesian-hierarchical-media-mix-modeling/) for more information.\n\nGeo selection\n-------------\n\nWhen you are selecting geos, consider the following guidance:\n\n- Drop the smallest geos by total KPI first. Smaller geos have less\n contribution to ROI, yet they can still have a high influence on model fit,\n particularly when there is a single residual variance for all groups\n (`unique_sigma_for_each_geo = False` of `ModelSpec`).\n\n- For US advertisers using designated market area (DMA) as the geographical\n unit, a rough guideline is to model the top 50-100 DMAs by population size.\n This generally includes the vast majority of the KPI units, while excluding\n most of the noisier small DMAs that might impact model fit and convergence.\n\n- When each geo has its own residual variance (`unique_sigma_for_each_geo =\n True` of `ModelSpec`), noisier geos have less impact on model fit. However,\n this option can make convergence difficult for some datasets because it adds\n so much flexibility to the model. If MCMC sampling does converge under this\n option, it might be worth plotting the geo population size versus the mean\n residual standard deviation (`sigma` parameter) - in most cases, you would\n expect to see a fairly monotone pattern. If you don't see this pattern, then\n it might be better to set `unique_sigma_for_each_geo = False` and use a\n smaller subset of geos.\n\nIf you want to make sure the model represents 100% of your KPI units, you\ncan aggregate smaller geos into larger regions. However, this option comes\nwith several caveats:\n\n- Geo-level modeling provides a significant advantage, although this benefit is\n reduced when there are relatively few geos. It may be better to fit a model at a\n finer geo granularity and exclude the smallest geos, rather than aggregating\n geos to a coarser level.\n\n- Different geo aggregation grouping methods can lead to different MMM results.\n\n- Media execution variables, such as impressions or cost, can usually be\n summed across geos. However, some control variables, such as\n temperature, can be less straightforward to aggregate.\n\nNational-level media in a geo-level model\n-----------------------------------------\n\nWhen most media are available at the geo-level, but one or two are only\navailable at the national level, we recommend imputing the national-level\nmedia at a geo-level and running a geo-model. One naive imputation method is\nto approximate the geo-level media variable from its national level value,\nusing the proportion of the population in the geo relative to the total\npopulation. Although it is preferable to have accurate geo-level data so that\nimputation isn't necessary, imputation can still yield useful information\nabout the model parameters. For more information, see section 4.4 of\n[Geo-level Bayesian Hierarchical Media Mix Modeling](//research.google/pubs/geo-level-bayesian-hierarchical-media-mix-modeling/)."]]