2023.04.08

「条件付き独立の仮定」をしっかり理解する|計量経済学の基礎

数字の羅列とグラフ

先日、効果検証入門を読んでいたところ条件付き独立の仮定(Conditional Independence Assumption, CIA)という言葉が出てきました。

重要な概念にしてはすぐに意味の分からない言葉だったので自分なりに解釈した結果を書き残します。

参考にしたのは「ほとんど無害」な計量経済学と計量経済学---ミクロデータ分析へのいざないです。前者の文献は効果検証入門においてもよく引かれていた文献ですね。

なお、後者の文献では表題の概念は「無視可能性の仮定」という呼ばれ方をしていますのでご注意を。

条件付き独立の仮定

定義

介入変数$Z_i$、外的条件(介入変数以外の結果に影響を与えるファクター)$X_i$、潜在的結果変数$Y_{0i}, Y_{1i}$について次のような関係が成り立つことを条件付き独立の仮定(無視可能性の仮定)といいます。

$${Y_{0i}, Y_{1i}} \perp Z_i \mid X_i$$

※用語の説明は一番下にまとめて載せてあります。

どういう意味があるの?

条件付き独立の仮定が満たされることで、回帰分析による効果測定を行うことができます。
逆に言うと、回帰分析による効果測定を行ったとしても、条件付き独立の仮定が満たされていなければバイアスを含んだ測定結果になってしまう可能性があるということです。

詳細な説明

数式を一見しただけではわかりにくいですが、噛み砕くと次のような説明ができます。

例えば「大学に行くと所得は増えるか?」という問題を考えてみます。

このとき、まず最初に思いつくのは次のような比較だと思います。

「大学に行った人と大学に行っていない人で所得を比較してみる」

これを単純に数式に落とし込むと次のように表せます。

$$Y_i = \beta_{1i} + \beta_{2i} Z_i + u_i$$

ここで$Y_i$は所得、$Z_i$は大学に行く($Z_i=1$)かいかない($Z_i=1$)かを表す介入変数、$u_i$が誤差項です。

そして、ここでは$\beta_{2i}$(大学に行くとどれだけ所得が増えるのか)を知りたいとします。

つまり、この式の$Z_i$について$Z_i=1,0$とした2つの式を用意し、それぞれの$Y_i$に大学に行った人と行っていない人の平均給与を入れて連立方程式を作れば$\beta_{2i}$が求まるように思えます。

しかし、この方法では正確な$\beta_{2i}$を求めることができません。

というのも、そもそも大学に行った人($Z_i=1$の人)というのはそうでない人に比べて所得を多くもらうような能力を初めから持っている人たちなのではないかという可能性を否定出来ないからです。

小難しい言い方をすると、$Z_i=1$の人たちと$Z_i=0$の人たちで潜在結果変数$Y_{0i}, Y_{1i}$に違いがあるのではないかということです。

つまり、$Z_i=1$の人たちの潜在結果変数を$Y_{0i, z=1}, Y_{1i, z=1}$とし、$Z_i=0$の人たちの潜在結果変数を$Y_{0i, z=0}, Y_{1i, z=0}$とすると、

$$Y_{0i, Z=0} \neq Y_{0i, Z=1}, Y_{1i, Z=0} \neq Y_{1i, Z=1}$$

となってしまっており、$Y_{0i}, Y_{1i}$の値が$Z_i$に依存してしまっているということです。

これでは$Z_i=1$としたときの結果の違いが本来の効果とは別の要因(比較対象の能力の差など)にも依存してしまっており、測定にバイアスが含まれてしまいます。

条件付き独立の仮定が成立するには?

ではどうすれば条件付き独立の仮定が成立するのか?

すなわち、バイアスがかからないような測定ができるのか?

これにはいろいろな方法が知られており、有名なものでは

  • 能力などが似た者同士を比較してやる
  • 変数$X_i$を追加して$Z_i$から介入の効果以外のバイアス(欠落変数バイアス)を抜いてやる(他の変数に吸収させる)。

というようなものがあるみたいです。この辺は勉強中なので、また別記事にまとめるかもしれません。

まとめ

数理科学で「仮定」とか名前の付いてるものって、当たり前の概念だけど案外わかりにくいことが多いと思うのですが私だけでしょうか?

今回の執筆にあたっては計量経済学---ミクロデータ分析へのいざないが一番わかりやすい説明をしてくれていたと思います。いろいろな文献をあたるのってやっぱり大事ですね。

用語の説明

介入変数

介入するかしないかなどを表す変数で本記事では$i$さんの介入変数を$Z_i$で表しています。例えば「大学に行くと所得が増えるか?」について議論したいときは、大学に行った人には$Z_i=1$、大学に行っていない人には$Z_i=0$を与えて比較するなどの使い方をします。

潜在的結果変数

介入変数$Z_i$について、潜在的結果変数は次のように定義されます。

$$潜在的な結果変数 =\begin{cases}Y_{1i} & (Z_i = 1)\\Y_{0i} & (Z_i =0)\end{cases}$$

例えば、「大学に行くと所得は増えるか?」について検証することを考えます。

このとき、$Y_{1i}$はある個人$i$が大学に行ったときの賃金、$Y_{0i}$は同じ個人が大学にいかなかったときの賃金を表します。

注意としては、$Y_{1i}, Y_{0i}$はある個人が大学に行ったときと行かなかったときの所得を表しているので、両方を観測するのは不可能であるということです(なので"潜在的"結果変数です)。これを「因果推論の根本問題」といいます。

profile

プロフィール画像

あすなろ

広告代理店で働いている新米エンジニアの技術ブログです。主にWeb技術で遊んでいます。日々楽しみながら学んでいくことを目標としています。

© Asunaro 2022