これは、任意の数の予測子と省略された変数で発生することです。答えは、@ jbowman(+1)が2つの予測子(1つは除外された変数と相関し、もう1つは相関しない)に対して示したものと同様になります。私はすでにこれを書き始めているので、別のアプローチを見るのに役立つ場合に備えて投稿します。
以下の答えを要約すると、 $ X_u $ span>に、省略されたすべての変数と相関のない予測子が含まれ、 $ X_c $が含まれているとします。 span>には、少なくとも1つの省略された変数と相関する予測子が含まれています。次に、標準的な仮定の下で、 $ X_u $ span>の予測子のOLS係数は、 $ X_u $ spanの場合に限り、バイアスがかかりません。 >と $ X_c $ span>は無相関です。
セットアップ
$ y \ in \ mathbb {R} ^ n $ span>を応答のベクトルとし、 $ X \ in \ mathbb {R} ^ {n \ times p} $ span>は予測子の行列です。省略される予測子 $ Z \ in \ mathbb {R} ^ {n \ times q} $ span>もあります。予測子と応答が中央に配置されていると仮定します。したがって、切片の項は必要ありません。また、予測子は相関している可能性がありますが、完全に同一線上にあるとは限りません(これは、 $ X $ span>と $ Z $ はフルランクで、 $ n \ ge p + q $ span>)。
真のモデルは次のとおりです。
$$ y = X w + Z v + \ epsilon \ quad \ quad
\ epsilon \ sim \ mathcal {N}(\ vec {0}、\ sigma ^ 2 I)$$ span>
ここで、 $ w \ in \ mathbb {R} ^ p $ span>および $ v \ in \ mathbb {R} ^ q $ span>は真の係数であり、 $ \ epsilon $ span>はiidを表すランダムベクトルです。平均がゼロで分散が $ \ sigma ^ 2 $ span>のガウスノイズ。
$ Z $ span>を省略して、通常の最小二乗回帰モデルに適合するとします。推定される係数は次のとおりです。
$$ \ hat {w} =(X ^ T X)^ {-1} X ^ T y $$ span>
バイアスは、推定された係数と真の係数の間の予想される差を含むベクトルです(以下の導出を参照):
$$ \ text {bias}
= E [\ hat {w} -w]
=(X ^ T X)^ {-1} X ^ T Z v $$ span>
両側に $ X ^ T X $ span>を掛けると、次のようになります。
$$ X ^ T X \ \ text {bias} = X ^ T Z v $$ span>
除外された変数と無相関の予測子の場合
予測子が $ X = [X_u、X_c] $ span>として分割されているとします。ここで、 $ X_u $ span >には、省略されたすべての変数と相関のない列が含まれ、 $ X_c $ span>には、少なくとも1つの省略された変数と相関のある列が含まれます。したがって、 $ X_u ^ TZ = \ mathbf {0} $ span>および $ X_c ^ TZ \ ne \ mathbf {0} $ span>。同様に、バイアスがサブベクトル $ \ text {bias} _u $ span>( $ X_u $ の予測子の場合)に分割されているとします。 span>)および $ \ text {bias} _c $ span>( $ X_c $ span>の予測子の場合)。前の方程式を分割形式で書き直します:
$$ \ begin {bmatrix}
X_u ^ T X_u & X_u ^ T X_c \\
X_c ^ T X_u & X_c ^ T X_c
\ end {bmatrix}
\ begin {bmatrix} \ text {bias} _u \\ \ text {bias} _c \ end {bmatrix}
= \ begin {bmatrix} \ mathbf {0} \\ X_c ^ T Z \ end {bmatrix} v $$ span>
これを2つのシステムに分割します:
$$ X_u ^ T X_u \ text {bias} _u + X_u ^ T X_c \ text {bias} _c = \ vec {0} $$ span>
$$ X_c ^ T X_u \ text {bias} _u + X_c ^ T X_c \ text {bias} _c = X_c ^ TZ v $$ span>
>
$ \ text {bias} _c $ span>はゼロ以外です。これは、ゼロであると仮定すると矛盾が生じるためです。これは、除外された可変バイアスに関する標準的なステートメントを要約したものです。
さらに興味深いことに、質問は $ \ text {bias} _u $ span>、省略された変数と無相関の予測子のバイアスに関するものです。上記のペアの最初の方程式は、2つの結論につながります。1) $ X_u $ span>と $ X_c $ span>の場合は無相関であるため、 $ X_u ^ T X_c = \ mathbf {0} $ span>の場合、唯一の解決策は $ \ text {biasです。 } _u = \ vec {0} $ span>。 $ X $ span>はフルランクであるため、 $ X_u $ span>もフルランクであり、 $ X_u ^ T X_u $ span>にはゼロベクトルのみが含まれます。 2) $ \ text {bias} _c $ span>はゼロ以外であるため、 $ \ text {bias} _u = \ vec {0 } $ span>は、 $ X_u ^ T X_c = \ mathbf {0} $ span>を意味します。
したがって、 $ X_u $ span>の予測子の係数は、 $ X_u $ span>の場合に限り、バイアスがゼロになります。および $ X_c $ span>は無相関です:
$$ \ text {bias} _u = \ vec {0} \ \ iff \ X_u ^ T X_c = \ mathbf {0} $$ span>
>
バイアスの導出
バイアスは、推定された係数と真の係数の間の予想される差であり、予想はw.r.tで取得されます。 $ \ epsilon $ span>:
$$ \ begin {array} {ccl}
\ text {bias} & = & E [\ hat {w} --w] \\
& = & E \ big [(X ^ T X)^ {-1} X ^ T y-w \ big] \\
& = & E \ big [
(X ^ T X)^ {-1} X ^ T X w
+(X ^ T X)^ {-1} X ^ T Z v
+(X ^ T X)^ {-1} X ^ T \ epsilon
-w
\大きい] \\
& = & E \ big [(X ^ T X)^ {-1} X ^ T Z v +(X ^ T X)^ {-1} X ^ T \ epsilon \ big] \\
& = &(X ^ T X)^ {-1} X ^ T Z v
+ E \ big [(X ^ T X)^ {-1} X ^ T \ epsilon \ big] \\
& = &(X ^ T X)^ {-1} X ^ T Z v \\
\ end {array} $$ span>
2行目は、式を $ \ hat {w} $ span>に置き換えます。3行目では、 $ y $ span>の代わりに真のモデルを使用しています。4行目は代数的簡略化です。5行目は、期待値の線形性を使用しています。ノイズの平均はゼロであり、予測子と無相関であるため、最後の項の期待値はゼロであり、6行目となります。