トップ 基礎問題 数学1 データの分析 1次回帰直線 問題 1

数学1 1次回帰直線 問題 1 解説

数学1 1次回帰直線 問題 1 解説

方針・初手

データの平均、分散、共分散の定義に従って計算を進める。また、最小二乗法の仕組みを誘導に従って数式化し、$a$ についての2次関数の最小化問題に帰着させる。

解法1

(1) 与えられた表より、$x$ のデータの平均値 $\bar{x}$ は

$$\bar{x} = \frac{50 + 70 + 90 + 80 + 60}{5} = \frac{350}{5} = 70$$

である。 分散 $s_x{}^2$ は、各データの偏差の2乗の平均であるから

$$s_x{}^2 = \frac{1}{5} \left\{ (50-70)^2 + (70-70)^2 + (90-70)^2 + (80-70)^2 + (60-70)^2 \right\}$$

$$= \frac{1}{5} \left\{ (-20)^2 + 0^2 + 20^2 + 10^2 + (-10)^2 \right\}$$

$$= \frac{1}{5} (400 + 0 + 400 + 100 + 100) = \frac{1000}{5} = 200$$

である。

(2) $y$ のデータの平均値 $\bar{y}$ は

$$\bar{y} = \frac{40 + 60 + 100 + 70 + 50}{5} = \frac{320}{5} = 64$$

である。 共分散 $s_{xy}$ は、$x$ の偏差と $y$ の偏差の積の平均であるから

$$s_{xy} = \frac{1}{5} \sum_{k=1}^5 (x_k - \bar{x})(y_k - \bar{y})$$

$$= \frac{1}{5} \{ (-20)\cdot(-24) + 0\cdot(-4) + 20\cdot36 + 10\cdot6 + (-10)\cdot(-14) \}$$

$$= \frac{1}{5} (480 + 0 + 720 + 60 + 140) = \frac{1400}{5} = 280$$

である。

(3) 式①より $L = \sum_{k=1}^5 \mathrm{P}_k \mathrm{Q}_k{}^2$ であり、式③より $\mathrm{P}_k \mathrm{Q}_k{}^2 = a^2(x_k - \bar{x})^2 - 2a(x_k - \bar{x})(y_k - \bar{y}) + (y_k - \bar{y})^2$ である。これらを辺々足し合わせると

$$L = a^2 \sum_{k=1}^5 (x_k - \bar{x})^2 - 2a \sum_{k=1}^5 (x_k - \bar{x})(y_k - \bar{y}) + \sum_{k=1}^5 (y_k - \bar{y})^2$$

となる。 ここで、分散と共分散の定義より

$$\frac{1}{5} \sum_{k=1}^5 (x_k - \bar{x})^2 = s_x{}^2, \quad \frac{1}{5} \sum_{k=1}^5 (x_k - \bar{x})(y_k - \bar{y}) = s_{xy}, \quad \frac{1}{5} \sum_{k=1}^5 (y_k - \bar{y})^2 = s_y{}^2$$

であるから、それぞれ代入して

$$L = 5 s_x{}^2 a^2 - 10 s_{xy} a + 5 s_y{}^2 = 5( s_x{}^2 a^2 - 2 s_{xy} a + s_y{}^2 )$$

を得る。

(4) (3)で求めた $L$ の式を $a$ についての2次関数とみて平方完成すると

$$L = 5 s_x{}^2 \left( a^2 - 2 \frac{s_{xy}}{s_x{}^2} a \right) + 5 s_y{}^2 = 5 s_x{}^2 \left( a - \frac{s_{xy}}{s_x{}^2} \right)^2 + 5 s_y{}^2 - 5 \frac{s_{xy}{}^2}{s_x{}^2}$$

となる。 $s_x{}^2 = 200 > 0$ より、$L$ は $a = \frac{s_{xy}}{s_x{}^2}$ のときに最小となる。 (1), (2)の結果を代入すると

$$a = \frac{280}{200} = \frac{7}{5}$$

である。 また、条件1(式②)より $b = -a\bar{x} + \bar{y}$ であるから、求めた $a$ の値と $\bar{x} = 70, \bar{y} = 64$ を代入すると

$$b = -\frac{7}{5} \cdot 70 + 64 = -98 + 64 = -34$$

となる。

解説

回帰直線 $y = ax+b$ を最小二乗法で求める過程を誘導付きで辿る問題である。 各データの計算を正確に行うことが求められる。分散や共分散を求める際には、データの値そのものの2乗の平均から平均の2乗を引く公式(たとえば $s_x{}^2 = \overline{x^2} - (\bar{x})^2$ )を利用してもよいが、本問のように平均値がきれいな整数になる場合は、定義通りに偏差の平方和や積和を計算する方が計算ミスを防ぎやすい。

答え

シ: $70$

ス: $200$

セ: $280$

ソ: $s_x{}^2$

タ: $2s_{xy}$

チ: $\frac{7}{5}$

ツ: $-34$

自分の記録

ログインすると保存できます。

誤りを報告

解説の誤り、誤字、表示崩れに気づいた場合は送信してください。ログイン不要です。