数学1 データの分析 問題 11 解説

方針・初手
変量の1次変換 $y = ax + b$ についての、平均値 $\bar{y} = a\bar{x} + b$ と標準偏差 $s_y = |a|s_x$ の公式を利用する。 後半は、分散の定義式 $s_x^2 = \frac{1}{n} \sum_{i=1}^n d_i^2$ と各偏差の平方 $d_i^2 \ge 0$ を用いて、不等式を立ててデータの大きさ $n$ の範囲を絞り込む。
解法1
ア、イについて
$y = 4x - 2$ より、変量 $y$ の平均値 $\bar{y}$ は、変量 $x$ の平均値 $\bar{x}$ を用いて次のように表される。
$$\bar{y} = 4\bar{x} - 2$$
また、変量 $y$ の標準偏差 $s_y$ は、変量 $x$ の標準偏差 $s_x$ を用いて次のように表される。
$$s_y = |4|s_x = 4s_x$$
ウについて
データの大きさ $n$ における分散 $s_x^2$ は、平均値からの偏差 $d_i = x_i - \bar{x}$ を用いて次のように定義される。
$$s_x^2 = \frac{1}{n} \sum_{i=1}^n d_i^2$$
条件より、$|d_i| > 2s_x$ を満たす $i$ が 2個存在するため、これらを $i = 1, 2$ としても一般性を失わない。 このとき、両辺を2乗して以下の不等式が成り立つ。
$$d_1^2 > 4s_x^2, \quad d_2^2 > 4s_x^2$$
残りの $n-2$ 個のデータについては、実数の2乗の性質から $d_i^2 \ge 0 \ (i = 3, 4, \dots, n)$ である。 したがって、すべての偏差の2乗の和は次のように下から評価できる。
$$\sum_{i=1}^n d_i^2 = d_1^2 + d_2^2 + \sum_{i=3}^n d_i^2 > 4s_x^2 + 4s_x^2 + 0 = 8s_x^2$$
これを分散の定義式に代入すると、以下の不等式を得る。
$$s_x^2 = \frac{1}{n} \sum_{i=1}^n d_i^2 > \frac{1}{n} \cdot 8s_x^2 = \frac{8s_x^2}{n}$$
$|d_i| > 2s_x \ge 0$ を満たすデータが存在することから $s_x > 0$ であり、$s_x^2 > 0$ である。 両辺を $s_x^2$ で割ると次のように整理できる。
$$1 > \frac{8}{n}$$
$$n > 8$$
$n$ はデータの大きさであり整数であるため、$n \ge 9$ となる。
解説
前半は1次変換における平均と標準偏差の基本公式の確認である。 後半は、分散の定義式に基づいて不等式評価を行う問題である。これは大学数学で学ぶ「チェビシェフの不等式」を背景としたものであり、特定のデータの偏差の2乗の和を残し、それ以外のデータを $d_i^2 \ge 0$ として切り捨てることで下限を評価する手法がポイントとなる。
答え
ア:$4\bar{x} - 2$
イ:$4s_x$
ウ:$9$
自分の記録
誤りを報告
解説の誤り、誤字、表示崩れに気づいた場合は送信してください。ログイン不要です。