トップ 基礎問題 数学1 データの分析 データの分析 問題 11

数学1 データの分析 問題 11 解説

数学1 データの分析 問題 11 解説

方針・初手

変量の1次変換 $y = ax + b$ についての、平均値 $\bar{y} = a\bar{x} + b$ と標準偏差 $s_y = |a|s_x$ の公式を利用する。 後半は、分散の定義式 $s_x^2 = \frac{1}{n} \sum_{i=1}^n d_i^2$ と各偏差の平方 $d_i^2 \ge 0$ を用いて、不等式を立ててデータの大きさ $n$ の範囲を絞り込む。

解法1

ア、イについて

$y = 4x - 2$ より、変量 $y$ の平均値 $\bar{y}$ は、変量 $x$ の平均値 $\bar{x}$ を用いて次のように表される。

$$\bar{y} = 4\bar{x} - 2$$

また、変量 $y$ の標準偏差 $s_y$ は、変量 $x$ の標準偏差 $s_x$ を用いて次のように表される。

$$s_y = |4|s_x = 4s_x$$

ウについて

データの大きさ $n$ における分散 $s_x^2$ は、平均値からの偏差 $d_i = x_i - \bar{x}$ を用いて次のように定義される。

$$s_x^2 = \frac{1}{n} \sum_{i=1}^n d_i^2$$

条件より、$|d_i| > 2s_x$ を満たす $i$ が 2個存在するため、これらを $i = 1, 2$ としても一般性を失わない。 このとき、両辺を2乗して以下の不等式が成り立つ。

$$d_1^2 > 4s_x^2, \quad d_2^2 > 4s_x^2$$

残りの $n-2$ 個のデータについては、実数の2乗の性質から $d_i^2 \ge 0 \ (i = 3, 4, \dots, n)$ である。 したがって、すべての偏差の2乗の和は次のように下から評価できる。

$$\sum_{i=1}^n d_i^2 = d_1^2 + d_2^2 + \sum_{i=3}^n d_i^2 > 4s_x^2 + 4s_x^2 + 0 = 8s_x^2$$

これを分散の定義式に代入すると、以下の不等式を得る。

$$s_x^2 = \frac{1}{n} \sum_{i=1}^n d_i^2 > \frac{1}{n} \cdot 8s_x^2 = \frac{8s_x^2}{n}$$

$|d_i| > 2s_x \ge 0$ を満たすデータが存在することから $s_x > 0$ であり、$s_x^2 > 0$ である。 両辺を $s_x^2$ で割ると次のように整理できる。

$$1 > \frac{8}{n}$$

$$n > 8$$

$n$ はデータの大きさであり整数であるため、$n \ge 9$ となる。

解説

前半は1次変換における平均と標準偏差の基本公式の確認である。 後半は、分散の定義式に基づいて不等式評価を行う問題である。これは大学数学で学ぶ「チェビシェフの不等式」を背景としたものであり、特定のデータの偏差の2乗の和を残し、それ以外のデータを $d_i^2 \ge 0$ として切り捨てることで下限を評価する手法がポイントとなる。

答え

:$4\bar{x} - 2$

:$4s_x$

:$9$

自分の記録

ログインすると保存できます。

誤りを報告

解説の誤り、誤字、表示崩れに気づいた場合は送信してください。ログイン不要です。