数学1 データの分析問題 8 解説

方針・初手

(1) は平均 $\bar{x}$ と分散 $V$ の定義式にそのまま代入し、条件を用いて式を整理する。分散の計算では、定義式から導かれる関係式 $V = \sum_{i=1}^n x_i^2 - n\bar{x}^2$ を利用すると計算がスムーズである。

(2) は (1) で得られた $V$ を $p$ と $q$ の式として扱い、その最大値を求める。独立な2変数 $p, q$ の関数と見て最大化するアプローチ（解法1）と、各データ $x_i$ を変更したときの分散の変化に注目して $q=0$ を導くアプローチ（解法2）が考えられる。

解法1

(1)

データ $x_1, x_2, \cdots, x_n$ のうち、値が $2$ であるものが $p$ 個、$1$ であるものが $q$ 個であるから、値が $0$ であるものは $n - p - q$ 個である。

データの総和 $\sum_{i=1}^n x_i$ は次のように計算できる。

$$\sum_{i=1}^n x_i = 2 \cdot p + 1 \cdot q + 0 \cdot (n - p - q) = 2p + q$$

したがって、平均 $\bar{x}$ は次のようになる。

$$\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i = \frac{1}{n} (2p + q)$$

これより、イは $2$、ロは $1$ である。

次に、分散 $V$ を計算する。

$$\begin{aligned} V &= \sum_{i=1}^n (x_i - \bar{x})^2 \\ &= \sum_{i=1}^n (x_i^2 - 2\bar{x}x_i + \bar{x}^2) \\ &= \sum_{i=1}^n x_i^2 - 2\bar{x} \sum_{i=1}^n x_i + n\bar{x}^2 \end{aligned}$$

ここで、$\sum_{i=1}^n x_i = n\bar{x}$ であるから、

$$V = \sum_{i=1}^n x_i^2 - 2\bar{x}(n\bar{x}) + n\bar{x}^2 = \sum_{i=1}^n x_i^2 - n\bar{x}^2$$

データの2乗の和 $\sum_{i=1}^n x_i^2$ は次のように計算できる。

$$\sum_{i=1}^n x_i^2 = 2^2 \cdot p + 1^2 \cdot q + 0^2 \cdot (n - p - q) = 4p + q$$

したがって、$V$ は次のようになる。

$$V = 4p + q - n\bar{x}^2$$

これより、ハは $4$、ニは $1$、ホは $-n$ である。

(2)

(1) の結果より、$V$ は次のように表される。

$$V = 4p + q - \frac{1}{n} (2p + q)^2$$

ここで、$2p + q = k$ とおくと、$q = k - 2p \geqq 0$ より $p \leqq \frac{k}{2}$ である。

また、$0 \leqq p \leqq n, 0 \leqq q \leqq n$ かつ $p+q \leqq n$ であるから、$k$ は $0 \leqq k \leqq 2n$ を満たす整数である。

$V$ を $p$ と $k$ で表すと、

$$V = 4p + (k - 2p) - \frac{1}{n} k^2 = 2p + k - \frac{1}{n} k^2$$

$k$ を固定したとき、$V$ が最大になるのは $p$ が最大のときである。

$p$ は $p \leqq \frac{k}{2}$ を満たす最大の整数であるから、$k$ の偶奇で場合分けをする。

(i) $k$ が偶数のとき

$p$ の最大値は $p = \frac{k}{2}$ であり、このとき $q = k - 2p = 0$ となる。

このときの $V$ を $p$ を用いて表す（$k=2p$ を代入する）。

$$V = 4p - \frac{1}{n} (2p)^2 = -\frac{4}{n} p^2 + 4p = -\frac{4}{n} \left( p - \frac{n}{2} \right)^2 + n$$

$p$ は $0 \leqq p \leqq n$ を満たす整数である。

$n$ が偶数のとき、$p = \frac{n}{2}$ で最大値 $n$ をとる。

$n$ が奇数のとき、$p = \frac{n-1}{2}$ または $p = \frac{n+1}{2}$ で最大値をとる。その値は次の通りである。

$$-\frac{4}{n} \left( \pm \frac{1}{2} \right)^2 + n = n - \frac{1}{n}$$

(ii) $k$ が奇数のとき

$p$ の最大値は $p = \frac{k-1}{2}$ であり、このとき $q = k - 2p = 1$ となる。

このときの $V$ を $k$ を用いて表す（$p = \frac{k-1}{2}$ を代入する）。

$$V = 2 \cdot \frac{k-1}{2} + k - \frac{1}{n} k^2 = -\frac{1}{n} k^2 + 2k - 1 = -\frac{1}{n} (k - n)^2 + n - 1$$

$n$ が偶数のとき、$k = n \pm 1$ のとき最大となり、最大値は $-\frac{1}{n} (\pm 1)^2 + n - 1 = n - 1 - \frac{1}{n}$ である。これは (i) の最大値 $n$ より小さい。

$n$ が奇数のとき、$k = n$ のとき最大となり、最大値は $n - 1$ である。これは $n \geqq 2$ のとき、(i) の最大値 $n - \frac{1}{n}$ より小さい。

（なお $n=1$ のときは (i)、(ii) ともに最大値は $0$ となる）

以上より、$V$ が最大となるのは $q=0$ のときであり、求める最大値とそのときの $p, q$ の値は次のようになる。

$n$ が偶数のとき、$p = \frac{n}{2}, q = 0$ で最大値 $n$

$n$ が奇数のとき、$p = \frac{n-1}{2}, q = 0$ または $p = \frac{n+1}{2}, q = 0$ で最大値 $n - \frac{1}{n}$

解法2

(2) の別解（各変数についての凸性を利用する解法）

$n \geqq 2$ とする。データの1つ $x_k$ に着目し、$S_k = \sum_{i \neq k} x_i$、$T_k = \sum_{i \neq k} x_i^2$ とおく。

分散 $V$ は次のように変形できる。

$$\begin{aligned} V &= \sum_{i=1}^n x_i^2 - \frac{1}{n} \left( \sum_{i=1}^n x_i \right)^2 \\ &= T_k + x_k^2 - \frac{1}{n} (S_k + x_k)^2 \\ &= \left( 1 - \frac{1}{n} \right) x_k^2 - \frac{2S_k}{n} x_k + T_k - \frac{S_k^2}{n} \end{aligned}$$

これを $x_k$ の関数 $f(x_k)$ とみる。$n \geqq 2$ より $x_k^2$ の係数 $1 - \frac{1}{n}$ は正であるから、$f(x_k)$ は $x_k$ について下に凸な2次関数である。

したがって、$x_k$ が取り得る値の範囲 $0 \leqq x_k \leqq 2$ において、$f(x_k)$ は両端点のいずれか、すなわち $x_k = 0$ または $x_k = 2$ で最大となる。

これは、もしデータの中に $x_k = 1$ となるものが存在すれば、その値を $0$ または $2$ のいずれかに変更することで、分散 $V$ を必ず大きくできることを意味している。

よって、$V$ が最大となるとき、データの中に $1$ は含まれない。すなわち $q = 0$ であることが必要である。

$q = 0$ のとき、

$$V = 4p - \frac{1}{n} (2p)^2 = -\frac{4}{n} \left( p - \frac{n}{2} \right)^2 + n$$

$p$ は $0 \leqq p \leqq n$ を満たす整数であるから、この2次関数の最大値を考えると以下のようになる。

$n$ が偶数のとき、$p = \frac{n}{2}$ のとき最大値 $n$ をとる。

$n$ が奇数のとき、$p = \frac{n-1}{2}$ または $p = \frac{n+1}{2}$ のとき最大値 $-\frac{4}{n} \left( \pm \frac{1}{2} \right)^2 + n = n - \frac{1}{n}$ をとる。

（$n=1$ のときは常に分散は $0$ となるが、上記の結果において $n=1$ を代入すると最大値 $0$ となり矛盾しない）

解説

(1) は分散の定義式と計算公式 $V = \overline{x^2} - (\bar{x})^2$ に相当する関係式を用いる基本問題である。

(2) は2変数の最大化問題である。解法1のように、$2p+q=k$ とおいて片方の文字を固定し、条件を満たす範囲で関数の挙動を調べるのが代数的な定石である。

一方で、解法2のように「分散を最大にするにはデータを平均から遠ざければよい」という直感を数学的に証明するアプローチも非常に有用である。各データ $x_i$ を変数とみたとき、分散の式は各変数について下に凸な2次関数となる。下に凸な関数は定義域の端点において最大値をとるという性質を利用すれば、データが $0$ と $2$ のみからなる（$q=0$）ことが極めて容易に示せる。

答え

(1)

イ：$2$

ロ：$1$

ハ：$4$

ニ：$1$

ホ：$-n$

(2)

$n$ が偶数のとき、$p = \frac{n}{2}, q = 0$ で最大値 $n$

$n$ が奇数のとき、$p = \frac{n-1}{2}, q = 0$ または $p = \frac{n+1}{2}, q = 0$ で最大値 $n - \frac{1}{n}$

（ただし $n=1$ のときは $p+q \leqq 1$ を満たす任意の $(p, q)$ で最大値 $0$ をとる）

自分の記録

マイリストに入れる

状態

メモ

苦手分野に記録

ログインすると保存できます。

誤りを報告

解説の誤り、誤字、表示崩れに気づいた場合は送信してください。ログイン不要です。

数学1 データの分析 問題 8 解説

方針・初手

解法1

解法2

解説

答え

自分の記録

誤りを報告

数学1 データの分析問題 8 解説