トップ› 東京大学› 1992年› 理系第6問

東京大学 1992年理系第6問解説

方針・初手

AとBがそれぞれグー、チョキ、パーを出す確率を変数でおき、1回のじゃんけんでのAの進む歩数とBの進む歩数の差の期待値 $E$ を定式化する。得られた期待値の式を、（1）ではAの確率について、（2）ではBの確率について整理し、与えられた条件からAの最適な確率を決定する。

解法1

Aがグー、チョキ、パーを出す確率をそれぞれ $p, q, r$ とする。ただし、$p \geqq 0, q \geqq 0, r \geqq 0, p+q+r=1$ である。また、Bがグー、チョキ、パーを出す確率をそれぞれ $x, y, z$ とする。ただし、$x \geqq 0, y \geqq 0, z \geqq 0, x+y+z=1$ である。

1回のじゃんけんで「Aの進む歩数からBの進む歩数を引いた値」を $W$ とすると、$W$ の取り得る値とその確率は以下のようになる。

Aがグー、Bがチョキのとき：$W = 3 - 0 = 3$、確率は $py$
Aがチョキ、Bがパーのとき：$W = 5 - 0 = 5$、確率は $qz$
Aがパー、Bがグーのとき：$W = 6 - 0 = 6$、確率は $rx$
Aがチョキ、Bがグーのとき：$W = 0 - 3 = -3$、確率は $qx$
Aがパー、Bがチョキのとき：$W = 0 - 5 = -5$、確率は $ry$
Aがグー、Bがパーのとき：$W = 0 - 6 = -6$、確率は $pz$
あいこのとき：$W = 0 - 0 = 0$、確率は $px + qy + rz$

したがって、期待値 $E$ はこれらの和となる。

$$ E = 3py + 5qz + 6rx - 3qx - 5ry - 6pz $$

これを $p, q, r$ について整理すると、

$$ E = (3y - 6z)p + (-3x + 5z)q + (6x - 5y)r $$

また、$x, y, z$ について整理すると、

$$ E = (-3q + 6r)x + (3p - 5r)y + (-6p + 5q)z $$

となる。

(1)

Bがグー、チョキ、パーを出す確率が等しいので、$x = y = z = \frac{1}{3}$ である。これを $E$ を $p, q, r$ について整理した式に代入すると、

$$ \begin{aligned} E &= \left(3 \cdot \frac{1}{3} - 6 \cdot \frac{1}{3}\right)p + \left(-3 \cdot \frac{1}{3} + 5 \cdot \frac{1}{3}\right)q + \left(6 \cdot \frac{1}{3} - 5 \cdot \frac{1}{3}\right)r \\ &= -p + \frac{2}{3}q + \frac{1}{3}r \end{aligned} $$

となる。 $p \geqq 0, q \geqq 0, r \geqq 0, p+q+r=1$ の条件下で、$E$ の値を最大化することを考える。 $E$ は各変数 $p, q, r$ の一次結合であり、その係数を比較すると $-1 < \frac{1}{3} < \frac{2}{3}$ であるから、最も係数の大きい $q$ の値を最大にするとき、$E$ は最大となる。 $0 \leqq q \leqq 1$ であるから、$q = 1$ （このとき $p=0, r=0$）のとき、$E$ は最大値 $\frac{2}{3}$ をとる。したがって、Aは確率 $1$ でチョキを出せばよい。

(2)

任意の $a, b, c$（すなわち、任意の $x \geqq 0, y \geqq 0, z \geqq 0, x+y+z=1$）に対して $E \geqq 0$ となるような $p, q, r$ の条件を求める。 $x, y, z$ について整理した式

$$ E = (-3q + 6r)x + (3p - 5r)y + (-6p + 5q)z $$

において、任意の $x \geqq 0, y \geqq 0, z \geqq 0 \ (x+y+z=1)$ で $E \geqq 0$ となるための必要十分条件は、各変数の係数がすべて $0$ 以上となることである。すなわち、

$$ \begin{cases} -3q + 6r \geqq 0 \\ 3p - 5r \geqq 0 \\ -6p + 5q \geqq 0 \end{cases} $$

が成り立つことである。これを変形すると、

$$ \begin{cases} q \leqq 2r \\ r \leqq \frac{3}{5}p \\ p \leqq \frac{5}{6}q \end{cases} $$

となる。これらの不等式をつなげると、

$$ p \leqq \frac{5}{6}q \leqq \frac{5}{6}(2r) = \frac{5}{3}r \leqq \frac{5}{3}\left(\frac{3}{5}p\right) = p $$

すなわち、

$$ p \leqq \frac{5}{6}q \leqq \frac{5}{3}r \leqq p $$

を得る。両端が $p$ であることから、等号がすべて成り立たなければならない。よって、

$$ p = \frac{5}{6}q = \frac{5}{3}r $$

が成り立つ。これを比で表すと、

$$ p : q : r = 1 : \frac{6}{5} : \frac{3}{5} = 5 : 6 : 3 $$

となる。$p+q+r=1$ であるから、

$$ p = \frac{5}{14}, \quad q = \frac{3}{7}, \quad r = \frac{3}{14} $$

と一意に定まる。

解説

本問は、ゲーム理論における期待値と戦略に関する問題である。（1）は相手の手が完全にランダムであるという前提のもと、自身の期待値を最大化する純粋戦略を選ぶ問題。（2）は相手のいかなる戦略に対しても期待値を非負にする（損をしない）ような混合戦略、いわゆる最適戦略を求める問題である。期待値を文字式の形で書き出し、各文字についての一次関数として捉えることで、係数の大小関係や不等式の連立から答えを無理なく導くことができる。