トップ› 京都大学› 1977年› 理系第4問

京都大学 1977年理系第4問解説

方針・初手

期待値を最大化することを「有利」と解釈する。複数回サイコロを振れる選択権がある場合、最後のターンから逆算して最適な行動を決定していくのが基本である。残り回数に応じた期待値を計算し、現在出ている目と、振り直した場合に得られる期待値を比較して行動を決める。

解法1

(i)

サイコロを1回振ったときに出る目の期待値を $E_1$ とすると、

$$E_1 = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = \frac{7}{2} = 3.5$$

である。

1回目を振って出た目を $X_1$ とする。 2回目を振るか否かは、現在の確定した得点 $X_1$ と、2回目を振ったときの期待値 $E_1 = 3.5$ を比較して、大きい方を選ぶのが有利である。

したがって、 $X_1 > 3.5$ すなわち $X_1 = 4, 5, 6$ のときは、2回目を振らない。 $X_1 < 3.5$ すなわち $X_1 = 1, 2, 3$ のときは、2回目を振る。

(ii)

(i) のように最適な行動をとった場合の、最大2回振れるゲームの得点の期待値を $E_2$ とする。 $X_1 = 4, 5, 6$ のときはそのまま得点となり、$X_1 = 1, 2, 3$ のときは2回目を振って期待値 $E_1$ の得点を得るため、

$$E_2 = \left( 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} \right) + E_1 \cdot \frac{3}{6}$$

$$E_2 = \frac{15}{6} + \frac{7}{2} \cdot \frac{1}{2} = \frac{5}{2} + \frac{7}{4} = \frac{17}{4} = 4.25$$

となる。

最大3回振れるゲームにおいて、2回目を振った後の決定は、残り1回だけ振る権利がある状態なので、(i) の状況と全く同じである。したがって、2回目の出た目を $X_2$ とすると、 $X_2 = 4, 5, 6$ のときは、3回目を振らない。 $X_2 = 1, 2, 3$ のときは、3回目を振る。これが2回目終了後の有利な決定である。

次に、1回目を振って出た目を $X_1'$ とする。このとき、2回目を振り、上記のような最適な行動をとった場合に得られる得点の期待値は、最大2回振れるゲームの期待値である $E_2 = 4.25$ に等しい。したがって、1回目の後に2回目を振るか否かは、現在の得点 $X_1'$ と、2回目以降の期待値 $E_2 = 4.25$ を比較して決める。

$X_1' > 4.25$ すなわち $X_1' = 5, 6$ のときは、2回目を振らない。 $X_1' < 4.25$ すなわち $X_1' = 1, 2, 3, 4$ のときは、2回目を振る。