トップ 京都大学 1977年 理系 第4問

京都大学 1977年 理系 第4問 解説

数学A/確率数学B/確率分布・統計的推測テーマ/最大・最小テーマ/場合分け
京都大学 1977年 理系 第4問 解説

方針・初手

期待値を最大化することを「有利」と解釈する。 複数回サイコロを振れる選択権がある場合、最後のターンから逆算して最適な行動を決定していくのが基本である。残り回数に応じた期待値を計算し、現在出ている目と、振り直した場合に得られる期待値を比較して行動を決める。

解法1

(i)

サイコロを1回振ったときに出る目の期待値を $E_1$ とすると、

$$E_1 = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = \frac{7}{2} = 3.5$$

である。

1回目を振って出た目を $X_1$ とする。 2回目を振るか否かは、現在の確定した得点 $X_1$ と、2回目を振ったときの期待値 $E_1 = 3.5$ を比較して、大きい方を選ぶのが有利である。

したがって、 $X_1 > 3.5$ すなわち $X_1 = 4, 5, 6$ のときは、2回目を振らない。 $X_1 < 3.5$ すなわち $X_1 = 1, 2, 3$ のときは、2回目を振る。

(ii)

(i) のように最適な行動をとった場合の、最大2回振れるゲームの得点の期待値を $E_2$ とする。 $X_1 = 4, 5, 6$ のときはそのまま得点となり、$X_1 = 1, 2, 3$ のときは2回目を振って期待値 $E_1$ の得点を得るため、

$$E_2 = \left( 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} \right) + E_1 \cdot \frac{3}{6}$$

$$E_2 = \frac{15}{6} + \frac{7}{2} \cdot \frac{1}{2} = \frac{5}{2} + \frac{7}{4} = \frac{17}{4} = 4.25$$

となる。

最大3回振れるゲームにおいて、2回目を振った後の決定は、残り1回だけ振る権利がある状態なので、(i) の状況と全く同じである。 したがって、2回目の出た目を $X_2$ とすると、 $X_2 = 4, 5, 6$ のときは、3回目を振らない。 $X_2 = 1, 2, 3$ のときは、3回目を振る。 これが2回目終了後の有利な決定である。

次に、1回目を振って出た目を $X_1'$ とする。 このとき、2回目を振り、上記のような最適な行動をとった場合に得られる得点の期待値は、最大2回振れるゲームの期待値である $E_2 = 4.25$ に等しい。 したがって、1回目の後に2回目を振るか否かは、現在の得点 $X_1'$ と、2回目以降の期待値 $E_2 = 4.25$ を比較して決める。

$X_1' > 4.25$ すなわち $X_1' = 5, 6$ のときは、2回目を振らない。 $X_1' < 4.25$ すなわち $X_1' = 1, 2, 3, 4$ のときは、2回目を振る。

解説

「やり直せる」ゲームにおける期待値の最大化問題。この種の問題では、「最後の1回」から逆算していく動的計画法の考え方が有効である。 「振り直す」という行動を選択した場合に得られる価値(期待値)を計算し、現在手元にある確定した価値(出た目)と天秤にかけることで、各段階での最適な戦略を論理的に決定できる。

答え

(i) 1回目の目が $1, 2, 3$ のときは2回目をふり、$4, 5, 6$ のときは2回目をふらないのが有利である。

(ii) 1回目の目が $1, 2, 3, 4$ のときは2回目をふり、$5, 6$ のときは2回目をふらないのが有利である。 2回目をふった場合、2回目の目が $1, 2, 3$ のときは3回目をふり、$4, 5, 6$ のときは3回目をふらないのが有利である。

自分の記録

ログインすると保存できます。

誤りを報告

解説の誤り、誤字、表示崩れに気づいた場合は送信してください。ログイン不要です。