以前のこのブログで、「さいころ賭博必勝法」と題しまして議論いたしましたが、最後に難しそうな問題として、以下を提示いたしました。
一般的問題:0~1の一様乱数を、任意の回数、連続して発生させるとする。平均値を最大とするための戦略と、これで得られる平均値の期待値を求めよ。
この問題に関しまして、一応の解が得られましたのでご報告いたしましょう。
まず、平均値がx以上になったら打ち切ることといたします。また、この勝負で獲得できるポイントの期待値をaといたします。
x以上が出る確率は(1 - x)、そのときに期待されるポイントは(1 + x) / 2、x以下が出る確率はx、そのときに期待されるポイントはaですから、この場合のポイントの期待値をfといたしますと次式のようになります。
f = (1 - x)(1 + x) / 2 + a x = 1/2 - x2/2 + a x
これをxで微分してゼロとおきますと、fを最大とするxが求まります。すなわち、
f' = -x + a = 0 ∴ x = a
さて、aがいくつであるかということは、これを最初の式に代入することで決まります。すなわち、
a = 1/2 - a2/2 + a2
従って次の二次方程式を解けばaが求まります。
a2 - 2 a + 1 = 0 ∴ a = 1
と、いうわけで、解は1ということになりました。これ、本当でしょうかね?
確かに、平均値は0と1のあいだで揺れ動くことは確かでして、無限に試行を続ければ平均値が1に極めて接近する可能性だってなくはありません。だからそこで打ち切ることにすれば期待値は1ということになります。
しかし現実的には無限に試行すれば平均値は0.5に収斂していくはずで、平均値が1に極めて接近することなど、まず期待できません。
さて、この問題をより現実的な問題とするためには、どのような制約を課せば良いでしょうか。
ふうむ、謎は謎を呼び、、、
間違い見つけ。
x以上が出る確率は(1 - x)、そのときに期待されるポイントは(1 + x) / 2
というのは2回目以降の試行では成り立ちませんね。
n回目の試行であれば、すでに平均値bが決まっている以上、期待されるポイントは((1 + x) / 2) / n + (n - 1) b / nということになります。
じゃあ、答えは? となりますと、これは少々難しい。う~む、、、