とにかく確率の問題はややこしいので、私がどこで間違えたかも含め、問題を整理してみた。意味不明な人は、先に前エントリのコメントのやり取りを読んでほしい。ほんとはコメント内に表示したかったんだけど、コメントはHTMLの使用を禁止しているもので……。それと、もしかしたら、これも何かの参考になるかもしれないと思い、Flashのスクリプトを載せておくね。
まずは計算値
これをモンテカルロ法で検証^^;
基本的に前エントリの冒頭にあるFlashと同じもの。表示部分を省略し結果のみを表示するようにした。A,B,C,Dを順に訪れ、1/5の確率で落し物をする。ただし、ある地点で落し物をすると、それ以降、落し物はできない(忘れ物は1箇所のみ)。
最初のA地点で忘れ物をする割合は5回に1回。B地点ではA地点で忘れ物をしていないことが条件となる。以下、C地点、D地点でも同じ。これには4箇所で忘れ物しない場合も含まれるので、忘れ物をしなかった場合は除外する(4箇所のどこかで忘れ物をした場合のみをカウント)。
上のFlashを、もしも、A地点で忘れ物をした事実があったとしても、それに気づかず、B地点以降でも(1/5)の確率で忘れ物をすることができるものとする。ただし、A,B,C,Dを回って、家に帰ったとき、忘れ物をしたのは、どこか1箇所とわかる(忘れ物をしなかった場合、忘れ物が複数個あった場合は除外する)。
当然といえば当然だが、忘れ物をしたのは4箇所のうちの1箇所なので、どの地点でも確率(1/4)の近似値になる。
この(1/4)がベイズの言う「事前確率」らしい。つまり「4箇所のうちどこか1箇所で忘れ物をした」という事実が出発点となる。この事前確率に対して「5回に1回は忘れ物をする」という情報が加わる。
で、「忘れ物をしたのはどこか1箇所」という問題文をどう解釈するのかが、意見の分かれるところ、議論になるところだが、「A,B,C,Dの順で回り、どこかで忘れ物をしたら、もう忘れ物はできない」とすると、題意を「忘れ物は1つ」あるいは「所持品は1つ」とするのが、わかりやすい。
さらに、整理してみると、コメント内でN.G.さんや、亀田さんが指摘しているように、問題文を以下のように書き換えてみることもできる。
問題:5回に1回の割合で忘れ物をする癖のある人がいる。A・B・C・Dの4箇所を回って家に帰ったとき、忘れ物をしたことに気づいた。同じ道順を辿り、忘れ物を捜した。2番目のBで忘れ物が見つかる確率を求めよ。ただし、忘れ物をしたのは1箇所のみ。
A,B,C,Dを順に回り、忘れ物を探すとき、A地点で忘れ物が見つかれば、もう忘れ物を探す必要はない。B地点を探すのは、A地点で忘れ物が見つからなかった場合だ。C地点、D地点も同様。事前確率の(1/4)に「5回に1回の割合で忘れ物をする」という情報を加味すると、以下のようになる。
事前確率の「1/4」は約分することができるので、答えは前エントリの通りとなる。
記事コメントで辛抱強く爺の理解を促してくれた皆さんに感謝。
※9月6日追記
ベイズという言葉が議論を呼ぶのは常ですが・・・この問題は、完全な無知から出発する、という必要はなく、単に「これまでの経験から1/5の割合で忘れてしまう人なのだ」という情報があるだけです。
となると、AからDまでのどこかで忘れるか、どこでも忘れないかの確率を計算して足すと1になります。
ところが、後で、「どこかに忘れた」という新たな情報が付け加わるのです。それにより、「どこにも忘れなかった」という可能性は消えます。全体が1にならないので、確率を計算しなおすと答えになります。
***
問題文に解釈上のあいまいさが残っていたのかもしれませんが、「ベイズ」という言葉をあまり教科書的にとらえすぎると、かえって、わかりづらくなると(私は)思います。
事前確率をすべて等しいとする、というのは、かなり杓子定規な方法で、今の問題で、なぜ、無理に事前確率を1/4にする必要があるのか、理解できません。
ベイズの精神は、「今ある情報による確率の計算」→「新たな情報」→「その情報を加味して計算し直した確率」です。
ですから、「事前情報が全て等しい」というのは不可欠な要素ではないはずです。
http://www004.upp.so-net.ne.jp/s_honma/probability/bayes.htm
を参考にしてみてください。議論がかみあっていない理由がおわかりになるかと思います!
竹内薫センセ、コメントありがとうございます。
コメントをいただけるのは非常にありがたいのですが、半年以内に10冊もの本の締め切りを抱えていて、大丈夫なんでしょうか……もっとも、私が心配することではないのですが^^;
「薫日記」で、いずれ、この問題の再解説をしてくださるということで、私は気長に待つつもりです。竹内センセが紹介してくれた「運は数学にまかせなさい―確率・統計に学ぶ処世術」という本も、今日、アマゾンに注文しました^^;
酔っ払い爺には「いきなり理解しろ」というのは無理かもしれませんが、あーでもない、こーでもないと、もやもやしたり、議論することも楽しいです。
まったく数学ど素人の私が、ベイズの確率論を語ったり、興味を持たせてくれたことが「コマネチ大学数学科」のすばらしいところです。
ワイドショーやニュース番組で「朝青龍」がどーした、こーしたで盛り上がるよりも、日本中が「ベイズの定理」で盛り上がったらスゴイことですよね(そんなことはないとは思いますが^^;)でも、そのうちの何人かは、ちょっと本気で統計学や確率論を勉強してみるか、という気になるかもしれません。
私自身、これまで統計学なんて、ぜんぜん興味なかったのですが、ひょっとして確率論はおもしろいのかも……と思い始めています。でも、いきなり数式を見せられると、敷居の高さを感じちゃいますけど;;
確率の話ではなく、世間話になっちゃいましたけれど、お体に気をつけて、お仕事がんばってください。
ああそうか・・・・・・。ふうん。
こっちもどこで「議論のズレ」が生じているのか分かりました。ちょっと説明します。
>AからDまでのどこかで忘れるか、どこでも忘れないかの確率を計算して足すと1になります。
たしかにその通りです。
ただし、もう一度言いますが、「忘れた」と言う事象が確定している以上「忘れる確率」を積極的に考えなければならない、と言う理由はどこにもないんです。何故なら、既に「忘れている」んで、敢えて数値で書くと、これは1/5じゃなくって1なんですよ。
問題は
P(場所|忘れた)
を議論しているのか
P(忘れる|場所)
なのか、って事です。
あくまで問題で問われているのは前者であって後者ではありませんよね?
第2の問題としては、仮に、問題文に書いてある以外に(実は隠れて)Eと言う場所が存在してたとします。だったら、竹内先生が仰るような論法も不可能ではありません。
しかしながら、4箇所しかない以上、「1/5」から分布を作って「忘れない確率」を考えなきゃならない事に意味は生じないでしょう?「どこでも忘れない確率」とは言っても、繰り返しますが「既に忘れている」んです。
>事前確率をすべて等しいとする、というのは、かなり杓子定規な方法で、今の問題で、なぜ、無理に事前確率を1/4にする必要があるのか、理解できません。
ここも論法が逆で、「全く理解できないから」こそ等確率の1/4を振り分けているのです。全く理由が無いから、なんです。むしろ何かの理由が「積極的」に存在するのだったら、1/4にしなくても構わないのですよ。
ちょっと次のパターンを見てみます。
例えば、現時点、A、B、C、Dと言う非常に抽象的な記号なんで分かりづらいかもしれませんが、
場所A:本屋
場所B:猫が100匹も飼われている猫屋敷!
場所C:カトリック教会
場所D:テレビ局
とでもしてみましょう。
例えば、竹内先生が「どっかに一つ忘れ物をした」として、実際上の4箇所が問題文に含まれていたら、「等確率」を振り分ける、と言うのはバカバカしく思うでしょうね。んで、実際その通りなんです。
例えば財布をジーンズの後ろのポケットに入れてるとしたら、「2時間も猫を撫でる」場所Bが一番「忘れ物をする事前確率」が高くなりませんか?(何故なら、猫を撫でる場合は、しゃがみ姿勢が基本だからです!!!!)
そうすると、事前分布としては、
本屋:1/6
猫屋敷:1/2
カトリック協会:1/6
テレビ局:1/6
としても「全く構わない」んです。
まあ、上はあくまで僕が便宜上振り分けた「事前分布」なんですが、こうじゃなくっても別段構わないんですよ。竹内先生「個人の」理由により、お好きに設定してもらって構わない。むしろその方が仮に「幾何分布」モデルだとしても、もっと有用な「確率推論機械」になると思います。そして、こっちの方に約束事として「全てを足し合わせたら1になる」ルールを強調すべきでは無いでしょうか?
ですから、「教科書通りの」とは言っても教科書ですから、「殊更理由が無い限りは・・・・」と言うのが暗黙の前提になっているんです。教科書独自の理由を付け加える事はあまり望ましくないから、でしょう。「理由不十分の原則」ってのもあくまで「仮説の枠組」であって、別段それこそ「絶対の真実であり、こう計算せねばならない」と言うのを示唆しているワケではないのです。
私は、私のブログとシャブリさんのブログでしか、ネット上でこの問題についての議論を見ていないので、実際にどんな議論が起こっているのかは知りません。
しかし、少なくとも、この「ガスコン研究所」では、「忘れ物は1箇所のみ」という問題文の解釈を巡っての議論であって、皆さん礼儀正しいというか、優しいというか「爺、あんたの答えは間違っている」というコメントはなく、それどころか「爺さんの答えになるためには、問題文をこう解釈する必要があるよ」と、怒り出すこともなく、辛抱強く、示唆してくれたと思っています。当初、私は問題文で規定されていない以上、忘れ物は「財布」であっても、「携帯」であってもよいという立場でした。
私は、N.G.さんとの議論をするうちに、もし、忘れ物をひとつと規定しないと、Aで忘れ物をした場合でも、Bで忘れ物をする可能性を否定できないことに気づきました。
「忘れ物は1箇所」という条件で、それらの場合は除外できると考えたのですが、実際にシミュレートしてみると、「忘れ物をしない」、「数箇所で忘れ物をした」という場面を除外し、「忘れ物は1箇所」という条件で絞り込んだとしても、(1/5)という確率は消えて、A・B・C・Dの4箇所で忘れ物をする確率は(1/4)という、至極、あたりまえの結論になったのです。
私が例として取り上げた「コイン」の表、裏の問題は、そもそも「二項分布」のモデルを採用しているのではないかと思います。
もしも、「5回に1回の割合で忘れ物をする癖のある人がいる。A・B・C・Dの4箇所を回って家に帰ったとき、『帽子』を忘れたことに気づいた。2番目のBに『帽子』を忘れてきた確率を求めよ」という、本来どおりの問題ならば、議論の余地はなかったと思います。
現実的に「帽子」をふたつ被る人はいないでしょうし(カツラは帽子として認めません^^;)。
「神はサイコロを振らない」とアインシュタインは言いましたが、「髪は長~い友だち」です(何を主張したいのか、意味不明)。