« ジャッジ(島の裁判官)最終回、泣けました。。。 | トップページ | 赤福再生プログラム(私案) »

2007年11月11日 (日)

「定量分析実践講座」、いきなり挫折。。。

(皆様方のコメントを受けて、早々に追記あります)51c3xix0ril_ss500__2 

すでにどこの書店におきましても、ビジネス本ランキングのベストテンに入っております「定量分析実践講座~ケースで学ぶ意思決定の手法~」(福澤英弘著 ファーストプレス \2400税別)を休日に読み始めたのでありますが、いきなりケース1でつまづいてしまいました。ちなみに、いろいろなブログを巡回しておりますが、読まれた方はみなさん定量分析の手法が素人にもわかりやすく書かれている!と絶賛されておりますので、ひょっとすると私だけが合理的な定量分析の考え方さえ理解できない頭になっているのかもしれません。ひとりくらい、同じような疑問でつまづいている人がいるんじゃないかと思っていたのですが・・・(かなりショックであります)

この本で紹介されている「ケースその1」でありますが、ある人が会社に向かうのに、バス通勤をします。会社までバスで向かうのに、自宅付近の同じ場所に二つの民間バス会社のバス停がありまして、どっちで会社に行っても同じ時間に会社に到着するとします。そこで、一週間の両社のバスの運行状況を調査して、「時刻表記載の時刻からどれだけ実際のバス停到着時刻がずれているか」を集計します。調査してみると、どちらのバスも早く来たり、遅く来たりします。この「ズレ」を「平均値」で求めた場合には、ほぼ同じだったことから、つぎに平均的な「ズレ」からどれだけ「ばらつき」があるかを標準偏差によって判定します。もちろんバス停到着時刻に「ばらつき」が少ないバスのほうが安心して乗車できるということで、標準偏差が値が小さいほうのバスの通勤定期を購入する、といった意思決定プロセスが紹介されております。これが定量分析に基づく合理的意思決定の第一歩のようであります。

ホンマですかぁ~?ヘ(゜◇、゜)ノ~ 

私が基本的に疑問に思いますのは、いくら標準偏差の値が小さいとしましても、バスが早くきちゃったら意味ないのでは???と思うのですが、これはアホの考え方なんでしょうかね?たとえわずかのズレでありましても、バスが停留所に到着予定時刻よりも早く来てしまえば、そのバスには乗り遅れてしまうわけでありまして、その次のバスを待っていたら、とんでもない「ずれ」になってしまうんじゃないのでしょうか?どんなに標準偏差が小さくても、一週間のうち、(ズレの平均値が同じであると仮定して)4日間は若干早く到着して、1日だけかなり遅くやってくるバスと、標準偏差の値が大きくても、毎日3分遅れのバスとでは、どう考えても後者のバスを選択するのが合理的だと思うのですが。。。「早く来るバスのためになるべく到着時刻よりも早くバス停にいる」といった前提だと、標準偏差を計算する基礎も変わってくるんで、これはないと思いますし。

平均値からのズレが大きいといった「情報」は、たまたまこの1週間のデータからはわからない将来予測可能性(つまり、ズレが大きいとされた民間バス会社のほうが、この1週間は遅い時間に来る回数が多かったけれども、今後早く来る可能性も高いということ)を映し出している・・・・・とも考えてみたのですが、でもやっぱり、早く来ることのリスクと、遅く来ることのリスクとでは、そのリスクの大きさは異なるものであって、単純なバラツキの問題に純化させる前提そのものがおかしいように思うのですが。。。つまり、標準偏差の問題ではなく、力と方向性をもったベクトルの問題(三角関数のお話)になるのではないかと思うのですが。

ベストセラー本ですし、私のブログにお越しの方々は、こういったジャンルをお仕事であたりまえのように使っていらっしゃる方も多いと思いますので、もしよろしければ、私のどこがアホか、ご教示いただけましたら幸いです。。。

(追記)早速にたくさんのコメント、ありがとうございました。なるほど「不確実なもの」を「不確実なもの」のまま受け入れて、それでもバスの正確な運行への努力を数値化するために「標準偏差」を用いる方法、たいへんよく理解できたように思います。

ところで、そうであるならば、また次なる疑問が湧いてまいります。このケースその1では、まず1週間の調査結果というデータを用いて「正確な到着時刻と、実際の到着時刻とのズレの平均値」を比較して、それで比較困難な場合に標準偏差を用いることになっております。それではなぜ、標準偏差よりも平均値のほうを優先するのでしょうか? 「正規分布」を想定したうえで、不確実ななかでも、なんとか正確な運行努力を数値化しようとしているのですから、そっちを優先したらいいのではないでしょうか?「平均値」というものは、そもそも不確実性を数値化することをあきらめて、はじめから何の仮定も与えずに、場当たり的に平均を出しているにすぎないわけで、データの扱いとしては極端にラフな考え方ではないかと思います。(標準偏差が確率変数に属するものを扱うとしたら、平均値の算定はそうではないわけですよね。)標準偏差を用いて、統計的手法で意思決定をしようとする態度と、平均値を優先しようとする態度には矛盾があるように思えるのですが、いかがでしょうかね。

|

« ジャッジ(島の裁判官)最終回、泣けました。。。 | トップページ | 赤福再生プログラム(私案) »

コメント

>どんなに標準偏差が小さくても、一週間のうち、(ズレの平均値が同じであると仮定して)4日間は若干早く到着して、1日だけかなり遅くやってくるバスと、標準偏差の値が大きくても、毎日3分遅れのバスとでは、どう考えても後者のバスを選択するのが合理的だと思うのですが。。。

とのことですが。毎日3分遅れなのに標準偏差が大きいということは考えにくいです。基本的に、ズレの平均値が同じだと仮定すると、後者(毎日3分遅れ)のほうが前者にくらべて標準偏差が小さくなります。
たとえば、4日は時刻通りで1日15分遅れの場合は平均=3分遅れ、標準偏差=6分となります。
また、毎日ぴったり3分遅れの場合は平均=3分遅れ、標準偏差=0分となります。

バスが早く来るのか遅く来るのかわからないので、目当てのバスに乗るために予定時刻より早めにバス停に行くということになるわけですが、どれだけ早めに着いておけばいいのかというのが、ズレの幅がどれだけあるかによってかわることになります。
標準偏差がたとえば3分だったとすれば平均値(予定時刻±平均的なズレ)から6分(標準偏差の2倍)くらい早めにつけばほぼ確実に目当てのバスに乗れるのに対して、標準偏差が5分の場合は同じ確率でバスに乗るためには平均値よりも10分早めに着いておかなければならないことになります。そのため、標準偏差が小さな方を選択すべきという話になるのだと思います。

山口さんが疑問にもたれたように、上の話には一つの仮定がおかれています。
標準偏差の2倍分だけ余裕を持てばほぼ確実にというのは本来の確率分布が正規分布に近い場合(平均値にちょうど山が来る分布)を仮定しています。
本来の確率分布が遅い方(あるいは早い方)に大きく偏っている場合(分布の山が平均値から大きくずれる場合)などは、標準偏差を計算して~という議論は当てはめられなくなってしまいます。

この、「仮定がおけるのかどうか」というのは最も重要なことだと思います。
今回のバスの場合は、1週間のサンプルデータを採っただけでは、本当の確率分布がどうなっているかを想像することはできないため、十分なデータが集まるまで(1年分とか)は、正規分布を仮定して考えていると思います。
本当の確率分布の形状がわからない場合に、とりあえず正規分布を仮定するということが、こういった分析では暗黙の了解となっています。
ベストセラーとなるほどの良書のようですので。本のどこかも、にそういった話が載っているのではないでしょうか。

投稿: crimsonstarroad | 2007年11月11日 (日) 21時09分

ケースその1ではどちらのバス停到着時刻も”正規分布に属しているという仮定”があるはずなので、平均が同じであれば標準偏差が小さいほうが乗り遅れる確率は小さくなるはずです。
山口さんが上げているケースでは前者は正規分布ではなく(ポアソン分布というのでしょうか?)、後者は正規分布となり比較対象の属する分布が異なるので平均値と標準偏差を使って「統計的な判断を下す」ことは出来ない(難しい)と思います。
ちなみに統計的な判断が現実的でないことはそれなりにあると思います。
統計は万能ではないですので・・・。

投稿: 素人ですが・・・ | 2007年11月11日 (日) 21時51分

読まずして、こんなこと言うのもナンなんですが・・・。

「平均だけでなくバラツキも見なさいよ」「平均値が同じなら、標準偏差を見なさいよ」といった程度の話ではないんでしょうか(とすれば、ごくごく当たり前のことのような気もします)。

私なんぞは、

>会社までバスで向かうのに、自宅付近の同じ場所に二つの民間バス会社のバス停がありまして、どっちで会社に行っても同じ時間に会社に到着するとします。

の前提条件(与件)のところで、(そのリアリティの無さに)挫折してしまいそうです。せめて、JRと私鉄や地下鉄という鉄道同士の比較くらいの設例でないとね(尤もこれだと次に続く時刻表精度に話が発展しませんね)。

投稿: 監査役サポーター | 2007年11月11日 (日) 22時05分

いつも興味深く読ませて頂いてます。
仰る疑問ですが、全然アホではなく真っ当な疑問のように思えます。
通常、標準偏差は正規分布を前提として、プラスでもマイナスでも
効用やリスクが同じと考えるため、本のような議論になるのではないでしょうか。
こういった定量分析を行うときは実際グラフ(ここでは横軸に到着時間、
縦軸に発生頻度)書いて形状見ることも重要ですよね。

また、株式投資でも似たような議論があります。
株でも標準偏差を「リスク」と取り扱います。
しかし、株が上昇するのと下落するのでは「効用」の感じ方が異なるため、
本当にリスクの定量化が標準偏差で良いのか?と言われたりします。

投稿: resol | 2007年11月11日 (日) 22時16分

こんばんは。計量経済学のゼミにいたものです(笑)。狙い撃ちされているかもと思って白旗あげて洞窟から出て参りました(笑)。私が筆者でtoshiさんのような質問が来たら・・・くーこの人細かいなあ、と思うことでしょう(笑)。

例の主眼は「バスの時刻表がどれくらい信用できるか」という定性的な命題を「標準偏差」という定量的な指標ではかることができる、と言いたいだけで、早く来てしまって乗り遅れる、とかってことは全く考えていないですね。勘弁してあげて下さい(笑)。ただ、toshiさんがあげられている例に、「標準偏差の値が大きくても、毎日3分遅れのバス」とありますが、毎日3分しか遅れないのであれば、標準偏差は大きくなりようがないです。ですから、やはり実際の数値例でこの本にあげられているような差のある2社のバス会社が実際にあって、どちらの定期を買うかとなれば、(標本)標準偏差の小さい方を、つまり、全体的にサービスの等質性が保たれている会社の方を、そういうtoshiさんだって買いたくなるはずだ、と思いますよ。

まあ、この本の筆者が例が悪いのかもしれないですね。到着時間を揃えちゃったんでこうなったんですが、とにかく世間的には平均はよく使われていても、分散(偏差)があまりに使われなさすぎていると思うんで、なんとか定量の指標としての分散・偏差に言及したかったのでしょうね。特にしばしば悩ましいのは「平均が小さいけど分散が大きい標本」と、「平均が大きいけど分散が小さい標本」の比較事例ですね。意思決定者のリスク愛好度によるんですが。たとえば望ましい社会のあり方として知能指数とか所得の分布はどちらであるべきかという議論になったときに、日本はしばしば「平均は大きく分散が小さい社会」であり、たとえばアメリカは「平均は小さいが分散が大きい社会」であると考えるとわかりやすいと思います。高校数学までの学力は総じて日本人の方が高いですが、高度な数学の研究者の層はアメリカの方が圧倒的に厚かったりして。

そこは筆者に(もっとわかりやすい例にしてくれよな)とケチをつけておいて、とばして先に進みましょう(笑)。でないと世界史を毎回最初から野郎として挫折しては、「アウストラロピテクス」とか「シナントロプス=ペキネンシス」とかの類人猿の学術名だけ完璧に暗記できている野郎みたいになっちゃいます(笑)。

投稿: bun | 2007年11月11日 (日) 22時29分

なるほど、私の仮定した「毎日3分遅れ」というのが不適切な書き方だったことが、まず理解できましたです。(みなさま、ありがとうございます)といいますか、皆様のコメントを拝見しておりまして、かなり恥ずかしいエントリーを書いてしまったようにも思います。(^^; そういえば内部統制ネタでサンプリングに関する疑問を書いたときにも「正規分布」「ポワソン分布」について勉強させていただきましたよね。でも、「素人向け」の定量分析の「その1」でいきなり、そういったスキルを知らないと理解できないのでしょうか?おもわず「いきなりかよ?」とツッコミをいれたくなるのは私だけなんでしょうかね?ひょっとしますと、ヒントがもう少し後に出てくるかもしれませんので、ご示唆のとおり読み進めてみたいと思います。
それにしましても、resolさんはお優しいです。励ましながら、才能を伸ばしてくれるタイプですね(笑)こういった方に勉強を教えていただけるとありがたいです。
bunさんに出てきていただいて、すこしすっきりしました。(細かいですかね?)私はその世界史の最初のほうでつまづいていて、共通一次試験では選択しなかった人間です。
監査役サポーターさんの「そもそも論」、爆笑しました。
といいますか、昔からそうですが、監査役サポーターさんの
思考回路は私に(失礼ながら)かなり近似したものを感じます(笑)
もうすこし、内容について十分理解したうえで、みなさま方へのコメントに(もう少しましな)ツッコミをいれたいと思っておりますので、「きょうは、これぐらいにしといたろ・・」(池野めだかさん風 )

投稿: toshi | 2007年11月11日 (日) 22時56分

あとひとつ付け加えさせていただきますと、

>力と方向性をもったベクトルの問題(三角関数のお話)

物理の話にすればそういうことになるかも知れませんが、到着時間が毎日変わると言うことであれば、それを確率変数として扱うことができる、ということだと思います。現にtoshiさんは「リスク」という言葉をつかっておられますが、「リスク」であるということは「不確実」であるということであり、不確実性がある変数であるということは「確率変数」である、ということあり、つまりは「統計学」の守備範囲である、ということでして、代数や解析で扱う変数とは性質が異なります。値が定まっておらず、分布の形でしかわからない、あるいは神のみぞ知る変数なのですから。この、値がひとつに決まっていない変数、という考え方に是非なじんでいただきたいと思います。

大砲について考えてみると、真空中で初速と打ち出し角度が決まっているときに到着地点までの距離を計算しようとすると、ぴたりと計算できますが、現実には何度やっても同じ1点に玉が落ちるということはありえませんで、さまざまな雑音やかく乱要素がからんで、計算で出す値を中心(平均)にして同心円上に到着地点がぶれるはずですよね。そうしたブレも同時に扱おうとすれば、確率変数と見るのがふさわしいと思います。

「リスク」というのは「危険」と訳されたり理解されたりしがちですが、もともと単に「不確実」ということであり、確率変数であるということであり、実際それが危険なのか金儲けのチャンスなのかはそれぞれの話による、あるいは立場による、ということです。不確実でなければ危険ではない分金儲けのチャンスもない、ということでして。ことにビジネスの話になれば不確実性をとりこんだ議論をしないと話にならないと思います。ガルブレイスが「不確実性の時代」という本を書いて「ああ、いろんなことが当てにならないやっかいな時代がくるんだな」と不安がっていた頃を思えば自分の態度には隔世の感がございます(笑)。

投稿: bun | 2007年11月12日 (月) 00時09分

バスって大抵、発車時刻より早くついたらその時間まで待つでしょ、っていうツッコミ入れたかったのですが遅かったですww.(私も本買ってきたので一緒にお勉強させてくださいね)

投稿: fuji | 2007年11月12日 (月) 00時35分

bunさんの2度目のコメントは非常に理解のために役立ちました。心より感謝します。

といいながら、また新たな疑問について「追記」として掲げております。

>fujiさん
おひさしぶりでございます。
そのツッコミ、私も考えましたです(笑)
この本、絶対おもしろいですよね!?
これでホントに定量分析の門を叩くくらいのところまで勉強できたらいいですよね。(でも、また絶対ツッコミたくなりますよ 笑)

投稿: toshi | 2007年11月12日 (月) 01時42分

おはようございます。

>それではなぜ、標準偏差よりも平均値のほうを優先するのでしょうか?

平均値の方が2乗して正の平方根をとる計算がなく、計算が簡単だし、平均値でズレに大小があれば、小さい方がいいに決まっているからです。逆に平均値が違っていれば、標準偏差を比べることに意味がありません。平均値がまったく同じなので、その平均値がどれだけしっかりしているのか、あるいはあてになるのか、を標準偏差で比べているわけです。サッカーでいえば、勝ち点(平均)が同じ2チームの順位づけをさらにしたいから得失点差(標準偏差)で比較しているのと同じです。toshiさんの主張は、「勝ち点を無視してはなから得失点差で順位つければいいじゃねえか」と主張しているのと同じことになってしまいます。

それから、

>そもそも不確実性を数値化することをあきらめて、はじめから何の仮定も与えずに、場当たり的に平均を出しているにすぎないわけで、データの扱いとしては極端にラフな考え方ではないかと思います。(標準偏差が確率変数に属するものを扱うとしたら、平均値の算定はそうではないわけですよね。)

この部分のご理解には相当難がございます(笑)。平均は我々の日常生活にあまりになじみが深いためただの算数であり、これから学ばれる統計学とは無縁のように思われているのかもしれませんが、そうではありませんで、平均・平均値あるいは期待値は統計学上最も重要な概念のひとつであります。「極端にラフな考え方」のように思えるしごく単純でなんの芸もない計算のようにみえながら、その実、推定値としては極めて優れた性質(「正規分布に対し標本平均が最尤推定量かつ不偏推定量である」といいます)を持っていることが、数学的に厳密な仕方で証明されています。

投稿: bun | 2007年11月12日 (月) 08時49分

おはようございます。いつも拝見しております。
toshiさんの疑問というのはデータの信用性をどう評価するか、ということですよね。
平均値を優先するということは、元になっている1週間のデータについても、確からしさを優先するということになるのでは?そうかんがえると、toshiさんの疑問もナットクできるような気がしますが。。
私も興味がありますので勉強させてください。

投稿: uemon | 2007年11月12日 (月) 09時20分

私もたびたびこのような本に期待して、そして大体裏切られています……
著者の方は数学者ではありませんが、もしかするとこの手の数理や解析分野に精通している方は数理的理解力・洞察力に富んでいるものの、説明や例示があまり──はっきり言えば説明ベタではないかと思ってしまいたくなります。もちろんこれは偏見であり、八つ当たりなんですが。

数理的理解力・洞察力に富んでいる方は私のようにそれに恵まれない者の視点や悩みが想像出来ないのだろうと思います。「普通これなら分かるでしょ…」と言う感じで書かれているのだろうと想像しています。
友人に数理を極めた者がおりますが、この友人は整数論により博士になった男です。よく数学の話をしますが式を操る解析にはほとんど興味を示さず、数理界の悟りを求めているようです。

分散やら偏差やら正規分布やら──あれは数理的高精度世界観のフレーム構築ですね。その母集団と言うか母集合の特性が世界観式で分かってしまうみたいです。

投稿: 日下 雅貴 | 2007年11月12日 (月) 10時59分

(追記)を拝見しますに、本来の説明のゴールとして設定したテーマが、その過程として示したうかつな引用や例示がイロジカルな内容だったためにゴールに向かうどころかスタート直後から迷走を初めて当初テーマが吹き飛んでしまう……ありがちな事だなあと本エントリを読んで己を戒めました。
toshi先生の(追記)の突っ込みはまったくもってその通りだと思います。この手の指標や手法はほんとにケースバイケースですから取扱注意であります。

投稿: 日下 雅貴 | 2007年11月12日 (月) 16時28分

まだ、誤解があるようですのでもう一度簡潔にまとめますと、

1.遅れ方がばらばらの2つのバスの運行の正確さを比べるには、
  それぞれのバスのズレの「平均」(標本平均)を使って比べるのが、
  理論上、最も優れています。

2.そして(標本)平均が同じだった場合、どちらのバスも
  優劣つけがたいかというとそうではなくて、
  その平均がどれくらい「当てになるか」を
  (標本)標準偏差を使ってさらに比較することができます。
  平均は同じであるにもかかわらず、
  標準偏差が大きいバスは標準偏差が小さいバスに比べて、
  定時よりもズレた時間に到着する可能性(確率)が
  高いのです。

たとえば平均が同じで分散の異なる日常的な例として、他に、車と電車があると思います。とある目的地に行くまでに車でも電車でも平均1時間かかる(ような2経路を考える)として、どちらの交通手段でも全く差はないかというとそうではありませんよね。電車の平均1時間の方が予測値として「あてになる」といいますか、平均のまわり、1時間前後の値を取る可能性が高い。20分とかでは絶対に着かないかわりに2時間かかることはほぼない。逆に車の方は途中の道路状況などによって20分で着くときもあれば2時間かかるときもある。従ってとにかく早く着く可能性を高くしたければ、同じ平均1時間の交通手段であっても車を使う人が多くなるでしょうし、所要時間が読める方が望ましい状況であれば電車を使う人が多くなるでしょう。いただいたバスの例にひきつけていえば、標準偏差の小さい方のバスは、ここであげさせていただいた例でいえば、より電車的であるわけです。

投稿: bun | 2007年11月13日 (火) 00時32分

bunさん、詳しいご教示ありがとうございます。


「平均・平均値あるいは期待値は統計学上最も重要な概念のひとつであります。「極端にラフな考え方」のように思えるしごく単純でなんの芸もない計算のようにみえながら、その実、推定値としては極めて優れた性質(「正規分布に対し標本平均が最尤推定量かつ不偏推定量である」といいます)を持っていることが、数学的に厳密な仕方で証明されています。」

そうなんです、ここなんです。
ここがよくわからないところなんです。
正規分布を仮定する場合の「正規分布」とは、1週間のデータをもとに考えるのでしょうか、それとも、1週間のデータの背後にある膨大なデータを仮定しながら考えるのでしょうか?
ちなみに、平均値は1週間のデータによらざるをえないですよね?
bunさんがおっしゃるように、正確度において、平均値と標準偏差が同じレベルで計測できるのであれば、「正規分布」の仮定とは、なにをモノサシとして出てくるのでしょうか?(質問の趣旨がわかりにくかったらすいません。もうすこしわかりやすく質問いたします)


投稿: toshi | 2007年11月13日 (火) 03時01分

………何かの値の集まりからその実態やら特性を測るとき、平均値を比較しただけでは分からないので、分散・バラツキを見なさいとはよくものの本で読みました。平均から外れるものがどれだけ・どのようになっているかを比較してみないと何故──例えば製品の入り目の多寡に関する苦情(A工場とB工場の入り目平均はほぼ等しいのにB工場の製品は入り目が少ないとの苦情)が多いか分からないよと、ものの本の例示等にあります。

toshi先生の(追記)の下線部で「優先」とありますが、指標として平均値に頼って分析しようとする事を「優先」とすれば、確かに平均値だけで結論付けるのは分散の違いにフタをしてしまうため分析・判断を誤まるおそれがあり、よろしくないと思われます。これを受けての(追記)後段の平均に対する(突っ込み)記載はこのような「平均値至上視」「平均値万能視」はおかしいと言う根拠の論述だと思われます。

したがって、「平均値」と言う指標がもつ固有の信頼性を問題視しているわけではなく、主に平均値で分析・判断する考え方に疑問を呈していたと理解していましたが──ただ、エントリ本文を読むと、著者は平均値を皮切りにして分散も用いた比較を展開するように書いているとも思われます。
平均値にばかり依拠する姿勢を「優先」として疑問視しているか、分析アプローチ上の順番を「優先」と表現して疑問視しているか──どっちなんでしょう?

※後者のような気がしてきました

投稿: 日下 雅貴 | 2007年11月13日 (火) 08時22分

おはようございます。

とにかく人間には母分布を完全に知ることはできない、のです。そうしたときに、できるだけ母分布を正確に推定するにはどうしたらいいか、という話です。

証明するのに正規分布を使うと、きれいに証明できるというだけで、分布を見たときに平均の周りが一番高くてそこを頂上に左右対象になだらかに小さくなっていく形の分布であると考えられるのであれば、まあ平均を母平均の推定値として使わざるを得ないのです。で、理論的に平均を使うことの正当性の根拠を証明するときに、母平均が正規分布であると仮定しているだけなのです。どんな形状の分布でも平均が優れているという証明ができるはずがありませんから。山が2つ以上あったりする分布をお考え下さい。ちなみにバスの場合でも、構造的に遅れたり早くなったりする事情があればそれを取り除いて考えなければいけません。たとえば月曜日だけ工事があるため、やたらに遅れるとか。そういう場合には月曜日のデータを捨象しなければいけなくなりますが、そのような特殊事情がデータに全くない場合は、データは正規分布に従うわけです。そういう分布を正規分布といっているに過ぎません。

たとえば将来株式市場の効率性市場仮説などの検証をする場合に、正規分布を仮定できるか否かで仮説の強さが変わってきて、その仮説なら棄却できるかが問題になったりします。こちらのブログでも以前に書かせていただきましたが、経済のもろもろの事象の分析をするにあたって、正規分布というのはしばしば強すぎる仮定と思えることも少なくありません。

しかしとにかくこのバスの話は初歩的な導入部分に過ぎませんので、正規分布のことは考えなくていいと思います。繰り返しになりますが、何故平均を使うのかを理論的に証明しようとするときになって、はじめて必要になるだけです。

なんにつけ、記述のついている全ての細かな注釈まで全て完全に理解できないと先に進みたくないという方がしばしばおられます。まあこういう方はほぼ確実に数学が苦手なのですが、一見理論的な正確性を重視しようとつとめられて立派な態度のようですが、私は全く褒められた態度ではないと思っていまして、度が過ぎればただ単に「勉強したくない」というだけだ、と思ってます(笑)。こういう人にはどんな説明をしても、その理論的な正確性さの説明そのものでさえ理解していただけないものです。自分も勉強していてそういうところが気になって進めなくなったらその点自戒するようにしています。

統計についても、理解しようとして勉強を始めたのはいいものの、分布の確率密度関数の数式の複雑さや難解さなどに心を奪われて止めてしまう方が数多くいらっしゃいますが、それがわからなければ統計がわからないとかそういうことでは全くありませんので、理論的に正確さを期して記述してあるところは飛ばして、まずは全体像を理解するようにつとめられたほうがよろしいかと。

>正確度において、平均値と標準偏差が同じレベルで計測できるのであれば、

残念ながらこの文言の意味がわかりません。どんな分布に従っているデータであれ、とにかくデータがあれば、それらの平均値や標準偏差は母平均や母標準偏差の推定値として全く意味のないものになるかもしれないものの、計測(という計算)するだけなら、いつも必ず計測(計算)できますが。「同じレベルで」とはどういう意味でしょうか。「レベル」の意味がわかりません。

繰り返しになりますが、本題の例のような場合、さほど正規分布ということにさほどこだわる必要はありません。ただ、なぜ平均で推定するのか理論的に論証したくなったときに正規分布の仮定をおいた方が証明しやすいというだけです。私のこの説明でご理解いただけなければ飛ばして先に進んで下さい。

投稿: bun | 2007年11月13日 (火) 09時17分

この本を読んでない状態でのコメントなので、本に書いてあるのでしたら、無視してください。
また、ケーススタディなので、いろいろな考え方があると思います。以下は、その一つというくらいで受け取ってもらえたら、と思います。

本ケースのような状況で、調査結果に基づき検討する場合、私なら、まずは、度数分布を求め、ヒストグラムを描くような気がします。
ヒストグラムを見比べるだけで、(平均などを計算しなくても)どっちが好ましいかが、見当がつく場合が多いし、ヒストグラムの形には平均や標準偏差だけではわからない情報も含まれているので。
ただ、ヒストグラムの形だけだと、あまり「定量的」という感じがしないので、ヒストグラムの形を平均値や標準偏差という数値で代表させて、比較するという理解です。また、元のヒストグラムの形が正規分布とみなせるのならば、平均と標準偏差の2つの数値で完全に形が決まるので、そういう意味では平均と標準偏差は有用な指標だと思います。

投稿: monami | 2007年11月13日 (火) 12時02分

日下さん、bunさん、monamiさん、ご意見ありがとうございます。ヒストグラムといったものは、私まったく存じ上げませんでしたので、検索しましたところ、いろいろと統計学の手法として解説されていますね。本書にあるように、いったい自分が何を目的としてデータを情報に変換したいのか、そのあたりをきっちりと解説を読んで理解してみたいと思います。

ところで、bunさんがいわれるように、本書(定量分析実践講座)を読み進めておりましたところ、またひとつおもしろいことに気づきました。最初に「リスクはベクトルのようなものではないか」と書きましたが、そうではなくて、レンジ(幅)の問題として捉えるわけですね。つまり幅が大きいことをリスクが大きいとして捉えるわけで、損害の大きさや発生の可能性の大小そのものをリスクと捉えるわけではなくて、起こりうる結果の幅の大きさのことだということですね。
内部統制の議論のなかで、リスクマネジメントがよく言われるところですが、リスクの評価には「小さな努力→小さなリスク」「小さな努力→大きなリスク」「大きな努力→小さなリスク」「大きな努力→大きなリスク」といった分類手法がありますよね。この分類のなかで、まず小さな努力→大きなリスク」「大きな努力→大きなリスク」の分類から統制すべき、といったマニュアルも散見されるわけですが、そこで言われる「リスク」と、この定量分析における「リスク」の考え方は違うのでしょうかね。
一般的にはどうも損害の大きなリスクとか、発生可能性の高いリスクといった使用法が通則的に思えてしまって、最初のような誤解を生んでいたのではないかと思った次第なんですが。

投稿: toshi | 2007年11月13日 (火) 17時13分

ははあ……これは努力の小→大とリスクの小→大を軸に取ったポートフォリオ分析の視点で重要性の高い統制をざっと選別する戦術ですか。
リスクを「ベクトル」のように考えると言う事は、大きさと向きで考えると言う事だと思いますが、幅(レンジ)……とはなかなか難解な第一印象です。どう解釈すれば良いのか考え込んでしまいます。どうしても「固有リスク」と「統制リスク」で考えてしまうので…
いつもどんなダメージがあるか、どんなロスがあるかを先に考えていますが……リスクの幅感は私にはむずかしいです。

例えば、現金と言う資産にまつわるリスクがありますが、手許の現金として二三十万が手提金庫に入っていたとすると、現金の紛失・盗難リスクの幅は最少値一円から幅があるとしても、大企業から見れば目くじらを立てるようなリスクにはあたらない……そうなると少額現金はレンジから外れることになりますか?

しかし、これは重要性の原則なわけで金額的重要性や質的重要性は正にレンジになります。そうすると例えば先の例で言えば、回収した五百万円の小切手が手提金庫にあればレンジ内と言うことで、これはヘッジしなければならない……
そうなると初期に想定可能なリスクレンジに対して、その企業がヘッジのためにコントロールすべきレンジが重要性を基準として幅を変える──。
小切手をすぐ大金庫入れる小さな努力→大きなリスク五百万円(のヘッジ)、二三十万の現金を手提金庫で保管する小さな努力→小さなリスクと言うロジックでしょうか……幅の解釈違ってますか? 定量分析的リスクはまた違うような気も…?

あれ、そうなるとリスクをベクトルとして捉える方がむずかしいかもしれませんね。矢印の長さはリスクの大きさ・強さ、では方向は……
あれ、こっちの方が難解になってきましたね。考えます。

投稿: 日下 雅貴 | 2007年11月13日 (火) 18時17分

たまたま手元にあった本なのですが、「心理学が描くリスクの世界(改訂版)」p18に、
「リスクという用語は、(中略)実は複数の定義が存在する。」「すわちリスクとは、1)利得・損失を生じる確率(損失に限られる場合もある)、2)事故・災害、危難といった個人の生命や健康に対して危害を生じる発生源の事象、3)損失の大きさとそれを生じる確率の積、の3つである。」と書かれています。また「意思決定の場面で用いられるリスクは基本的に1)の定義に該当するものがほとんど」とも書かれています。
この本は内部統制のことは視野に入っていないので、内部統制におけるリスクの定義が上記のいずれにも該当しないかもしれませんが、いずれにしろ、リスクという言葉には複数の定義があり、分野により定義が異なることは確かなようです。

投稿: monami | 2007年11月13日 (火) 18時33分

リスクの定義に種類があるとすれば、これはリスクと(利害)関係があって、そのリスクを想定する者が考えるその立場との関係からリスク定義が決まると考えるのがおそらくつじつまが合っていて、その立場たる者が意識・想定するリスクをどうやってヘッジするかと言う、当然に進む第二段階では、「トップダウンアプローチ」による「リスクの評価と対応」と言う今時の流れになっていくものの、内部統制の限界の筆頭に挙げられる「経営者による不正や統制無視」はSOX法などの法制度の背景にある非常に深刻なリスクであるのに、トップダウンアプローチとしてそのリスクそのものにリスクヘッジアプローチを考えさせるのは随分おかしなことで、監査に第三者の立場を求めるならこの点も第三者に十分関与させたいところ、現実はウォークスルーなどで外部監査人が相談に乗るだけになっているため、このトップダウンアプローチを揶揄してしまうものすごく差し障りのある表現と知りつつも書いてしまいますと、統制限界が生むおそれのあるリスクとトップダウンアプローチの関係は、その家に盗みに入ろうと考えているかもしれない者にその家の防犯方法を考えさせている──と言うメタファーになってしまいましょうか。一度言ってみたかったのでつい書いてみました。
もちろん、実際はその家をリスクから守りたいと思う者の中で、強い力と情熱がある者がリスク防止体系の構築の指揮を執っています。屁理屈で言うと先のメタファーのようなおかしな事も指摘しようと思えば出来てしまいます。

投稿: 日下 雅貴 | 2007年11月14日 (水) 11時23分

こんばんは。初めてコメントします。

リスクの定義について色々考察されているように見受けられますが、一般的な理解としてのリスクと統計学上のリスクはあるときは同義で捉えることができる場合もあれば、全く異なる意味で使用することもあります。

前回のコメントであるとおり、統計学上のリスクとはバラつき具合そのものであり、即ち分散あるいは標準偏差です。もっと分かりやすくいえば、正規分布のあの富士山型の裾野が広いのか、狭いのかといったものです。
他方、日常的に使用されるリスクは一般に危険性があるかどうかに関心が注がれ、そこに危険性がなければバラつき自体は問題にしないというものですね。

内部統制のリスクの話については、例えば公認会計士の財務諸表監査について、監査リスクを実際とは異なる虚偽の意見表明をすることと仮に定義すれば、不適正な財務諸表に監査人が無限定適正意見をだす可能性が高ければ監査リスクは高いことになりますし、逆に適正な財務諸表に対して不適正意見を表明する可能性が高い場合でも同様に監査リスクは高いといえます。
従って監査リスクは統計学的なリスク(バラつきのリスク)を指しているといえます(リスクアプローチ自体が統計手法を取り入れたものですから当然のことといえそうですが)。

しかし、財務諸表監査において、一般に適正な財務諸表に対して不適正意見を出す可能性よりも逆のケースの可能性のほうが高いため、投資者ひいては監査人により危険性(バラつきではないリスク)のある、不適正な財務諸表に無限定適正意見を表明する可能性に関心が寄せられていると理解できそうです。

また、ヘッジ会計におけるキャッシュフローヘッジでは将来キャッシュフローを固定させることを目的としたもので、まさしくバラつきを少なくするものに他なりません。それが不利にはたらくリスク手段であったとしてもです。
しかし現実には、将来利上げが予想される局面において、当事者は変動金利を固定金利にする金利スワップ契約について関心を示さないでしょう。(例外としてパッシブ運用などの投信では投資収益率を上げるのが目的ではなく、あくまでインデックスにどれだけ近づけるか、つまりインデックスを平均としたバラつきをどれでけ抑えるかに関心があるため意思決定上重要な関心があります)

と、長々書きましたが、つまりリスクは危険性とバラつきの2つの意味を持ち、主に統計学が絡む局面ではバラつきを指していることが多いこと、本来はバラつきの意味であったものが当事者の関心次第では危険性に意味合いが変化することといった感じでしょうか。

投稿: freedom | 2007年11月14日 (水) 19時14分

のらねこです。

早速買って読みましたが、文章が硬くて歯が痛くなりました・・・

平均はレベルの高さ、標準偏差は安定度と思っております。
バスの問題は、どちらでも早く来たバスに乗りたいです。
定期代がもったいないですが。
本能で意思決定するのらねこです。
本書は意思決定に数値をどのように利用するのかが趣旨と思いますので、のらねこも統計論のところはひとまず置いといて次に進みます。

「リスクの幅」ですが、これは数値(一次元の発想)で表現するから、幅でしか表せないのでしょう。
損害の大きさや発生の可能性の大小そのもので評価することは、縦と横の2次元の発想ですね。
(この場合でも、数値(一次元)で表すと「損害額×発生頻度」になります。)
定量解析とは数値で判断する「ものさし」と思っております。

定量解析の課題は数値の一人歩きですね。
特にゲームの理論などでの将来を予測するときは要注意ですね。
欲望だらけの値になったりして・・・

投稿: のらねこ | 2007年11月14日 (水) 21時37分

正規分布を仮定する場合の「正規分布」とは1週間のデータの背後にある膨大なデータを仮定しながら考えます(母集団、標本、サンプリング等のキーワードで色々調べるとご理解していただけると思います)。
そしてそもそも論なのですが、標本(1週間のデータ)がそもそも正規分布に従っていないのであれば平均と標準偏差を使って判断を下しても”統計的に意味がない”ということになってしまいますので、平均や標準偏差を使う前に標本が本当に正規分布に従っているのかどうかを調べる必要があります(「適合度検定(正規性検定)」。
「リスク」という用語は統計学的(定量分析では違うのかもしれませんが)には単に標本が属する母集団の期待値からの「ばらつき、偏差、分散」という意味しかないはずです。
リスクマネジメントにおけるリスクというのは「事象の発生確率x事象の得失」を指しているので考え方は異なると思います。リスクマネジメントにおいては「事象の発生確率を下げるためのコスト」や「使用できるリソース」も考えなければならないのでゲーム理論や(非)線形計画法といった知識が必要になるのではないかと思います。
蛇足ですが、freedomさんのおっしゃるような監査リスクのケースですと法や経済・社会の変化が監査リスクに強く影響するため、統計的・定量的な判断はむしろ危険であるように思います。母集団の性質が容易に変化してしまう可能性があれば定性的な分析を用いるほうがよいのではないでしょうか?

投稿: 素人ですが・・・ | 2007年11月14日 (水) 23時12分

──なるほど、確かにそうですね。
計画・予測等を裏切られるリスクと被害・損失等に遭遇するリスクがあるのは日常感覚でも理解出来ます。もちろん、計画・予測が大はずれした結果として損失を被る事も多いので、二者を単純に区分するわけにも行かないのでしょうが、先物相場が予測と違った動きをして損失を出したと言うケースと、従業員が業務上で不法行為を働いて管理者が責任を問われると言うケースを考えると区分したい気も起きます。これはよくよく考えないと分かりません。

さて、今回の内部統制報告制度で言えば、これは財務報告に係わる信頼性を損なうリスクを主題としているので、財務報告の虚偽開示が実際に行われてしまうと言う最も好ましくないケースで言えば、端的には監査リスク(発見リスク)が現実になったと言う事になるのでしょう。これを防止・回避するのが今回の法制の最大の眼目のひとつであるはずです。

そうなると、企業がトップダウンによるリスクアプローチで財務報告の信頼性毀損リスクをヘッジする=内部統制の整備と構築と適確な運用、と言うのはしっくり感が今ひとつです。
もちろん、内部統制だけではなく外部監査等でいろいろ手当てをしているわけですが、そのヘッジ手段では間に合わなかった結果、追加ヘッジ手段として今回の内部統制報告制度があるので、期待は一身に企業の内部統制整備に注がれたと言う流れでしょうか。
──やっぱりロジックとしては違和感がありますね。新規補強したと言うよりも、機能不全だった箇所を修理しただけのような感じです。

定量分析→リスク→強引に内部統制話に引っ張ってしまいまして、toshi先生、関係の皆さん、論点中断で大変失礼しました。さりながら、リスク=ばらつき=偏差多寡の問題、と言う定量分析に何とかつながるところで小悟を得ました。あとはモニタリング結果をどのように変数として捉えるか……偏差として表すか、指標化出来るかになるでしょうか。ううん……踏ん張りどころです。

※後段はもちろん、監査リスクをまずは単に発見リスクとした場合で、社会・経済の環境変化等による重要性の変化は枠外になっていると思います。

投稿: 日下 雅貴 | 2007年11月15日 (木) 09時31分

こんにちは。

誰が最初に訳したのか存じ上げませんし、どのような経緯で今の訳語に落ち着いたのか存じ上げないのですが、そもそもなぜnormalの訳が「正規」なんでしょうね。規範性があるようなイメージを与えて固すぎてあまり好きな訳ではありません。勉強するときに正座してしまいます。normativeと混同しすぎているのではないかと思うのです。全く無縁な単語ではないですけれど。

投稿: bun | 2007年11月15日 (木) 12時06分

すでに2年半以上ブログを開設しておりますと、法律に関する議論であれば、管理人としてうまくまとめる自信があるのですが、こういった話題になりますと、うまくまとめるのもムズカシイですね(笑)
freedomさんのご意見は、なんとなく、いままでの疑問の整理と今後の争点を集約しているように、個人的には思いました。

ホント、普段つかっている言葉のイメージが、けっこう前に進むことの邪魔をしているのかもしれませんし、bunさんが指摘(警告?)されているように、もうすこし柔軟性をもちならが読み進めてみようかと思っております。でも、またすぐに新たな疑問が湧いてきて立ち止まりそうな予感がしておりますが(笑)

投稿: toshi | 2007年11月16日 (金) 01時18分

おはようございます。

蒸し返すようで申し訳ございませんが期限切れの饅頭蒸し返すほど悪質でもないかとご容赦いただきたく最後にコメントさせていただきます(笑)。

もっともコメント欄を何度も汚しております小生も分野が少し違えば全く他人様のことは言えないわけでございまして民法やっているときに法人?とか制限行為能力?とかで現代哲学持ち出して立ち止まって物権や債権まで達しなかったことが何度もあるわけでございます(笑)。あれは今思えばやりたくなかっただけだな、と(笑)。しかしその当時は自分が疑問に思ったことを流さない、つまりは自分をごまかさない男と自分をみなして、決然としておったわけでございます(笑)。

と、いいつつそもそも論として、定量分析が経営に使えるのかというと、私は総じて懐疑的であります。

意思決定のモデルではプロジェクトの成功確率が既に与えてあったりしますが、事前に正確な確率ひいては期待値があらかじめわかっている場面など、実際の経営判断が必要な場であり得るでしょうかね?そんな凄いデータが所与であるということは、ほとんど意思決定は終わっているに等しいじゃないか、トートロジーじゃないか、と思うわけです。それに事前に主観確率(1回限りの事象にかかる確率)でない確率が既に判明しているということは繰り返して実験しうる規模の小さい(安い)プロジェクトに過ぎないということでもあると思います。そんなちゃちなプロジェクトの意思決定の理論を身につけても、勉強の費用対効果ということを考えれば問題が大きすぎないかと。

実際に意思決定が必要な場では、重要な場面になればなるほど、動く価値の規模が大きく、かつ、前例がより少ないプロジェクトに関する決定をしなければならないのでありますが、巷の定量分析はそういう場面で使えないものばかりというか、別にもう意思決定が済んでから、それらの正当性や却下した意思決定の選択肢の不当性を事細かに数字で評価する手法ばかりが紹介されているという不満を20年来持ち続けているものでございます。

結論としては、あまり深入りされない方がよろしいかと、私は思います。この手の議論で助太刀が必要になったら私をお使い下さい、安くしておきますから、ということでいかがでしょう?(笑)。

投稿: bun | 2007年11月19日 (月) 11時27分

bunさん、アルファの応援メッセージ、どうもありがとうございました(笑)蒸し返し大歓迎ですよ。
といいますか、どうも私の性格からして「深入り」したくなってしまうんです。(笑)
「ランキング入りするような本の内容がわからないはずはない!いや、わからないんだったら、みんなもわかったようなフリしているだけじゃないの?」といった素朴な好奇心(懐疑心?)を大切に生きてみたいんですよ。

実際に意思決定が必要な場では、重要な場面になればなるほど、動く価値の規模が大きく、かつ、前例がより少ないプロジェクトに関する決定をしなければならないのでありますが、巷の定量分析はそういう場面で使えないものばかりというか、別にもう意思決定が済んでから、それらの正当性や却下した意思決定の選択肢の不当性を事細かに数字で評価する手法ばかりが紹介されているという不満を20年来持ち続けているものでございます。

  ↑
これ、笑えるといいますか、当たっているように思います。
これをヒントにまた新たなブログネタができましたです。

投稿: toshi | 2007年11月20日 (火) 12時11分

>toshi先生

こういう分析が注目されてきたのはここ十年くらいなんでしょうか。
たしかに使える(定式化)と言う点ではなかなかありませんね。
マーケティングの分野ではだいぶ使い込まれているようですが、仮説の正当化説明理論かもしれません。とは言え、使わないよりずっと良いようですし、使えば進歩もありますので。

前例の少ないもの、未知数の多いもの、リスクの高いもの──
仮説を立てて検証するしかないのが現実ですが、ロジカルシンキングだと規制の枠を超えたものがあまり出ず、天啓(ひらめきや第六感、神がかりと言う人も居ますが)にしかずかと思うこともありますが──法を扱う状況でのストレスを推し量る事は出来ませんので、toshi先生の心中は察するに余りありです。

ところで──
オフィスのあるビルの書店でようやく件の書を発見しまして、早速引用された部分(48頁でしたか)を立ち読みしましたが、これ分かりやすいですよ?
他は読んでませんが、この箇所に限ってはすらりと書いてあると思います。大阪のDNAであんまり突っ込んだったらあきませんよお…

※すでに言うだけ言っておいてこう言うコメントはかなり反則である事は弁えておりますので御容赦ください。

投稿: 日下 雅貴 | 2007年11月20日 (火) 12時47分

>日下さん

そうですか・・・わかりやすいですか・・・(笑)
作者の方が閲覧されていたら、ホッとされていることと思います。
まぁ、私としては、たとえ大阪のDNAと言われましても、「わからんもんは、わからん」とはっきり述べるブログのほうがおもしろいと思っておりますので、ご迷惑にならない範囲では、これからもツッコミを入れていこうかと思っております。

投稿: toshi | 2007年11月21日 (水) 02時06分

>toshi先生

(すいません……もしかすると直前のコメントで、キー操作をあやまり校正中でアップしているかも知れません。その際は誠にお手数ですが管理人権限で抹消頂ければ幸いです。なお念のためここに近似内容を再掲しておきたいと思います)

さて──大変失礼しました。
ブログでは意見をきっちりと、少し尖がって書いた方が面白いというのは同感です。
どんどん突っ込んだッてください。
失礼の御詫びといっては何ですが──

「図解入門 よくわかる統計解析の基本と仕組み 改訂版」
山口和範著 秀和システム 1800円+税

──をお奨めしておきますので、書店の立ち読みで御吟味下さい。
統計解析の数ある解説書の中では私には一番説明に親しみがもてました。
それでも内容的には半分も手が届きませんでしたが、理解できるところも多々ありました。※他の著書の内容はほとんど手が届きませんでした。
本は出会いと相性ですからもしかすると氷解する事もあるやも知れません。
また、インターネット上の統計学講座もお奨めしておきます。私の場合はこれに随分教えられました。分散や正規分布はたくさん解説があります。ハンバーガーショップを例に取った話など、突っ込みどころ満載かもしれませんが。

投稿: 日下 雅貴 | 2007年11月21日 (水) 08時33分

 私は、山口先生と異なり、自他共に認める理系「音痴」です。
やはり、この本を読ませていただいて、最初の例題ところの
「つっこみどころ」の多さに共感いたしました。
 僭越ながらトラックバックさせていただきます。

投稿: 西野佳樹 | 2007年12月 9日 (日) 20時36分

西野先生、実名でコメントありがとうございます(笑)

ちなみに、西野先生は、私のデジタルの世界での「お師匠さん」です。
前にもこのブログでご紹介させていただいたとおり、たいへん有益な情報をほぼ毎日ブログで更新されておりまして、私も拝読させていただいております。

理系・・・は、究極のご謙遜でありますので、おそらく私の数倍ハイレベルな「ツッコミドコロ」をすでに認識されているのではないかと推測いたします(笑)

投稿: toshi | 2007年12月10日 (月) 12時41分

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック


この記事へのトラックバック一覧です: 「定量分析実践講座」、いきなり挫折。。。:

« ジャッジ(島の裁判官)最終回、泣けました。。。 | トップページ | 赤福再生プログラム(私案) »