comment

興味がない方は読み飛ばしてください。
「相関関係ありと言えるのは相関係数が-1か1の時だけ!!」 by 東猴史紘氏でのKapokさんへのコメントが長くなるので、本文にしました。


r=0.99ならば「相関関係あり」と言うべきだと、例を示して説明されているようですが、それも誤りです。
誰がr=0.99なら相関関係ありだと書いていますでしょうか。
私が先の「相関関係ありと言えるのは相関係数が-1か1の時だけ!!」 by 東猴史紘氏内で主張したのは下記の通りです。
以下は相関係数が0.99の散布図ですが、寄与率=0.99x0.99=0.98ですので、東猴氏はこのグラフは「相関がある」とは言わないそうです。
r_099


データの恣意性やサンプルサイズの問題ではなく、このグラフでも「相関がある」とは言えないってのはもはや統計学じゃなくてどこぞの怪しい宗教ですよ。

結論部を繰り返すと、以下は相関係数が0.99の散布図ですが、寄与率=0.99x0.99=0.98ですので、東猴氏はこのグラフは「相関がある」とは言わないそうです。
さらに大事なポイントを繰り返すと東猴氏はこのグラフは「相関がある」とは言わないそうです。

あくまで例示した散布図を「相関がある」と評価するかの話をしているだけです。そして、東猴氏の統計学だとr≠1なので"相関関係がある"とは言わないが、私はこの散布図なら統計的に「相関関係あり」と判定すべきだろうという話です。
「r=0.99ならば「相関関係あり」と言うべきだと、例を示して説明されているようですが」は明確に誤りです。


曲解はせずに、読み取った通りに (中略) と表現した上で、問題点を指摘してみるのが論理的で良いのではないでしょうか?
このエントリーは引用先のものを曲解した上で否定しているため、気になったのでコメントしてみた次第です。
私に向けてこのような貴重なご意見を書いていただきましたが、Kapokさんは私の主張を曲解されていませんか?
それとも、私が頼んでもいないのにもかかわらずKapokさんは下記のように私の文章の書き方に対して指導コメントをお寄せいただいておりますが、上記の散布図の話も「この文章の書き方をレクチャーできる私が誤読する(曲解してしまう)のは吊られた男の文章の書き方が悪いからだ」ということでしょうか?
> 寄与率=0.99x0.99=0.98ですので、東猴氏はこのグラフは「相関がないとは言えない」は言うそうです。

と書かれてはいかがでしょうか。その方が表との対応が明確で、誤解を招きにくいからです。
間違えて 0<R2<0.5 の部分を参照して取ってきているように見え、紛らわしくなってしまうため、避けた方が良いでしょう。



そういえば、Kapokさんは少し前(2か月強jほど前)のコストが高い投資信託はリターンが低くなることを確認では以下のようにコメントを寄せられていました。
1. Kapok 2014年04月29日 15:12
相関係数が0.2程度と小さいので、私なら「信託報酬とリターンに、相関なし」と結論付けます。
3. Kapok 2014年04月29日 18:33
「相関なし」は言い過ぎですね。
「相関は認められない」程度でしょうか。
一度訂正が入っているので、その部分を直して一文にすると相関係数が0.2程度と小さいので、私なら「相関は認められない」と結論付けます。ですね。(最終的には相関なしは撤回されていますが)

今回、「r=0.99ならば「相関関係あり」と言うべきだと、例を示して説明されているようですが、それも誤りです。r=1でも相関がない例もあるからです。」と書かれていますが、このような理屈はご自身の文章には適用されていないのでしょうか?
Kapokさん風に言えば、「r=0.2程度ならば「相関関係は認められない」と言うべきだと主張されているようですが、誤りですね。r=0.2程度でも相関関係がある例もあるからです」となりませんでしょうか?
ほんの2か月ほど前の文章ですが、その時とKapokさんの中で文章書きのルールが変わったのか、それともKapokさん自身と私に適応されるルールは違うのでしょうか?



文章の書き方についてアドバイスいただいたので、私からもお返しさせていただきますと、相手を論破するために目が曇ってロジックが曲がっていませんか?


コストが高い投資信託はリターンが低くなることを確認のコメントでは、Kapokさんは以下のように2度にわたって右側のはずれ点を除いた場合」をリクエストされていました。
ちなみに右側のはずれ点を除いた場合はどうなりますか
右側のはずれ点を除いた場合はどうなるのか教えていただけたりしますでしょうか

しかし、私がブログ文中で掲示したグラフは以下です。
リターンと信託報酬 (10年)

【相関係数】
    • 1年: 0.12
    • 3年: -0.05
    • 5年: -0.20
    • 10年: -0.16

散布図を見れば一目瞭然ですが、当然左側にも外れ値があります。
一般的な統計的なはずれ点の処理であれば、左側のはずれ点も除外対象になりそうなものです。ですから、私は「"右側の"はずれ点を除いた場合」という恣意的に右下のデータを削除しようという操作はやっても統計処理の意味は全くありませんので、お断りします」と、その要求を拒否しました。

しかし、それでもKapokさんは私がその右側のはずれ点を除いた場合のグラフを作らなかったことに対して以下のように返事をされました。
はずれ点はデータを変な方向に引っ張ったり、フィットを外す要因になるため、それを除いた統計処理データに興味があったのですが、残念です。
これが本気ならば、「右側のはずれ点を外せ」と幾度と要求したのは、はずれ点のデータ処理が何ぞやを分かっていないことになります。左側にも大きく外れている点はあるので右側だけ外すという処理は統計としては良くありません。
もしくは、右側のはずれ点を外せばKapokさん側に有利な数字になるので、相手を論破できそうなポイントしか目に入らなかったのではないでしょうか。



今回のr=0.99についても同じことを思います。文章の論理構造を理解せずに「r=0.99で相関ありって言ってる」と早とちりしていませんか?
早とちりしているのであれば、ちゃんと文章を読まれることをお勧めしますし、仮に読んでの上でのコメントだというなら度重なるこのような行為は残念ながらイチャモンの類に思えて仕方ありません。


Kapokさんはご自身のブログで何度かデータを扱った主張をされていますね。
例えば、日経平均株価の月別平均騰落率 〜上がりやすい季節はあるか?では「偶然の結果ではなく、季節によって上がりやすい傾向・下がりやすい傾向があると考えました。」」と主張されています。これは私に対してKapokさんが寄せていただいた以下のような批判基準を退けていますか?
「乱数でスキャタープロットを作り相関係数とp値を見た事があるのですが、びっくりするくらいp値が小さくなる事がありました。」
「無相関でも相関があるように見えてしまう事があるから」

「乱数でスキャタープロットを作り相関係数とp値を見た事があるのですが、びっくりするくらいp値が小さくなる事がありました。」から相関ありは怪しいというなら、乱数で並べても日経平均の騰落率のように見事に並ぶことはありますよね。
なぜ私の場合は相関ありとすることがダメであり、Kapokさんはタイプ1エラーの確率が低いから相関ありとしていいのでしょうか?。
誤解を避けるように書くべきというKapokさんですから、当然に確率に言及せずに「小さくなる事がありました」でダメだしするのは、「ハクチョウはすべて白い」を覆すにはコクチョウを1羽でも見つければOKというロジックになっているのかもしれませんが、それならなぜKapokさんの検証ではこれが許されるのでしょうか?



私は議論が面倒という人にはウザがられるくらい議論は好きですから批判は受け付けます。ただし、まっとうな批判がほしい。
「歪曲するな」「誤解を招生きやすい表現はやめろ」「文章はこういう風に表現すべきだ」と言いながら「r=0.99の時は相関ありと言っているが誤りだ」などと曲解し、意識的か無意識的か自分に都合のいいようなデータ操作も要求し、人には100%に近い厳密性を要求するが自分にはその基準はあてはめない・・・


もちろん、これは私の判断にすぎません。

あくまで私の判断が間違っており、Kapokさんは人の説明を曲解せず、書く文章は全く誤解を招かない素晴らしいものであり、ご自身が私に向けて指摘されたような批判を一切受けないような素晴らしい品質のブログを書かれるのかもしれません。
ご活躍、期待しております。



【関連コンテンツ】