いわゆる不偏データマイニングの誇張された約束


ノーベル賞受賞者のRichard Feynmanは、Caltechの学生に、教室の外を歩いた場合、駐車場の最初の車に特定のナンバープレートが付いている可能性を計算するよう依頼しました。すべての数字と文字が同じ尤度であり、独立して決定されると仮定すると、学生はその確率を1700万分の1以下と推定しました。学生が計算を終えたとき、ファインマンは正しい確率が1であることを明らかにしました。彼はクラスに行く途中でこのナンバープレートを見ました。非常にありそうもないことは、それがすでに起こっていたとしてもまったくあり得ないことではありません。

ファインマンの罠、つまり自分が探しているものについての先入観を持たずにパターンのデータを攻撃することは、データマイニングに基づいた研究のアキレス腱です。それが既に起こった後に異常または驚くべき何かを見つけることは異常でも驚くべきでもありません。パターンは確実に発見され、誤解を招くような、ばかげた、またはさらに悪い可能性があります。

彼の2001年のベストセラー本の中で 最良ですジム・コリンズ氏は、過去40年間で株式市場全体を凌駕していた11社と、そうでない11社を比較した。彼は、成功した企業が共通して持っている5つの際立った特徴を確認しました。 「私たちはこのプロジェクトをテストまたは証明するための理論から始めたのではありません」とCollinsは自慢しました。 「私たちは根拠から直接導き出された理論をゼロから構築しようとしました。」

彼はファインマンの罠に入った。最善または最悪を問わず、どのグループの企業についても時間を振り返ってみると、常に共通の特性がいくつかあるため、それらを見つけてもまったく意味がありません。の出版後 最良ですコリンズの壮大な11株のパフォーマンスは明らかに平凡なものでした。5株が全体の株式市場よりも良く、6株はそれより悪くなっています。

2011年、Googleは検索クエリを使用してインフルエンザの発生を予測するGoogle Fluという人工知能プログラムを作成しました。 Googleのデータマイニングプログラムは、5000万件の検索クエリを調べ、インフルエンザの発生率と最も密接に関連している45件を特定しました。これはデータマイニングトラップのもう1つの例です。有効な調査では、キーワードを事前に指定します。レポートを発行した後、Google Fluは今後108週間のうち100回のインフルエンザの症例数を平均100%近く過大評価しました。グーグルインフルエンザはもはやインフルエンザ予測をしません。

インターネットマーケティング担当者は、従来の青いWebページの色を別の色に変更することで収益を拡大できると考えていました。数週間のテストの後、同社は統計的に有意な結果を見つけました。明らかにイギリスはティールを愛しています。百かそこらの国のいくつかの代替色を見ることによって、彼らは彼らがいくつかの国のいくつかの色のための収入増加を見つけるだろうと保証した、しかし彼らはティールがイギリスでもっと売れるかどうか前もって見当がつかない。結局のところ、イギリスのWebページの色が青く変わったとき、収入は減った。

標準的な神経科学実験は、MRI装置で様々な画像をボランティアに見せること、および画像について質問することを含む。測定値はノイズが多く、環境から、および脳のさまざまな部分の脂肪組織の密度の変化から磁気信号を拾います。時には彼らは脳の活動を逃す。時々彼らは何もないところで活動を提案します。

ダートマス大学院生は、サーモンの写真を見て質問をしながら、MRI装置を使ってサーモンの脳活動を調べました。この研究についての最も興味深いことは、サケが研究されたということではなく、サケが死んだということでした。うん、地元の市場で購入した死んだ鮭はMRI装置に入れられました、そして、いくつかのパターンは発見されました。必然的にパターンがありました – そしてそれらは常に無意味でした。

2018年、エールの経済学教授と大学院生は、ビットコインの価格の日々の変動と他の何百もの財務変数との間の相関関係を計算しました。彼らは、ビットコインの価格は消費財およびヘルスケア産業における株価収益と正の相関があり、それらは製造製品および金属鉱業における株収益と負の相関があることを見出した。 「私達は説明をしません、と私達はこの行動を文書化するだけです。」言い換えれば、彼らは同様に何百もの電話番号のリストとのBitcoin価格の相関関係を調べ、最高の相関関係を報告した。

コーネル大学のFood and Brand Labの所長は、200以上の査読論文を執筆(または共著)し、25ヵ国語以上に翻訳された2冊の人気本を書きました。

2016年のブログ記事「Noと言ったことのないThe Grad Student」で、彼は食べ放題のイタリアのビュッフェで収集されたデータを与えられた博士課程の学生について書いた。

メールでの連絡が浮上し、教授は大学院生に「男性、女性、昼食会、夕食会、1人で座る人、2人で食事をする人、2人以上で食事をする人、アルコールを注文する人」に分けるように勧めた。そして、ソフトドリンクを注文する人、ビュッフェの近くに座る人、遠くに座る人など……そして彼女は、これらのサブグループが異なる可能性のあるさまざまな方法を見ることができます。プレートの、彼らはデザートを得たか、彼らは飲み物を注文したか、等々…」

彼は「一生懸命働いて、この岩からいくらかの血を絞り出すべきだ」と結論付けました。最も有名な論文は、男性は女性と一緒に食べると93%多くピザを食べると報告しています。それはうまく終わりませんでした。 2018年9月、コーネルの教員委員会は、彼が「自分の研究に学術的な不正行為を犯した」と結論付けました。彼は辞任し、翌6月に発効しました。

良い研究は、何を探しているのか、そして何が見つかるのかを明確に考えることから始まります。データマイニングはパターンを探すだけで、必然的にパターンを見つけます。

強力なコンピュータはビッグデータを略奪するのが得意なので、この問題は最近流行しています。データマイナーは、Twitterの単語やGoogleの検索クエリと犯罪活動、心臓発作、株価、選挙結果、ビットコインの価格、そしてサッカーの試合との間に相関関係を見出しました。あなたは私がこれらの例を作っていると思うかもしれません。私は違います。

純粋な乱数とはさらに強い相関関係があります。データマイニング相関は意味があるはずだと考えるのは、Big Data Hubrisです。ビッグデータの中で珍しいパターンを見つけることは、ファインマンの教室の外で珍しいナンバープレートを見つけることよりも説得力がある(または役に立つ)ことではありません。

配線された意見 外部の貢献者によって書かれた作品を公開し、幅広い観点を表しています。もっと意見を読むopinion@wired.comで意見を提出してください


もっと素晴らしいWIREDストーリー