静かに広がる機械学習の誤用が、科学に「再現性の危機」をもたらしている

人工知能(AI)の基盤でもある機械学習の用法を誤ったことで、不正確な論文や研究結果が発表される事例が少なくないことが、米国の研究チームの調査で明らかになった。この問題はすでに広がりつつあるといい、研究者たちは科学の「再現性の危機」のリスクについて警鐘を鳴らしている。

内戦とは人間の営みのなかで最も醜く、最も恐ろしいものであることを人類の歴史は示している。だからこそ、内戦が勃発する時期を人工知能(AI)によって90%以上の精度で予測できると主張する複数の政治学の研究を21年に見つけたとき、プリンストン大学教授のアルビンド・ナラヤナンと博士課程の学生サヤシュ・カプールは疑念を抱いたのだ。

これらの論文は、現代のAIを支える技術であり大手テック企業が重用する機械学習を活用することで、驚異的な結果を得られたと説明していた。特定の国の国内総生産や失業率などのデータを機械学習で分析する手法は、内戦の勃発を予測する従来の統計手法よりもおよそ20%も精度が高くなるという。

ところが、プリンストン大学の研究者たちが詳しく調べたところ、結果の多くは“幻”であることが判明した。

機械学習ではアルゴリズムに過去のデータを読み込ませ、まだ見ぬ未来のデータを予測するよう調整している。だが、一部の論文では機械学習の性能の訓練とテストに使用するデータを適切に分けていなかったのである。

これは「データリーク」と呼ばれる誤りで、すでに読み込んだデータでシステムをテストすることを意味している。学生が問題の答えを見た後にテストを受けるようなものだ。

「これらの論文はほぼ完璧な精度だと謳っていましたが、そのすべてにおいて機械学習のデータ処理の工程に問題があることがわかりました」と、カプールは説明する。カプールとナラヤナンが間違いを修正したところ、すべてのケースで最新のAIが従来の手法より優れている点はなかった。

この調査結果は、ほかの分野でも機械学習の誤用で研究結果が歪んでいる事例がある可能性について、プリンストン大学のカプールとナラヤナンが調査するきっかけとなった。そしてその結果、機械学習の誤用は現代科学に広く見られる問題であることが判明したのである。

機械学習の限界

AIには従来のデータ分析の手法では判別できないパターンを見つける力があり、科学に変革をもたらす可能性が期待されている。タンパク質の構造の予測や核融合炉の制御、宇宙の探査などにおいて、研究者はAIを利用して画期的な成果を上げているのだ。

一方でカプールとナラヤナンは、AIが科学に与える影響は多くの場合、そこまで輝かしいものではないと警告している。ふたりが機械学習を活用している科学の分野を調査したところ、ほかの研究者たちによって機械学習を用いたさまざまな分野にわたる329件の研究に誤りがあったことが特定されていることを知ったのだ。

多くの研究者が機械学習の手法と限界について深く理解することなく、機械学習を急いで取り入れようとしていると、カプーアは指摘する。テック業界がクラウドプラットフォームやサービスの普及を目的に、新規参入者を誘い込むAIツールやチュートリアルを早急に用意したこともあり、機械学習に非常に容易に手を出せるようになったからだ。

会員限定記事会員サービス詳細