PR

WIRED WIRED

AIの基盤となるデータに「ラベル付けの間違い」が蔓延、その影響の深刻度

 人工知能(AI)の訓練に使われるデータセットに数多くの間違いが含まれていることを示す論文が、このほど発表された。画像などのデータのラベル付けに問題がある状態でAIが学習すると、アルゴリズムが誤った判断を下す危険性がある。

TEXT BY WILL KNIGHT

TRANSLATION BY RYO OGATA/GALILEO

WIRED(US)

JULIAN STRATENSCHULTE/GETTY IMAGES
JULIAN STRATENSCHULTE/GETTY IMAGES

人工知能(AI)が注目されるようになったきっかけは、2012年に開催された国際コンテストだったとされている。視覚データベース「ImageNet」に含まれる1,400万枚超のラベル付き画像についてコンピューターによる認識の精度を競うコンテストだったが、ここで起きたブレイクスルーが注目されたのだ。

このコンテストによって、画像に含まれたオブジェクトの識別において「深層学習」という神経回路を模した巨大なニューラルネットワークにサンプルを与える手法が、ほかの手法よりはるかに優れていることが証明された。これをきっかけに、さまざまな問題の解決にAIを使うことに関心が集まるようになったのである。

ところが、このImageNetを含む10種類もの重要なAIのデータセットに、数多くの間違いが含まれていることを示す論文が発表された。マサチューセッツ工科大学(MIT)の研究者らが2021年3月26日付で発表したこの論文では、データで訓練されたAIアルゴリズムによる画像の解釈と、画像に適用されているラベルとを比較している。

例えば、アルゴリズムが「画像は70%の確率でネコだ」と判断している一方でラベルに「スプーン」とあれば、その画像はラベルが間違っていて実際はネコが写っている可能性が高い。確認のため、アルゴリズムとラベルが一致していない画像は人々に公開されている。

大規模なデータセットに生じるバイアス

ImageNetをはじめとする大規模なデータセットは、自律走行車や医療用画像装置、信用度のスコアリングシステムなどに使われるAIシステムの構築とテストの要になっている。だが、これが弱点になる可能性もある。データ収集とラベル付けの作業は低賃金が普通であり、この手法が招く問題に関する研究が積み重なってきているのだ。

例えば、顔の認識に関してアルゴリズムを訓練するとき、元になるデータのうち圧倒的多数が白人男性である場合には、アルゴリズムにバイアスが生じる可能性がある。また、ラベルをつける人がバイアスを呼び込む可能性もある。例えば、医療現場では女性は「ナース」である可能性が高く、男性は「医者」である可能性が高いと判断する人がラベルをつける場合だ。

続きを読む

あなたへのおすすめ

PR

PR

PR

PR

ブランドコンテンツ