PR

WIRED WIRED

AIの基盤となるデータに「ラベル付けの間違い」が蔓延、その影響の深刻度

こうしたAI向けのデータセットは、コンピュータービジョンや自然言語理解などの分野でも、アルゴリズムの訓練や進展の評価に使われている。テスト用のデータセットにこうした間違いがあると、アルゴリズム間の相対的な評価が困難になることを今回の研究は示している。

例えば、間違っているラベルを削除すると、歩行者を発見するためのアルゴリズムのパフォーマンスが低下するかもしれない。たいしたことではないように思うかもしれないが、自律走行車のパフォーマンスに大きく影響するおそれがある。

AIアルゴリズムに関しては、12年のImageNetコンテストで起きたブレイクスルー以来、誇大広告のような状況が続いてきた。しかし、そうした時期が過ぎたいま、現在のAIアルゴリズムは与えられたデータに起因する問題をはらんでいるかもしれないことが次第に明らかになってきている。

データのラベル付けという考え方自体が問題をはらんでいるとする意見もある。UnifyIDという企業で働く機械学習研究者のビナイ・プラブーは、「特に視覚分野において、教師あり学習の中核にラベルというこの曖昧な概念が存在しています」と語る。

プラブーは20年6月、アイルランド国立大学ダブリン校(UCD)の博士課程で学ぶアベバ・ビリャネと共同でImageNetを徹底的に調べた。その結果、間違いだけでなく暴力的な言葉や個人を識別できる情報などが見つかった。

その一例としてプラブーは、ラベルは複数のオブジェクトを含む画像を十分に説明できないことが多いと指摘する。また、ImageNetで問題が指摘されたように、ラベルをつける人が人の職業や国籍、特徴について個人的な判断を加えられる場合も問題が生じうると指摘している。

あなたへのおすすめ

PR

PR

PR

PR

ブランドコンテンツ