国家による検閲が人工知能の判断に影響する? 「中国の事例」の研究から見えてきたこと

ILLUSTRATION BY ELENA LACEY; GETTY IMAGES
ILLUSTRATION BY ELENA LACEY; GETTY IMAGES

 国家による検閲が人工知能(AI)のアルゴリズムに影響を及ぼし、それによってAIによる判断の結果が変わる可能性がある--。そんな研究結果が、このほど中国語のオンライン百科事典を対象にした調査で明らかになった。この結果からは、AIを巡るさまざまな課題が浮き彫りになってくる。

TEXT BY WILL KNIGHT

TRANSLATION BY CHIHIRO OKA

WIRED(US)

ビジネスや教育機関、政府の活動がグローバル化しており、人工知能(AI)が国境という壁にぶつかることはほとんどない。だが、新たなアイデアやアルゴリズム、人材を求めるゴールドラッシュが続く現代に生まれたAIプログラムでも、国ごとの文化的な差異が顕著に現れる場合がある。

こうしたなか、政府による検閲がAIのアルゴリズムとそれを使ったプログラムにどのような影響を及ぼすのかが、このほど新たな研究から明らかになった。

カリフォルニア大学サンディエゴ校(USCD)の政治学教授マーガレット・ロバーツと、同大学の博士課程に在籍するエディー・ヤンが選んだ調査対象は、ふたつある。中国語版の「Wikipedia」と、同国の検索大手バイドゥ(百度)が運営するオンライン百科事典「百度百科」を使って訓練したAIの言語プログラムを用意し、両者を比較したのだ。

中国語版のWikipediaは、中国の国内からは利用できない。一方、百度百科には共産党政府による検閲がかかっている。なお、バイドゥにコメントを求めたが、回答は得られていない。

今回の研究の目的は、検閲がある場合にAIはそれも学習するのかを調べることだった。もしそうだとすれば、言語プログラムにも検閲が反映され、例えばチャットボットや音声アシスタント、翻訳プログラム、オートコンプリート機能などによる出力結果に影響が出る可能性がある。

ふたつの元データから生まれた相違

研究の対象となった言語プログラムは、さまざまなテキストの特定の単語がどのように使われているのかを学習する。異なる単語を物理的空間でつながったノードとして捉え、それぞれの単語が近ければ、その類似性も高いと判断するのだ。例えば翻訳プログラムの場合、知らない単語が出てきたとき、翻訳元と翻訳先の両方の言語でその単語の物理的位置関係から意味を類推できる。

USCDの研究者たちは、異なるデータセットで訓練された2種類のアルゴリズムには大きな違いが現れることを発見した。そして、この違いは検閲の結果であると考えられると指摘している。

例えば、中国語版Wikipediaで訓練したアルゴリズムは、「民主主義」を「安定」のような肯定的な言葉と結びつける傾向があった。これに対し、百度百科で訓練したアルゴリズムで「民主主義」は、「混乱」のような単語に近いものとして捉えられていた。

ロバーツとヤンは、この2種類のAIアルゴリズムを使って、ニュースの見出しから記事のニュアンス(明るいニュースか暗いニュースか)を推測する言語プログラムを作成した。すると、中国語版WikipediaのAIが「選挙」「自由」「民主主義」といった単語を含む見出しに肯定的なスコアを付けた一方で、百度百科のAIは「監視」「社会統制」「中国共産党」などの単語があるとスコアが高くなる傾向があった。

会員限定記事会員サービス詳細