グーグルの新しいAIロボットは、“プログラミングなし”で人間の命令に対処する

人工知能(AI)で動作するロボットが、プログラミングなしで人間の指示を理解して行動する──。そんなデモを、このほどグーグルが披露した。中核をなすのは、ウェブ上にある膨大なテキストから言葉と動作の関係を機械学習で習得する大規模な言語モデルだ。

グーグルのリサーチサイエンティストのシァ・フェイ(夏斐)は、明るく開放感のあるキッチンの中心に座り、ノートPCにコマンドを入力した。そのノートPCは1本のアームと車輪を備え、大きなフロアランプのような姿をしたロボットに接続されている。

「わたしは空腹です」と、シァは入力した。すると、そのロボットはすぐさま部屋を横切って近くのカウンターへと向かう。そしてペンチのような形の大きなプラスチックのパーツでマルチグレインのチップスが入った袋を慎重につまみ上げ、シァのもとへと車輪で移動し、このスナックを差し出した──。

カリフォルニア州のマウンテンビューにあるグーグルのロボティクス研究所で2022年8月に実施されたデモンストレーションで最も印象的だったのは、そのロボットが人間のコーダーによるプログラミングなしで、シァの命令にどのように対応すればいいのか理解していたことだった。そのロボットを制御するソフトウェアは、ウェブから集めた何百万ページ分の文章をから、人間が話した言葉を一連の動作へと翻訳する方法を学習していたのである。

それはすなわち、「Alexa」や「Siri」のようなバーチャルアシスタントとは違って、命令をする際にあらかじめ承認された特定の表現を用いる必要がないことを意味している。ロボットに「のどがカラカラなんだ」と言えば、飲み物を見つけようとしてくれるだろう。「おっと、飲み物をこぼしてしまった」と言えば、スポンジを取ってきてくれるはずだ。

「現実世界のさまざまな状況に対処するために、ロボットは適応能力と経験から学習する能力を得る必要があります」と、グーグルの上級リサーチサイエンティストのカロル・ハウスマンはデモンストレーションの際に説明している。デモンストレーションでは、ロボットがスポンジを取ってきて、こぼした飲み物を拭きとる様子も披露された。

機械が人間と交流するには、言葉がいかにして数々の組み合わせによってさまざまな意味を生み出しうるのかを、機械が理解できなければならない。「言語の微妙なニュアンスの違いや複雑さをすべて理解できるかどうかは、ロボットにかかっているのです」と、ハウスマンは言う。

大規模な言語モデルの問題だったこと

グーグルによるデモンストレーションは、複雑な環境において人間と交流できるロボットをつくるという長期的な目標に向けた第一歩だった。

この数年で研究者たちは、書籍やウェブから得た大量の文章を大規模な機械学習モデルに与えれば、OpenAIの文章生成プログラム「GPT-3」のような優れた言語スキルをもったプログラムを生み出せることを発見している。オンラインでさまざまな形式の文書を処理することにより、ソフトウェアは文章を要約したり、文章に関する質問に答えたりする能力や、特定の主題に関する記事を生成する能力、人間と適切に会話する能力すら得ることができるのだ。

会員限定記事会員サービス詳細