Pixel 6の「日本語書き起こし」は仕事で使えるか 今できること、できないこと

Pixel 6での書き起こし。筆者の1人語りなら、かなり高い精度でリアルタイムに書き起こしてくれる
Pixel 6での書き起こし。筆者の1人語りなら、かなり高い精度でリアルタイムに書き起こしてくれる

Pixel 6が出て以降、「音声からの日本語自動書き起こしがすごい」ことが話題になっている。

確かにすごいのだ。筆者も発売以降、取材で実際に使っているし、note版マガジンでは毎週金曜に掲載している音声コンテンツ「今週の壁打ち」の文字書き起こし部分を作るのにも使っている。とても便利だと思う。

一方で、日々使っていると課題も限界も見えてくる。

筆者は過去からいろいろな「音声書き起こし」サービスを仕事で使っているし、取材メモでも「タイプやペンの手書きと音」の同時記録にこだわってきた。その視点で考えていくと、実際にはどう使えばいいのかが見えてきた。

今回は「日本語音声書き起こしを仕事に使う」という点について、現状を考えてみたい。

Pixelの「レコーダーによる音声書き起こし」は仕事に使える

まず、話題の「Pixelによる音声書き起こし」からいこう。冒頭にも挙げたように、とても便利なものだ。Pixel 6の場合、オンデバイスAIを使ってほぼリアルタイムに、通信環境に依存することなく書き起こしてくれる。

どのくらい信頼できるかは、次の写真をご覧いただきたい。これは、note掲載の「今週の壁打ち」12月11日掲載分を収録時の自動書き起こしである。よく読むと日本語が通じないところがあって、まったくミスなく書き起こせるわけではない一方で、ラフにしゃべった内容がかなり「普通に読める」レベルにテキスト化されていて、実用性が高いのも分かってくると思う。

しかも、録音品質はそこまで問題にならない。音が小さかったり、周囲の雑音がひどかったりしてもちゃんと書き起こしてくれる。

もちろん、音質は良いに越したことはない。一般論として、音声からのテキスト書き起こしは、録音の品質が良いほど上がる。サービスによっては、露骨に音質で書き起こし精度が変わるくらい影響があるものだ。

だが、Pixel 6での書き起こしは比較的「音質が悪い音声」にも強く、ちゃんと書き起こしてくれる印象がある。録音を聞き直してみて人間の側が「これは聞き取りづらい」と思うものでも、テキストの方ではそれが感じられないくらい問題なくテキストになる。これは素晴らしいことだ。