AIで古文書を読む 埋もれた情報を発掘

 人工知能(AI)の技術を使って古文書などに書かれた難読の「くずし字」を解読する試みが、学術界で広がっている。AIが解読を支援したり、自動で漢字やひらがなに変換したりするシステムが開発され、これまで未解読のままだった膨大な歴史史料がより容易に解析できるように。専門家は「解読できないが故に眠ったままになっている情報が掘り起こされ、さまざまな研究の後押しにつながるのでは」と期待を寄せている。(桑村大)

 ■パズル感覚で解読

 江戸時代以前に書かれた古典籍の多くは、漢字やひらがなを大きく崩した文字が多用されており、これがくずし字と呼ばれる。日本の歴史・文化研究では、これらを解読して現代の文字に書き改める翻刻作業が不可欠だが、くずし字を正確に読める専門家はわずかで、今までに翻刻された史料もごく一部に過ぎない。専門家が膨大な史料を手作業で書き起こすには時間もコストもかかり現実的ではない。

 より容易な翻刻作業の実現を目指して着目されたのが、近年、画像分析の分野で飛躍的に発展しているAIの導入だった。

 今年5月には、立命館大アート・リサーチセンター(ARC)と凸版印刷の研究チームが、AIの支援を受けながらくずし字を読み解くことができるシステムを開発したと発表した。

 システムは、ARCがデジタルデータ化して一般公開している古典籍や浮世絵など計31万4千件の史料を対象とし、凸版印刷が保有するくずし字のデータ(約100万件)を史料内の文字と照合することで解読を支援する。

 パソコンの画面上に表示した文書から読めない文字を選択すると、くずし字のデータの中から形が似ているものをAIが抽出。候補のひらがなや漢字を、合致する割合を示しながら高い順に表示する。ディープラーニング(深層学習)も取り入れており、読み解けなかった文字を入力することでシステムが学習し、精度が向上する。

会員限定記事会員サービス詳細