人工知能で日本語の手書き文字解読ソフトを開発したニュースについて

2016.04.14

　ブルームバーグニュースに「日本語のできない外国人が手書き文字解読ソフト開発－人工知能で」というタイトルの記事が掲載されていました。

　コンピューターによるディープラーニング（深層学習）の技術を活用した、日本語の手書き文字の読み取りプログラムができたとのこと。人間の神経回路網の仕組みを人工知能に取り込んだ深層学習技術を応用させたものだそうです。

　開発者の４人が全員外国人で、日本語がほとんどできないのにこのソフトを開発できたという点もさることながら、筆者がこの記事を読み進めていて気になったポイントが２つありました。

　１つ目は、日本語は手書き文字認識において、他の言語とはまったく「別物」だということ。
　実は、“手書きの英文テキストを読み取るのは、深層学習の世界では初級の技術”なのだそうですが、日本語はまったく違うようなのです。

　理由は、漢字です。

・常用漢字の数が2,000以上もある。
・画数が多いものがある。
・漢字を構成する部分が、それ単独で別の漢字になることがあるため、どこまでが１つの漢字と見なすべきかの判別が難しい。

　さらに、日本語には漢字に加えてひらがな、カタカナもあり、複雑になるそうです（たしかに、漢字と同形のカタカナが存在しますよね）。　
　手書きでは、走り書きしたり、続け字になったり、人によっては漢字の一部分を簡略して書いたりすることがあり、個人差が非常に大きくなります。
　以前に、海外出身の人にとって、手書きされた日本語は非常に読み取りづらいという話を聞いたことがあります。人工知能も“日本語を知らない外国人”と考えれば納得です。実際、記事にも“彼らは約180万通りの手書き文字のデータセットをトレーニングに活用した”とありましたが、プログラムの世界においても日本語は特殊な言語のようです。

　２つ目は、このプログラムが開発されたきっかけが、教育測定研究所から毎年約120万人分の手書き答案用紙の採点について支援を要請されたことだったという点です。

　教育測定研究所は、文部科学省が行う全国学力・学習状況調査や、ＯＥＣＤが実施する国際成人力調査（PIAAC）本調査などの業務を委託されているところです。2020年に向けた大学入試改革では、記述式の試験の採択も検討されていると聞きます。

　今回開発されたプログラムは、もしかすると私たちが受験する試験の採点に用いられる可能性があり、決して無関係な話ではないようです。