日本には、平安時代から明治時代の中頃まで、広く使われていた「くずし字」の文化がありました。

現在使われているひらがな・カタカナ・漢字とは形が大きく異なる文字があり、複数の文字が連続して書かれていることも多く、研究者や識者やが一文字ずつ丹念に読み解いていく必要があります。

現代の印刷システムでは「くずし字」を使うことは難しく、20世紀に入って現代語へと変換が進められてきました。

その結果、「くずし字」で書かれた数百万の古文書や古書が現存していますが、今や日本人口の0.01%以下の人しか読むことができなくなっています。

 

人文学オープンデータ共同利用センター(Center for Open Data in the Humanities / CODH)では、日本語の古文書で一般的に使われている「くずし字」を機械が読み取り、現代日本語の文字コード(=Unicode)に自動変換するAI-OCR「KuroNetくずし字認識サービス」を開発しました。

 

人文学オープンデータ共同利用センター

http://codh.rois.ac.jp/kuronet/

 

 

OCRは文字認識だけを実行するソフトウェアではなく、一般的に以下のような処理を行います。

  1. 前処理:OCRに適した状態となるように、画像の階調や回転、ノイズなどを調整する。
  2. レイアウト解析:文書の中でどこにどのように文字が並んでいるかを分析し、個々の文字が存在する領域を特定する。
  3. 文字認識:領域に含まれる文字を認識し、現代の文字コードを割り当てる。
  4. 後処理:言語モデルなどを用いて文字認識結果を修正する。

まず、古文書のどこにどのような文字があるのかを、AIが画像として認識。そして、認識した文字の形の特徴を、あらかじめ学習したおよそ100万字分のくずし字のデータと照らし合わせることで、対応する現代の文字に置き換えていきます。

正しくは「解読(翻訳)」ではなく「画像認識(翻刻)」作業になります。

 

KuroNetにおけるAI-OCRの正確性は、今のところ85%ですが、将来的に読み込まれるデータが増えて学習が進めば、正確性も上がっていくことでしょう。

 

 

くずし字OCR(AIくずし字認識)には、「一文字認識」と「多文字(一ページ)認識」の二つのサービスがあります。

 

「一文字認識」は「ここに文字があるよ」と領域を指定すると、機械がその中に含まれる文字のみをポップアップウィンドウにて答えます。

 

一文字認識

選択した一つのくずし字について、AI-OCRが提案した「故」「右」「夜」「花」「を」の五文字。

 

 

「多文字(一ページ)認識」とは、多数の文字が書いてあるページ画像を入力すると、機械がその中にある文字を自動的にすべて抽出し翻刻します。

 

多文字(一ページ)認識

「平家物語:巻第一」冒頭部より、赤い文字部分“きおんしょうしゃのかねのこえ…”がAI-OCRが翻刻した文字。

 

International Image Interoperability Framework※ビューアに読み込むことの出来る画像データは、IIIF マニフェストと呼ばれるファイル形式のみです。

※国立国会図書館デジタルコレクションや多くの研究機関など、マニフェストURIが記載されています。

 

くずし字OCR(AIくずし字認識)主任研究者のカラーヌワット・タリンさんはタイ出身の女性で、マンガ版の「源氏物語」から日本の古典文学に魅せられ、くずし文字認識AIの開発へ進まれています。

ITテクノロジーの進化が、世界中の人々の研究によって、古い時代の文化を復興させることができるとは素晴らしいですね。

 

AI-OCRは学問の分野だけでなく、教育や出版関係などビジネスシーンにおいてもますます需要が高まる技術となります。

 

AIを使った業務改善の方法についてご関心をお持ちでしたら、ぜひとも当社へお気軽にご相談下さい。

 

 

AI導入についてのお問い合わせはこちら

 

ヒューマンデジタルコンサルタンツへ、お気軽にお問い合わせ下さい!