SATOXのシテオク日記

~ふもっふ、ふもふも~

原子力→原子カ(か)、OCRソフトのミス

原子力規制委員会がウェブサイト上で公開している資料の中に「ストロンチウム」→「スト口(くち)ンチウム」、「原子力」→「原子カ(か)」など文字が置き換えられており、検索エンジンからの表示を故意に避けているのではないかと一部のネットユーザーの間で話題になっていました。
ところがこれはOCR(光学文字認識)ソフトのミスだと同委員会が発表、資料が修正されたんだそうです。
そんなバカな、信じられん、と思いたいところですがこれOCRソフトあるあるなんですよね。
このニュースの一文を画像化し、Googleドキュメントの文字認識機能でテキストにしてみたのが以下。


上部が画像、下部が文字認識した文章。
分かりにくいですが、ストロンチウムの「ト」が一部「卜」になってしまいました。同じ文字認識エンジンなのかもしれません。
日本語辞書と組み合わせれば精度が上がりそうですが、それを使っていないエンジンなんでしょう。

原子力規制委員会がWebサイトで公開している資料の中で、「ストロンチウム」の「ト」と「ロ」が漢字の「卜」(ぼく)と「口」(くち)になっていたとネットユーザーに指摘され、サイトを公開している原子力規制庁が修正する騒ぎがあった。画像PDFをテキスト化する際、文字認識(OCR)ソフトが間違った文字を認識してしまったことが原因という。

そもそもトップページからリンクが張られているウェブ上の情報なのに、「検索エンジンに引っかからないようにしよう」なんて気の利いた(?)事を思いつくのかな?と考えていたので、なるほど納得しました。