OCR(自動文字認識装置)

年度末になり、年度末納期の仕事が重なってしまったので私も休日返上で文字入力のお手伝いなのである、このコラム書いている暇があればそっちをやらなきゃ いけないのであるが、コラムを書くのは私の息抜きみたいなもんであるから まあいいだろう。

スタッフから手渡されたのはA4版の組合員名簿みたいな 会員企業の一覧が書いてある本で、そこに書いてある内容をそっくりそのまま、テキストで打ち込む単純作業で、デザインが出来ない私に手伝わせる仕事として はうってつけなのであろう。

そこで、私は誰も使わないOCRのソフトを起動して使い始めるのである。
何故、誰も使わないかと言うとOCRを使ったほうが楽そうなのでOCRで始めるのであるが、殆どの場合、途中でOCRをやめて手で一文字づつ打ちこみはじ めることが多いからである。

OCRについて簡単に説明するとテキスト化したい原稿をスキャナーに載せてスキャニングして画像をパソコンに取り込む、取りこんだ画像を OCRのソフトが自分で勝手に画像から日本語の文字に変換してくれて、文字入力完了といたって便利なソフトの筈であるが現実は違うのである。

先ず、多くの印刷物は紙の両面に印刷してあって、裏写りするような紙だと裏側に書いてある文字まで出てきてしまって、上手く変換してくれな いで駄目なのである。

次に変換精度の問題である、パッケージには変換認識正解率98%の高認識正解率とか書いてあるのだが、これは条件の良い時にでた認識正解率 なのであろう。

もし仮に、認識正解率が98%だったとしても、98%って事は100文字変換して98文字正解で2文字が間違えるって事だから、50文字に 一文字は必ず間違えるんですね。

このコラムですと2行に一文字は必ず間違える事になります、実際にはもっと大量におかしな所が出てくるのですが。
それを、又画像を見ながら一文字ずつチェックしながら手で直していく事になるのですが、これが結構時間がかかるし、間抜けな変換をしている事が多いので疲 れます。
”川”って字が111になってたりね?

今回もまた結局は途中でOCRを諦めるのです。

追伸

世の中の文字情報がどんどん電子化されていまして、もう10年も経ちますと、OCRの技術そのものが一般的には使う必要がなくなっ てくる技術になるような気がしてきました。

少し前までは印刷物だけで電子データが無いって事も多かったのですが最近では、まず電子データが手に入るんで有りましてパソコンに インストールしたOCRソフトも出番が殆ど無いのです。