OCRミスをチェックする


システム開発、XML処理のエキスパート集団 株式会社コンフィック


株式会社コンフィックのブログにアクセスいただき、誠にありがとうございます。

株式会社コンフィックでは、各種データ作成やデータベース構築のサービスを行っております。
紙文書を電子化する際、OCRにより文字認識を行うことが多くあると思います。

OCRでは、その文字の形を認識し、テキスト化しますが、認識誤りをどのように処理するかが重要です。
OCRの認識辞書に随時画像を登録することで認識精度が向上しますが、登録しすぎても異なる文字として処理されてしまう場合があります。
文書の発行年度やフォントなども考慮しなくてはなりません。
OCR処理後には、認識したデータを必ずチェックしますが、そのチェック方法にも工夫が必要です。
チェックは、文字種「二」と「ニ」などの間違いや記号類が入っていないかを確認することや、書類のスレやゴミ等が句読点となっている場合もあります。
紙文書の状態により、チェックツールや作業フローを検討しなくてはなりません。
それにより、高精度のテキストデータを作成することが可能です。

株式会社コンフィックでは、大量データの電子化だけではなく、それらのデータを活用するご提案をいたします。
紙媒体で保管されている文書を電子化し、活用することを検討してみてはいかがでしょうか。
お気軽に株式会社コンフィックまでご相談ください。

【関連記事】株式会社コンフィックの「OCR」をテーマにしたブログ一覧


システム開発・運用に関してのご相談、ご用命は、多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ)、クラウドクラス、サイトワンド、e-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。


株式会社コンフィック 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。