OCR後の校正


conphic_logo_03
東京都立川市のシステム開発会社 株式会社コンフィック


株式会社コンフィックのブログにアクセスいただき、誠にありがとうございます。

株式会社コンフィックでは、各種データ作成・データベース構築を行っております。

紙媒体からの電子データ化(テキストデータ化)の作業時には、紙媒体をスキャンして画像化し、その画像をOCRソフトウェアにてテキスト化することが多いと思います。
そのようなOCRでテキスト化したデータは、OCRの誤認識により、その後の校正作業が大変なケースもあると思います。
数字の「一」と長音記号「―」や、ひらがなの「へ」とカタカナの「ヘ」、「ぴ」と「び」などよく誤認識されている場合があります。
このようなテキストは、人の目で校正してもなかなか見落としがちですが、ツールによりチェックをすると容易に発見できます。

作成したテキストを日本語形態素解析すると、その文字種の違いが明確になったり、誤用であることが明確になったりします。
さらに校正支援ツールにより、チェックをすることで、誤認識を発見することができます。

株式会社コンフィックでは、大量データのOCRやデータベース化の作業経験があり、紙媒体からの電子化の際には、その用途に応じたデータ設計のご提案をいたします。
データ作成、データベース構築でお困りのことがございましたら、お気軽に株式会社コンフィックまでご相談ください。

【関連記事】株式会社コンフィックの「OCR」をテーマにしたブログ一覧


システム開発・運用に関してのご相談、ご用命は、多くの開発経験がある株式会社コンフィックへ
e-portfolioeポートフォリオ)、クラウドクラスe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。


株式会社コンフィック 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。