株式会社コンフィックのブログにアクセスいただき、誠にありがとうございます。
株式会社コンフィックでは、各種データ作成・データベース構築を行っております。
紙媒体からの電子データ化(テキストデータ化)の作業時には、紙媒体をスキャンして画像化し、その画像をOCRソフトウェアにてテキスト化することが多いと思います。
そのようなOCRでテキスト化したデータは、OCRの誤認識により、その後の校正作業が大変なケースもあると思います。
数字の「一」と長音記号「―」や、ひらがなの「へ」とカタカナの「ヘ」、「ぴ」と「び」などよく誤認識されている場合があります。
このようなテキストは、人の目で校正してもなかなか見落としがちですが、ツールによりチェックをすると容易に発見できます。
作成したテキストを日本語形態素解析すると、その文字種の違いが明確になったり、誤用であることが明確になったりします。
さらに校正支援ツールにより、チェックをすることで、誤認識を発見することができます。
株式会社コンフィックでは、大量データのOCRやデータベース化の作業経験があり、紙媒体からの電子化の際には、その用途に応じたデータ設計のご提案をいたします。
データ作成、データベース構築でお困りのことがございましたら、お気軽に株式会社コンフィックまでご相談ください。
【関連記事】株式会社コンフィックの「OCR」をテーマにしたブログ一覧
システム開発・運用に関してのご相談、ご用命は、多くの開発経験がある株式会社コンフィックへ
e-portfolio(eポートフォリオ)、クラウドクラス、e-Legislation、システム開発、データ変換サービス 等
お気軽にご連絡ください。
株式会社コンフィック 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。