コーパス


conphic_logo_03
東京都立川市のシステム開発会社 株式会社コンフィック


株式会社コンフィックのブログにアクセスいただき、
誠にありがとうございます。

株式会社コンフィックでは、大量データの構築や変換処理を行っております。
国立国語研究所のコーパス開発センターでは、様々なコーパス(自然言語の文章を構造化し大規模に集積したもの)が公開されています。
現代語では、日本語の「書き言葉均衡コーパス」「話し言葉コーパス」「超大規模コーパス」等が公開されています。
また、全文検索システムも公開されています。この全文検索システム「ひまわり」の国会会議録パッケージでは、国会会議録検索システムのデータが格納されていますが、株式会社コンフィックでは、この国会会議録の電子データ化に参画した経験があり、作業当時、OCRからテキスト処理を120万ページ以上行いました。
当時のデータが多くの方にコーパスとして活用されていることを嬉しく思います。
この国立国語研究所のWebサイトには日本語研究の多くの成果が好評されておりますので、ご興味のある方はご参照いただければと思います。

【関連記事】株式会社コンフィックの「日本語」をテーマにしたブログ一覧


システム開発・運用に関してのご相談、ご用命は、
多くの開発経験がある株式会社コンフィックへ
e-portfolioeポートフォリオ)、クラウドクラスe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。


株式会社コンフィック 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。