概要

平文形式のテキストファイルを、MeCab形式やCaboCha形式に変換するGUIツールです。 句読点等による改行処理や、コマンドラインからMeCabやCaboChaを呼び出す操作を自動的に行います。 文字コードは自動判別します。

本ツールが出力する.mecabや.cabochaファイルの文字コードは、入力ファイルやMeCab辞書等の文字コードに関わらず、常にUTF-8となります。インポート画面ではInput Character CodeにUTF-8を指定してください。

使い方

ChaKi.NETからTools→Text2Corpusを選ぶか、またはChaKi.NETに入力ファイルを直接ドラッグ&ドロップします(メニューバーの辺りにドロップします)。

単一のテキストファイルをMeCabで形態素解析する

  1. 形態素解析したいテキストファイルをText2Corpusのウィンドウにドラッグ&ドロップする
  2. 変換ボタンを押す

ファイルサイズが大きい場合などは、処理に時間がかかります。変換が終わるまでお待ちください。

処理が完了すると、出力されたファイルの先頭部分が表示されます。ここで、文字化け等の問題が起こっていないかを確認できます。

出力されるファイル名は変更できます。デフォルトでは、変換元ファイルの拡張子を.mecabに変えたものとなります。

あるフォルダ内のすべてのテキストファイルを形態素解析する

  1. そのフォルダをText2Corpusのウィンドウにドラッグ&ドロップする
  2. 変換ボタンを押す

設定等

  • 使用する辞書
    • UniDic: UniDic辞書を使用して解析します。UniDic辞書がインストールされている必要があります
      • 何らかの理由でUniDicをインストールできない場合は、C:\Program Files\unidic\dic\unidic-mecab\ に辞書ファイル一式(dicrc等)を置いてください。
    • IPADic: MeCabのデフォルト辞書(通常、IPADic)を使用して解析します。
  • 改行処理を行う
    • 入力ファイルを文に分割するオプションです。MeCab処理の前に以下の処理を行います。(MeCabでは1行=1文として処理されます)
      • 文末と思われる文字(。.!?」)の後ろに改行を挿入
      • 空行を削除
      • 半角文字を全角文字に変換
  • 係り受け解析も行う
    • .cabocha(係り受け解析結果)が出力されます。