ChaKi.NET (3.16 Revision 653) | 2021-01-23 23:11 |
ChaMame (1.0.4) | 2020-01-14 17:04 |
Patch Files (TextFormatter for ChaKi.NET (2010/11/20)) | 2010-11-21 23:23 |
その他 (CaboCha-0.66/UniDic用モデルファイル) | 2013-02-18 17:00 |
旧版[ChaKi Legacy] (2.1.0 Build 202) | 2008-11-16 23:47 |
ChaKi.NETの持つ検索機能には、ここまで説明したKWICの形で結果を得るものだけでなく、 条件にマッチする語のリストの形で結果を得る機能もあります。 これをWordListと呼びます。
WordListの検索条件は、TagSearch, DependencySearchとまったく同じです。 従って、条件の作成方法もそれらと同じようにSearchConditionパネルの対応する タブの中で行います。
KWIC検索と異なり、Commandパネルの"WordList"ボタンを使用します。
例として、コーパス中で、「三四郎」の直後に現れる助詞をリストすることを考えます。
Tag条件タブを使用し、次のような検索条件を作成します。
中心語を助詞の方に設定していることに注意してください。WordListでリストされるのは
中心語のみですので、この例で1語に絞られる「三四郎」の方を中心語にする意味はありません。
※ なお、現在(2009/09/24)共起語をすべてリストする仕様に移行中です。
この条件でWordListを実行すると、ビューがKWICからWordListに切り替わり、この条件に マッチするLexemeが異なりごとに集計され表の形で出力されます。
各行に表示されているのがLexemeで、"Surface"~"CForm"までのカラムにはLexemeの属性が 表示されています。これによりLexemeを一意に識別することができます。
次のカラム"sanshiro"は、コーパスを表しており、"sanshiro"コーパスにおける各Lexemeの 出現数が示されています。この例ではコーパスを1つだけしか選択しませんでしたが、 複数のコーパスを検索対象とした場合はここに複数のカラムが並び、各コーパスにおける 出現数が横並びで表示されます。
"All", "Ratio"カラムは、対象としたコーパス全体での出現数とその割合(「このLexemeの出現数」/ 「マッチした全てのLexemeの出現数」)を表しており、例では"sanshiro"カラムの値と"All"の値は 完全に同じになります。
"Surface"~"CForm"の各Lexeme属性カラムのヘッダでマウスを右クリックすると、次のようなポップアップメニューが 表示されます。
例えば、PartOfSpeech以外の属性をすべて同一視すると、品詞による異なりでグループを作成し、グループごとの 出現数をリストすることができます。上の例でこれを行った結果を次に示します。
WordListの出力結果を見て、あるLexemeがどのような形で出現したかを知りたい場合があるかもしれません。 そのような場合のために、WordListビューからKWIC検索を行う方法が提供されています。 WordListビューの行ヘッダでマウスを右クリックすると、ポップアップメニューが表示されますので、 "List Occurrences"を選択します(下図)。
その結果、元のWordList条件に対してここで選択したLexemeの属性を補足した条件が 自動的に作成され、KWIC検索結果に切り替わります。
サイズの大きなデータに対してWordListを行った場合などでヒット数が多いと、徐々に TOTALの再計算・再描画処理が重くなるため、結果を得るのに極端に時間がかかる状況になることがあります。
これを避けるには、WordList検索前にツールバーの をクリックし、
再計算・再描画を抑制します。結果がすべて取得された後に再度クリックすることにより
そこで一回だけ再計算・再描画が行われ、最終調整された結果が表示されます。
なお、このボタンは、WordList以外の検索時にはOFFにして下さい。(KWIC Viewは 再計算・再描画を最適化する処理を持っています。このため、抑制を解除したときに余計な 時間がかかってしまいます。)