ChaKi.NET (3.16 Revision 653) | 2021-01-23 23:11 |
ChaMame (1.0.4) | 2020-01-14 17:04 |
Patch Files (TextFormatter for ChaKi.NET (2010/11/20)) | 2010-11-21 23:23 |
その他 (CaboCha-0.66/UniDic用モデルファイル) | 2013-02-18 17:00 |
旧版[ChaKi Legacy] (2.1.0 Build 202) | 2008-11-16 23:47 |
ChaKi.NETは、複数のKWIC検索方法を提供しており、StringSearchはその中で最も 手軽にKWICを作成することのできる検索法になります。
コーパスを選択し終えた状態(wiki:インポートしたコーパスを操作対象として選択する)で、SearchConditions パネルのタブから"String"を選びます。
図に示すタブ内のエディットボックスSearch Expressionに、検索したい表現を入力します。 入力文字列においては単語区切りを意識する必要はありません。単純にドキュメントそのもの (表層文字列)の一部とマッチするような文字列を入力すれば、その生起箇所を中心として 文*1単位のKWICを作成します。
条件を入力し終えたら、Commandタブに移り、"Search"ボタンを押して検索を開始します。
CommandタブのGridに対象コーパスの行が現れ、その行にコーパスの語の総数(Nc, Nd)が表示された後、 Nhitカラムにこの検索に対するヒット数が表示されます。検索結果が取得されるに従い、さらに右の カラムNretが順次更新されるとともにKWICビューも更新されていきます。Nhitと同数の結果が 取得できた時点で検索終了となります。結果取得の途中で"Abort"ボタンを押して強制終了することも可能です。 下に正常に行われた検索の一例を示します。
StringSearchは、語境界が事前にはっきりとわからない場合や、同じ文字列に対する語境界が一意に 割り振られているとは限らないような場合に、まずおおざっぱな検索を行うという一種「あいまい検索」のような 用途で使用することができます。例えば前の「三四郎」の例では、形態素解析において正しく「三四郎」 と解析されている場合と、「三/四/郎」と3語に分けられている場合があったとして、 StringSearch以外の語ベースの検索だけでは後者を発見することは困難を伴います。 このような場合に、語境界を意識しない検索であるStringSearchと、語属性を後から取得する機能である 語属性再取得機能とを組み合わせると効率的な検索が可能です。
StringSearchで結果取得した後、メニューの"View"-"View Attributes" またはツールバーのを押します。次のような確認メッセージが出ますので、
"Y"を押すとTagSearchレベルの語構造表示に切り替えることができます。 これを見ると、前述の誤解析部分が含まれていることを容易に知ることができます。
なお、"View Attributes"コマンドは本来KWICビューの「1行表示」と 属性を含む「2行表示」とを切り替えるものであり、ここでは、 1行表示を属性を含む2行表示へ切り替えようとしたところ、 語属性がKWICデータに含まれていないため語属性再取得機能が 内部的に動作した、というように理解していただければと思います。