[morogram-users] Re: 1000〓〓〓¢〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓〓

Back to archive index

Shigeki Moro s-mor****@hanaz*****
2003年 10月 22日 (水) 22:23:07 JST


師です。

On Wed, 22 Oct 2003 20:27:13 +0900
Yoichiro AKIYAMA <akiya****@karit*****> san wrote:

>   個別の語句の甲篇内での使用頻度
>   ――――――――――――――― × 1000 = 1000字あたりの使用頻度
>       甲篇の総字数

なるほど。ただ、これだとクラスター分析をするときに、私の方法とだ
いぶ差が出そうですね。

添付した Excel のファイルを見て欲しいんですが(見られない人はす
いません)、これはランダムに総字数と2つの用例の頻度を作って(添
付のスクリプト参照)、(1) 正規化前、(2) 千分率による正規化後、
(3) 長さ100のベクトルとみなす正規化後、の3つをグラフ化したもので
す。

私の方法は同一円周上に乗りますが、千分率の場合だと散らばります。
この違いが何を意味するのか、私には俄かにはわかりません。ちょっと
考えて見ます。ご存知の方は教えてください。

>  計算式自体は単純なので、Excelなどから手動で出してますが、個人的
>  にこれを morogram のオプションとして実装できたら幸せなのですが、
>  いかがでしょうか?(^ ^;ゞ

そういうのはどんどん作っていきましょう。

Shigeki Moro

Hanazono University
s-mor****@hanaz*****
http://www.ya.sakura.ne.jp/~moro/

/bb|[^b]{2}/ that is the question.
-------------- next part --------------
テキスト形式以外の添付ファイルを保管しました...
ファイル名: hoge.zip
型:         application/x-zip-compressed
サイズ:     56810 バイト
説明:       無し
Download 


morogram-users メーリングリストの案内
Back to archive index