Shigeki Moro
s-mor****@hanaz*****
2003年 10月 22日 (水) 22:23:07 JST
師です。 On Wed, 22 Oct 2003 20:27:13 +0900 Yoichiro AKIYAMA <akiya****@karit*****> san wrote: > 個別の語句の甲篇内での使用頻度 > ――――――――――――――― × 1000 = 1000字あたりの使用頻度 > 甲篇の総字数 なるほど。ただ、これだとクラスター分析をするときに、私の方法とだ いぶ差が出そうですね。 添付した Excel のファイルを見て欲しいんですが(見られない人はす いません)、これはランダムに総字数と2つの用例の頻度を作って(添 付のスクリプト参照)、(1) 正規化前、(2) 千分率による正規化後、 (3) 長さ100のベクトルとみなす正規化後、の3つをグラフ化したもので す。 私の方法は同一円周上に乗りますが、千分率の場合だと散らばります。 この違いが何を意味するのか、私には俄かにはわかりません。ちょっと 考えて見ます。ご存知の方は教えてください。 > 計算式自体は単純なので、Excelなどから手動で出してますが、個人的 > にこれを morogram のオプションとして実装できたら幸せなのですが、 > いかがでしょうか?(^ ^;ゞ そういうのはどんどん作っていきましょう。 Shigeki Moro Hanazono University s-mor****@hanaz***** http://www.ya.sakura.ne.jp/~moro/ /bb|[^b]{2}/ that is the question. -------------- next part -------------- テキスト形式以外の添付ファイルを保管しました... ファイル名: hoge.zip 型: application/x-zip-compressed サイズ: 56810 バイト 説明: 無し Download