Yoichiro AKIYAMA
akiya****@karit*****
2003年 10月 25日 (土) 00:23:08 JST
こんにちは。秋山です。 >山田さま フォローありがとうございます。 > >> 個別の語句の甲篇内での使用頻度 > >> ――――――――――――――― × 1000 = 1000字あたりの使用頻度 > >> 甲篇の総字数 > > 総字数と言うよりも、共起頻度の総合計と言った方がいいかもしれません。 ただ、僕はやっぱり篇内総字数でやってました。(^_^;ゞ これは完全に僕の勘違いでしたね。失礼しました。 1gram(頻度1データを含む)だと確かに共起頻度の総合計(というより 述べ使用回数の総合計と言った方が良いのかな..)でも変わらないんですが、 共起頻度の総合計だと 2gram 以上のデータで出てくる結果が微妙に違い ますよね? > 但し、こういった相対度数ベースの場合、対象とする文献の長さが短い物ほど > 個別の変数の出現頻度が上がるという、いわば正規化しているにもかかわらず > 一定のウェイトがかかってしまうと言う問題があります。 このあたりが悩みどころですね。 僕の場合、比較する個別のデータが、クラスター分析が有効といえる ほどの分量がない(1ファイルあたりの字数が少ない)ので、1000字 あたりの使用頻度で正規化してから分散の大きい順にソートすることで 有意なデータを探しやすくするところまでしか今のところやってません。 もう少し応用のしようがないかは現在模索中です。 >もろさま > フランス語ですがNグラムと統計モデルを使って言語の分析をしている人 > (院生)に協力をお願いしたところOKをもらえたのが収穫でした。 これは興味深いですね。 我ながら不明にも表音文字文化圏の言語は形態素解析の方が有利だと 思い込んでいただけに、フランス語で N-gram というのはちょっと 驚きました。 どんな風に分析しているのか、ちょっと気になります。 > ┏━┓ ┏━┓ ┏━┓ > ┃秋┃┏━┓┃陽┃┏━┓┃郎┃ > ┗━┛┃山┃┗━┛┃一┃┗━┛ > ┗━┛ ┗━┛ akiya****@karit***** http://www.karitsu.org