[MUSASHI-users 445] テキストファイルとXMLテーブルでxtcountの結果が異なる

Back to archive index

Sumio Ebisawa ebisa****@aa*****
2004年 12月 22日 (水) 00:52:43 JST


海老澤です。お世話になります。


musashiを利用したアクセスログ解析システムを構築中です。ログ
ファイルを「会員ID URL 時間 参照元」と並べ替えたログファイルを
会員IDとURLの組み合わせで集計したいと考えています。

つまり

001 /a.html 2月1日 www.yahoo.co.jp
001 /b.html 2月1日 www.yahoo.co.jp
001 /a.html 2月1日 www.yahoo.co.jp
002 /a.html 2月1日 www.yahoo.co.jp
003 /a.html 2月1日 www.yahoo.co.jp

というデータを

001 /a.html 1
001 /b.html 2
002 /a.html 1
003 /a.html 1

とまとめたいわけです。

txt2xt -aID,URL,TIME,REF -l test -i 【ログファイル】| xtcut -fID,URL |
xtcount -kID,SI -a PV -o 【出力結果】

で問題なく処理できたのですが、これをXMLテーブルを使用しない形

xtcut -f1,2-i 【ログファイル】| xtcount -k1,2 -o 【出力結果】

で実行すると、同じ会員IDとURLの組み合わせがマージされたり
されなかったり、という現象が発生しています。

検証用に少ないデータで実行すると問題ないのですが、100万行くらい
かけると誤差(最終的に足し合わせれば数字は合うのですが)が発生
します。なにか、私の設定で足りないところがあるのでしょうか?









MUSASHI-users メーリングリストの案内
Back to archive index