[MUSASHI-users 459] Webのアクセスログで経路分析をしたい

Back to archive index

Sumio Ebisawa ebisa****@aa*****
2005年 1月 2日 (日) 02:13:47 JST


海老澤です。毎度お世話になります。


Webサーバのログファイルを作成して経路分析を試みています。

経路分析とは、エンドユーザが閲覧したURLの順番のことで、
セッションをベースとしています。

セッションとは 1人のエンドユーザがWebサイト内において一定
期間内に行ったページ閲覧のつながりのことです。セッションは
エンドユーザがWebサイトを訪問した時にスタートして、30分以上
ページの閲覧を行っていない場合に終了します。

セッションの取得方法は次の通りです。

1. ID別にWebログを分割する
2. アクセス時間でソートする
3. アクセスの間隔が30分以内のアクセスをまとめる
   (30分以上の場合は、別セッションと認識する)


例えば、サーバログが次のような場合

--
ID   日付と時間    URL
001 2月1日10時10分 /a.html
002 2月1日10時11分 /b.html
001 2月1日10時12分 /b.html
003 2月1日10時14分 /a.html
002 2月1日10時15分 /c.html
003 2月1日10時16分 /b.html
001 2月1日11時00分 /a.html
--

次のように集計したい次第です。
2件 /a.html → /b.html
1件 /b.html → /c.html
1件 /a.html

xtpatternが近いと思うのですが、「30分の間隔」というのが
無理なようです。このような分析はmusashiでは難しいでしょう
か?











MUSASHI-users メーリングリストの案内
Back to archive index