Sumio Ebisawa
ebisa****@aa*****
2005年 1月 2日 (日) 02:13:47 JST
海老澤です。毎度お世話になります。 Webサーバのログファイルを作成して経路分析を試みています。 経路分析とは、エンドユーザが閲覧したURLの順番のことで、 セッションをベースとしています。 セッションとは 1人のエンドユーザがWebサイト内において一定 期間内に行ったページ閲覧のつながりのことです。セッションは エンドユーザがWebサイトを訪問した時にスタートして、30分以上 ページの閲覧を行っていない場合に終了します。 セッションの取得方法は次の通りです。 1. ID別にWebログを分割する 2. アクセス時間でソートする 3. アクセスの間隔が30分以内のアクセスをまとめる (30分以上の場合は、別セッションと認識する) 例えば、サーバログが次のような場合 -- ID 日付と時間 URL 001 2月1日10時10分 /a.html 002 2月1日10時11分 /b.html 001 2月1日10時12分 /b.html 003 2月1日10時14分 /a.html 002 2月1日10時15分 /c.html 003 2月1日10時16分 /b.html 001 2月1日11時00分 /a.html -- 次のように集計したい次第です。 2件 /a.html → /b.html 1件 /b.html → /c.html 1件 /a.html xtpatternが近いと思うのですが、「30分の間隔」というのが 無理なようです。このような分析はmusashiでは難しいでしょう か?