
Home > ブログ > アクセスログ > アクセスログ解析ツール
たいていのレンタルサーバはアクセスログ解析ツールを提供していて、各ページのページビュー数(見られた回数)などの基本的データの取得ができる。それだけでは不十分だと感じるなら、無料で利用できるGoogle Analitycsを導入しておけば、ある程度の補完はしてくれる。そうしたデータから類推してサイトに役立ててゆくことは可能だ。しなしながら、より詳細に分析したいのならば、“生ログ”に勝るものはないと思う。
“生ログ”とは、一切手の加えられていないサーバに残った訪問記録のことだ。あるページをユーザーが見たら、接続元のIPアドレス、その時間、見たページ、ブラウザ、検索キーワードなどの情報が、決まったフォーマットで刻々と記録され続けてゆく。
レンタルサーバで提供されているデータは、この“生ログ”を集計処理したものに他ならないので、“生ログ”に記録されていることが、ウェブサイトアクセスについて知り得るすべてということになる。
そうした生ログ解析に便利なのが、フリーソフトウェアであるApachLogViewerだ。
Apache 等のHTTPサーバーが出力するNCSA形式のアクセスログを見やすく表示するソフトです。
指定されたログファイルを読み込んで、セッション状態を解析し、日付ごとに一覧表示します。
また、任意のアドレスやフォルダ群に対するアクセス解析 ( ログ解析 ) も行います。
各種のアクセス情報を基準に多様な集計を行い、それらを相互に追跡して表示できるので、特定アクセス元の動作追跡や検索サイトの登録・参照状況等、詳細かつ個別なログ分析を可能とします。IISの場合でも、convlog でログ形式を変換すれば使用できます。
様々な集計が可能であり、集計結果はCSV形式でエキスポートできるので、私はデータを集計するために表計算ソフト等に読み込ませて利用している。
たとえば、どのページがサイトの入口になっているのかということを分析すれば、検索サイトで入力されたキーワードや、リンク元のページを知ることができる。意外な結果に驚くこともあり、そうした動線を強化することでアクセス向上に役立てられるかもしれない。
あるいは、問い合わせをするユーザーのサイト内での動向を調べれば、その前にどのページを見ていたか調べることで、興味をもって見てもらえたコンテンツが分かるかもしれないし、説明不足を補わなければならないということに気づくかもしれない。特定のユーザーがどのページにどれくらいの時間滞在し、どういう順序でコンテンツを見ていったかということについても辿ることができるので、かなり細かな分析が可能だ。
“生ログ”分析が規定のログ集計データと大きく違う点は、自分の視点で集計を自由自在にカスタマイズできる点であり、たとえば、ウェブサイトの改善提案に役立てたいのであれば、より説得力のあるデータを提示できるようになる。
ただ、ApachLogViewerを使用して、正確なユーザーアクセスデータを提供しようとすれば、検索エンジンなどのロボットからのアクセスを切り分けなくてはならない。これが結構手間だ。「プライベートとみなすIPアドレス」という設定のなかに、検索ロボットのドメインやIPアドレスを登録してゆけば、その分のアクセスだけ別集計として参照ができるようになる。
以前、月次であるサイトのレポーティングを行なっていたとき、毎月その登録データは増えていった。登録しても登録しても、また次の月には新しいロボットからのアクセスが増えている。この作業を怠ると、水増ししたデータを報告したことになるので、手は抜けない。結構時間のかかる作業であった。そのサイトは、半分近くのアクセスがロボットが占めていた…
ただ、メリットもある。検索クローラーごとの活動状況が把握できることである。サイト更新の頻度とロボットの活動状況といった分析にも役立てることができるので、手間がかかった分のデータ提供はできるようになる。蓄積されたデータは、別サイトの分析の際にも役立てることができるので、時間をかけて行った作業は、自分の財産にもなってくれる。
ちなみに、Google Analitycsは、そうしたロボットのアクセスを除外して集計しているようだが、生ログと比べると、一部ロボットのものと思われるアクセスも計上されていた。新しいロボットが見つかるごとに、同じようなことをしているのであろうと推測する。
しかしながら、こうした手作業での集計は、小・中規模サイト向きといえる。表計算ソフトを利用して集計する以上、その処理能力による制限がつくことになるからだ。とはいえ、エクセル2010だと約100万行の処理ができるらしい。同ソフトは所有しておらず、試していないのだが、PCスペックによると思うが大きなデータの処理には時間がかかり、ストレスを感じるものになるのではないかと思う。
また、複数のサーバに分けてログが残っている場合などは、タイムスタンプ(時刻)がずれていることもあるそうで、その整合性を取る処理をしなければならなくなる。そんなサイトは、アクセス数が非常に多いサイトだと思われるので、処理しなければならないデータ量も膨大だろう。
とはいえデータ処理なので、ある程度できる技術者なら、1日あればかなりの処理を行なってもらえるものと思うが、コストを考えれば、そのようなサイトは、ログ解析の専門サービスに依頼を出したほうがよいと思う。
ご存知の方も多いと思うが、サイトグラムというサービスがある。多彩なオプションがあるので、たいていのニーズには応えてもらえるだろう。
「こんなデータも有益じゃないか?」
ログと向き合っているとそう思うことがよくあり、“生ログ”さえあれば、たいていのことができてしまうのだが、そうした発想でどんどんオプションが増えていったのではないかと勝手に推測している
サイトグラムのサービスリリース時に、ログ解析についての著作も多い同社の石井氏が、当時勤めていた会社にわざわざ足を運んで説明をしてくれたことがある。その話は感動的であった。ページ経路をビジュアル化して見せるというその手法もそうなのだが、アクセスログが好きで好きでたまらないということがよく伝わってきたし、それはもう、“生ログ”データに対する敬意といってよいような向き合い方であると感じられた。先のタイムスタンプの話も、実は同氏からお伺いしたことだ。