このページではWebサーバーApache/httpdアクセス解析を行うWebalizer基本的な設定について初心者/ビギナー向けに解説します。
お便利サーバー.com+相互リンクサイト内をキーワードで検索
webalizerでアクセス解析

Webアクセス解析とは

Webalizer日本語版の導入

Webalizerの基本設定

httpdログの構造を理解する

Apacheでログを振り分ける

検索文字列の日本語化

統計データの見方について

解析データの最適化と分析法

解析スケジュールの設定

デフォルト以外のアクセス解析


設定ファイル"/etc/webalizer.conf"について

Webalizer は、 httpd ログ ファイルの内容を読み取って統計を求め、その結果に基づいて表やグラフを作成して所定のディレクトリに HTML で見ることができるように出力する、という動作を行います。

その際、Webalizerは統計の求め方や出力の方法などを決定するための設定ファイルを参照する必要がありますが、 デフォルト では "/etc/webalizer.conf" を参照するようになっています。

このステップでは、まずこの "/etc/webalizer.conf" の内容の中で、全体的な動作に関する設定を中心に説明します。

"/etc/webalizer.conf"の編集

まず、 サブネット 内の適当な クライアント機 から SSHクライアント 構築中のLinuxサーバー ログイン します SSHクライアントでサーバーに接続する(WBEL3) SSHクライアントでサーバーに接続する(CentOS3) SSHクライアントでサーバーに接続する(WBEL4) SSHクライアントでサーバーに接続する(CentOS4) SSHクライアントでサーバーに接続する(CentOS5)

それから su コマンド アカウント "root" に変更し、 cp コマンドでバックアップを作成した後、 nanoエディタ "/etc/webalizer.conf" を開きます。

[tanaka@web1 ~]$ su -Enter
Password: "root"のパスワードを入力します。 Enter
[root@web1 ~]# cp -p /etc/webalizer.conf /etc/webalizer.conf.orgEnter
[root@web1 ~]# nano /etc/webalizer.confEnter
デフォルトの/etc/webalizer.conf
デフォルトの"/etc/webalizer.conf"

基本的な書式は、

[ ディレクティブ 名]  [パラメータ]

です。

この お便利サーバー.com のアクセス解析結果を公開中ですのでご覧ください。
メインコンテンツのアクセス解析結果 お便利サーバー.com
お便利サーバー.comへの検索ロボットのアクセス状況 検索ロボット

[ディレクティブ名]と[パラメータ]の間はスペースまたはTabで区切ります。スペースとTabの数に決まりはありませんので、設定が見やすいように適宜調整してかまいません。

"#" 以降の行はコメント文として設定値からは無視されますので、注釈や設定を一時無効にするときなどに利用してください。

また、 Webalizer デーモン ではありませんので設定を書き換えれば次の実行時に必ず反映されます。

Webalizerは デフォルト "/etc/webalizer.conf" を参照して動作しますから、このパートでは "root" アカウントで シェル プロンプト から

[root@web1 ~]# webalizerEnter
[root@web1 ~]#

と実行すれば設定が反映されます。

webaliserコマンドを実行したら、設定の変更内容が反映されているかどうかを Webブラウザ から確認してください。

以下、設定ファイル中の行数を基準に主要な ディレクティブ について解説しますが、バージョンアップや記述の方法によっては多少行数がずれるかもしれませんので注意してください。

LogFile〜参照するログファイル(28行目)

最も重要な設定のひとつです。

Webalizer はこの ディレクティブ に記述された httpd ログ ファイルを解析します。

デフォルト は、

LogFile    /var/log/httpd/access_log

となっていて、 Apache のデフォルトのログファイル Apacheのログファイルについて と一致させてあります。

従って、Apacheのログファイルの出力先の パス やファイル名を変更していたり、Apacheで バーチャルホスト Apacheのバーチャルホストの設定について を設定していてデフォルトの "/var/log/httpd/access_log" へのログの出力を行わないようになっていない限り、このパラメータを変更する必要はありません。

デフォルト以外のログファイルを解析するケースについては、 デフォルト以外のアクセス解析 を参考にしてください。

OutputDir〜解析結果の出力先ディレクトリ(42行目)

Webalizer がアクセス解析の結果を HTML 形式で出力する際のディレクトリを指定する ディレクティブ です。

デフォルト は、

OutputDir   /var/www/usage

となっています。

この設定は "/etc/httpd/conf.d/webalizer.conf" /etc/httpd/conf.d/webalizer.confのデフォルト設定 によって、 Apache 上で、ドキュメントルート "/var/www/html" 以下の解析結果の出力先としてデフォルトとして設定されているいるディレクトリです。

変更する必要は特にないでしょう。

HistoryName〜解析結果の履歴ファイルの指定(52行目)

Webalizer は、解析を行った結果の概要を一年分記録しておく テキスト 形式の ヒストリーファイル を作成しますが、その出力先を指定する ディレクティブ です。

逆に、過去のログファイルを修正して解析をやり直す場合はこれを削除する必要があります。

このヒストリーファイルは、例えば何らかの理由で解析結果のファイル類が壊れたときにデータを復帰するとき等に使用します。

デフォルト は、

HistoryName   /var/lib/webalizer/webalizer.hist

となっています。

もしも将来的に、解析を行うべき コンテンツ がドキュメントルート一つだけであればこのままでも構いませんが、 Webサーバー の運用を始めると、ドキュメントルート以外にユーザーディレクトリや バーチャルホスト などを設置するようになるのが普通です。

Webalizerは通常コンテンツ毎に解析を行う必要がありますから、ヒストリーファイルもそれぞれのコンテンツ毎に作成しなければなりません。

従ってヒストリーファイルは、それぞれのコンテンツのアクセス解析結果を出力するディレクトリに作成しておいたほうが後で間違いがありません。そこでこのディレクティブは、

HistoryName   /var/www/usage/webalizer.hist

と修正しておくことをお勧めします。

Incremental〜解析データの増加処理を行うか否か(67行目)

Webalizer は解析を行うとき、有効な ログ ファイルを毎回すべて解析しなおして前回の結果と置き換えるか、または前回行った解析には手を触れずに、それ以降に得られたログに対する処理だけを行って前回の解析結果に加算するか、そのいずれかを選択することができます。

この ディレクティブ ではその選択を行います。

デフォルト は、

Incremental   yes

となっていて、後者の「増加したログだけ解析して加算する」という処理方法が選択されています。

これにより、古いログファイルが削除されてしまってもWebalizerの解析結果は保持されることになりますし、Webalizerは前回解析時から現在までの処理を行えばよいので解析もすばやく行うことができます。

通常は logrotate という コマンド で一週間毎に新しいログファイルを作り直しています。

もしもこのパラメータを "no" と設定してしまうと、解析結果を知りたい期間の分だけ必ずログファイルを残しておかなければなりませんし、期間が長くなれば長くなるだけ解析に必要な処理時間も長くなってしまいます。

従ってこのディレクティブは修正せずにそのままにしておきます。

IncrementalName〜処理済データ保存ファイルの指定(76行目)

Webalizer による解析結果を保存する テキスト ファイルを指定する ディレクティブ です。

前に説明した Incremental ディレクティブのパラメータが "yes" の場合、このデータファイルに記録されている「最後に解析処理を行ったログファイル中のデータの日時」を参考にして、Webalizerは処理すべき増加分のログデータを判定して解析を行います。

つまり Incremental のパラメータが "no" の場合にはあまり意味を持たないディレクティブです。 デフォルト は、

IncrementalName /var/lib/webalizer/webalizer.current

となっています。

前に説明した HistoryName ディレクティブと同様に、もしも将来的に解析を行うべき コンテンツ がドキュメントルート一つだけであればこのままでも構いませんが、これも HistoryName で出力する "webalizer.hist" と同じディレクトリに出力しておきましょう。

従って、

IncrementalName /var/www/usage/webalizer.current

と修正しておくことをお勧めします。

ReportTitle〜アクセス解析結果ページのタイトル(83行目)

Webalizer によって出力されたアクセス解析のトップページのタイトルを設定する ディレクティブ です。

このディレクティブはアクセス解析そのものには何の影響も与えませんから、任意に設定することができます。

デフォルト は、

#ReportTitle  Usage Statistics for
つまり、Webalizerを英語版のまま使っている場合は、コメントアウト記号 "#" をはずしても表記は変わらないということになります。

とコメントアウトされていますが、この場合、英語表記では "Usage Statistics for" 、日本語版を インストール 日本語表記のwebalizerのインストールについて している場合は "利用統計" という文字列がタイトルの見出しとして表示されます。

ReportTitleディレクティブの表示個所(英語)
"ReportTitle"ディレクティブの表示個所(英語)

ReportTitleディレクティブの表示個所(日本語)
"ReportTitle"ディレクティブの表示個所(日本語)

特に修正する必要はないでしょう。

HostName〜解析するコンテンツのホスト名の設定(94行目)

Webalizer のアクセス解析で、トップページの URL ホスト名 の部分を設定する ディレクティブ です。

この お便利サーバー.com のアクセス解析結果を公開中ですのでご覧ください。
メインコンテンツのアクセス解析結果 お便利サーバー.com
お便利サーバー.comへの検索ロボットのアクセス状況 検索ロボット

またこのディレクティブは同時に、解析結果のトップページのタイトル名表記にも用いられます。

デフォルト では、

#HostName    localhost

とコメントアウトされてますが、この場合は通常 /etc/sysconfig/networkの設定について(WBEL3) /etc/sysconfig/networkの設定について(CentOS3) /etc/sysconfig/networkの設定について(WBEL4) /etc/sysconfig/networkの設定について(CentOS4) で設定されている "HOSTNAME" のパラメータが利用されます。

そのためこの サーバー機 では "web1.obenri.com" がそのままそのホスト名として利用されることになります。

HostNameディレクティブの表示個所(日本語)
"HostName"ディレクティブの表示個所(日本語)

このホスト名をそのままURLに利用して コンテンツ を運用している場合はそのままでも構いませんが、現在の 構築中のLinuxサーバー の運用例のように別名の、 "www.obenri.com" Webサーバー のURLに利用している場合は設定を修正する必要があります。

従ってここはコメントアウト記号を削除し、

HostName    www.obenri.com

のように設定を修正してください。

HTMLExtension〜解析結果の出力形式の指定(100行目)

Webalizer が出力する HTML 形式のアクセス解析結果の 拡張子 を指定する ディレクティブ です。

デフォルト では、

#HTMLExtension html

とコメントアウトされてますが、この場合は拡張子を ".html" として出力します。

例えば ".htm" という形式で出力したい場合は、コメントアウト記号を取り除き、パラメータには ".(ドット)" を記述せずに拡張子名 "htm" だけを記述します。

通常は変更する必要はないでしょう。

PageType〜統計対象のファイル拡張子の指定(108行目〜)

Webalizer の解析対象となる コンテンツ の中で、「ページ数」としてアクセス数の統計の対象とするファイルの 拡張子 を指定する ディレクティブ です。

ここでいう「統計の対象」とは、あくまで「アクセス総数の算出」に関係する部分です。
従ってここで統計に含めないように設定した形式のファイルでも、詳細な解析レポートは行われますので注意してください。

デフォルト では、

PageType    htm*
PageType    cgi
PageType    php
PageType    shtml
#PageType    phtml
#PageType    php3
#PageType    pl

となっていて、 ".html" ".htm" などの HTML ファイル。 CGI の一般的な実行形式ファイルの ".cgi" ファイル。 PHP を含むHTMLである ".php" ファイル。そして SSI を利用するための ".shtml" ファイルが統計の対象として扱われます。

「自分のホームページは一日xxxxページビューです。」 と表現するような場合、 ".jpg" ".gif" などの画像データの数までページ数に入れてしまうのは普通 "インチキ" とみなさます。
それは例えば、一つのページに100枚の画像を貼り付けたページが表示された場合に 「101ページ表示された」 とカウントするようなものですから注意してください。

例えば、 HTML ファイルを利用せずに直接

"http://www.obenri.com/sample.txt"

"http://www.obenri.com/example.pdf"

などを表示させるようなコンテンツを運用するような場合で、それらのファイルも統計に含めたい場合は、

PageType    htm*
PageType    cgi
PageType    php
PageType    shtml
PageType    txt
PageType    pdf

#PageType    phtml
#PageType    php3
#PageType    pl

のように修正します。

逆に CGI で生成されるページを統計に含めたくない場合には、

PageType    htm*
#PageType    cgi
PageType    php
PageType    shtml
#PageType    phtml
#PageType    php3
#PageType    pl

のように設定します。

このディレクティブは運用しているコンテンツのスタイルによって適宜修正してください。

UseHTTPS〜セキュアWebサーバーの統計の有無(122行目)

コンテンツ 内で HTTPS を利用した セキュアWebサーバー を運用している場合に、そのアクセスを統計結果に含めるか否かを設定する ディレクティブ です。

デフォルト では、

#UseHTTPS    no

とコメントアウトされていて、この場合は、 "https://www.obenri.com/〜" に対するアクセスは統計に含まれません。

セキュアWebサーバーを運用していて、そのアクセスも統計に含めたい場合には、先頭のコメントアウト記号を削除して、

UseHTTPS    yes

とディレクティブを修正してください。

DNSCache〜逆引き用キャッシュファイルの指定(131行目)

Webalizer httpd ログ に記録されている、アクセス元の IPアドレス から FQDN への逆引きの 名前解決 を行い、そのFQDNを解析結果として表示に利用します。

しかしながら何千件、何万件ものアクセスログに対して一つ一つ逆引きを行っていたのでは大変な時間を要しますので、Webalizerは過去に行われた逆引きの結果を バイナリ 形式の データベース ファイルとして記録しておき、そのデータベースを参照することで同じIPアドレスに対する無駄な逆引き作業を行わないように基本設定されているというわけです。

この "DNSCache" は、 は、そのデータベースファイルの指定を行う ディレクティブ です。

デフォルト では、

DNSCache    /var/lib/webalizer/dns_cache.db

となっています。

DNS によってもたらされる名前解決の結果は普遍的なものです。

従って 構築中のLinuxサーバー 上で複数の コンテンツ を運用し、各々のコンテンツに対して別にWebalizerを実行する場合でも、このDNSキャッシュのデータベースだけは共用可能という訳です。

ただ、それは 「原理的に可能」 というだけで、実際にそのような利用方法はお勧めしません。

なぜかというとそのDNSキャッシュデータベースは、 参照中に更新が行われると不具合が起こる可能性がある ためです。

例えば メールサーバー の運用で利用される drac のIPアドレスデータベース "/etc/mail/dracd.db" /etc/mail/dracd.dbについて のように、最初から 「任意のタイミングで更新と参照が可能」 という利用が前提になっていれば良いのですが、Webalizerは デーモン での利用が前提になっているわけではないので、そういった使い方が想定されていないということです。

この お便利サーバー.com のアクセス解析結果を公開中ですのでご覧ください。
メインコンテンツのアクセス解析結果 お便利サーバー.com
お便利サーバー.comへの検索ロボットのアクセス状況 検索ロボット

従って、Webalizerで複数のコンテンツのアクセス解析を行う場合、それぞれの実行のタイミングをうっかり間違えてしまうとその内容が破壊されてしまう可能性があるというわけです。

以上のような理由から、DNSキャッシュデータベースはコンテンツ毎に作成するようにしてください。

もちろん、アクセス解析結果を出力するディレクトリに作成するのが間違いがありませんから、

DNSCache    /var/www/usage/dns_cache.db

と設定することをおすすめします。

DNSChildren〜逆引きを行うプロセス数の指定(145行目)

Webalizer がアクセス解析で DNS の逆引きを実行するときの、同時に実行する プロセス の数を指定する ディレクティブ です。

実際にはDNSキャッシュデータベースがありますから、作業はずっと少ないはずです。

解析対象となる コンテンツ のアクセスの状況次第ですが、もしも1000人の ユニーク なユーザーがアクセスしたコンテンツの解析を行う場合、 構築中のLinuxサーバー は単純計算で1000回の逆引き操作を行わなければなりません。

一般にコンピュータ用語で、全体を司る実行プロセスを「親プロセス」、その親プロセスから呼び出されるプロセスを「子( child )プロセス」と呼びます。
このディレクティブ名を直訳すると 「DNSの子供たち」 となっているのはそういうことから由来しています。

これを一つ一つ実行していては時間がかかって仕方がないので、Webalizerは複数の 子プロセス を同時に起動し、それぞれに並行して逆引き作業を行わせるようになっています。

デフォルト では、

DNSChildren   10

となっていて、同時に10プロセスが逆引き作業に当たるようになっています。

このパラメータは最大100まで設定できますが、実際の処理速度は結果を返す DNSサーバー の性能と問い合わせに用いる通信回線のレスポンスにも依存しますから、 構築中のLinuxサーバー の能力が高いからといってむやみに大きくしても意味はありません。通常は 5〜20 が望ましいとされています。

通常はこのパラメータを変更する必要はないでしょう。

Quiet〜処理結果を表示する/しない(196行目)

Webalizer を実行したとき、画面に処理内容のメッセージを表示するかどうかを設定する ディレクティブ です。

デフォルト では、

Quiet      yes

となっていて、「エラー以外のメッセージは表示しない」となっています。

これを、

Quiet      no

と変更すると、Webalizerの実行時に以下のようなメッセージが画面に表示されます。

Webalizer V2.01-10 (Linux 2.4.21-40.EL) Japanese
Using logfile /var/log/httpd/access_www.obenri_log (clf)
DNS Lookup (10): 103 addresses in 8.36 seconds, 12/sec
Using DNS cache file /var/www/usage/dns_cache.db
Creating output in /var/www/usage
Hostname for reports is 'www.obenri.com'
Reading history file... /var/www/usage/webalizer.hist
Reading previous run data.. /var/www/usage/webalizer.current
Saving current run data... [06/25/2006 15:14:55]
Generating report for June 2006
Generating summary report
Saving history information...
13673 records (13534 ignored) in 0.15 seconds

このレポートは、Webalizerが指定したファイルを参照してきちんと動作しているかどうかを確認するときに役に立ちますから、設定の変更中などには重宝します。

ところが一通りの設定が終われば、Webalizer は crond に自動実行プログラムとして登録されることになるでしょう。

crondは自動実行に登録されたプログラムが出力するメッセージをメールで送信する機能を持っていますから crondのメール送信機能について 、自動実行プログラムとして登録された後は、メッセージは画面上ではなくメールで管理者宛てに送られることになります。

ただしレポートの例を見てもらえばわかるとおり、このレポートは「動作の流れ」が記録されているに過ぎず、解析結果が掲載されているわけではありません。

だとすれば、このレポートを毎回の解析毎にメールで受け取ってもあまり意味がありませんから、crondに登録する段階でデフォルト設定に戻しておいたほうが煩わしくないでしょう。

それでもエラーが発生したときだけはきちんとメールが送られてきますから、管理上は問題ないはずです。

VisitTimeout〜ユーザーの訪問時間の設定(248行目)

コンテンツ を訪れたユーザーについて、 「一回の訪問」 とみなす時間を設定する ディレクティブ です。

デフォルト では、

#VisitTimeout  1800

とコメントアウトされていますが、デフォルトではパラメータのとおり 1800秒=30分 と設定されています。

ユーザーは一度コンテンツを訪れると、その内容に興味があれば何ページかを閲覧して去っていきます。

Webalizer はアクセス元の所在地情報を IPアドレス で判断し、それを一人のユーザーのアクセスと判断します。

つまりユーザーが同じ回線を使ってアクセスを続ける限りは、そのユーザーが何ページ閲覧しようとも 「一回の訪問(visit)」 として集計します。

ところが、会社や学校など固定の グローバルIPアドレス 固定IPアドレス契約について からの訪問者の場合は常にアクセス元のIPアドレスは同じになりますし、更に固定IPアドレスではない自宅からのインターネット利用者の場合でも、 ルーター の電源を入れっぱなしにしている場合は事実上グローバルIPアドレスが変化することはほとんどありません。

ということは「IPアドレスが変わらなければ同じユーザーからのアクセスとみなす。」という判定基準だけでは、例えば学校内の LAN から別の人がアクセスした場合でも、自宅から3時間おきにアクセスした場合でも「一回の訪問」という誤った集計結果になってしまう訳です。

ということは、例えば「一人で2時間じっくりと」見た場合は 「訪問者4名」 、逆に NAT + IPマスカレード 環境の一つの LAN 内から4人が一度にアクセスした場合は、 「訪問者1名」 と集計されることになります。
こういうケースはもう仕方がないと割り切ってしまいましょう。

"VisitTimeout" ディレクティブはこの「集計上の誤り」を最低限防ぐためのもので、設定されたパラメータを超える間隔でのアクセスは「別の訪問」とみなして集計することになります。

このパラメータの最適な値については、コンテンツの性格にもよりますから一概には言えませんが、30分というデフォルト値はまず妥当なものだと考えて良いと思います。

IndexAlias〜インデックスページの別名の設定(349行目〜)

通常 コンテンツ のインデックス(見出し)ページには、 "index.html" あるいは "index.htm" 、動的なページの場合には "index.php" などが一般的に使われます。

Apache のインデックスページのファイル名の省略設定 ApacheのDirectoryIndexディレクティブについて でもお分かりのように、コンテンツ中のインデックスページの名前を "index.*" にするのは比較的重要な意味を持ちますから、 Webalizer もそれに倣い、この ディレクティブ デフォルト で、

#IndexAlias   home.htm
#IndexAlias   homepage.htm

とコメントアウトされて明示的に何も設定されていないときは、 "index.*" をインデックスページとして扱い、解析を行うようになっています。

ところが、作成するコンテンツの構造や性格によっては、例えば "top.html" のように "index" 以外の名前を使わなければならない場合もあるでしょう。

また、これまで「見出しページは"index"を使うのが望ましい」といったことを意識せずにコンテンツを作成してきた方も多いかもしれません。

こういう場合はこのディレクティブを以下のように設定します。

IndexAlias   top

すると任意のディレクトリ以下の "top.*" がすべてインデックスページとして扱われることになります。

拡張子が決まっている場合は、

IndexAlias   top.html

のように設定します。

また、このディレクティブには ワイルドカード を使うことができませんから、例えば "index1.html" "index2.html" "index3.html" 、...のような名前でインデックスページを設定している場合は、

IndexAlias   index1.html
IndexAlias   index2.html
IndexAlias   index3.html
    .
    .

と設定しなければならないことに注意してください。

このページの先頭へ↑

アクセス解析結果画面のデザインの設定

"/etc/webalizer.conf" の中の 147行目〜189行目 は、アクセス解析結果の HTML 形式に調整に関する設定です。

実はこれらの ディレクティブ はすべてコメントアウトされていて、すべて デフォルト で動作します。

もちろん、通常はそのままで何の問題もありません。

画面のデザインについては、背景色とテキスト色を変更することだけが可能になっています。

もちろんアクセス解析結果とは何の関係もありませんので、デザインにこだわりのある方は適宜変更しても良いでしょう。

アクセス解析の結果は基本的には自分で参照するもので、積極的に他人に見せるべきものではありませんから、画面のデザインについては神経質になる必要はないと思います。

その他には出力するHTMLのヘッダやフッタの出力内容を変更するディレクティブが用意されていますが、解析結果の閲覧にインターネットエクスプローラーなどの一般的な Webブラウザ を利用する限りは特に変更する必要はないでしょう。

このページの先頭へ↑

アクセス解析結果の表示要素の設定

"/etc/webalizer.conf" の中の 259行目〜334行目 は、アクセス解析結果ページに、 「どのデータをどういう範囲で表示するか」 という設定です。

実はこれらの ディレクティブ はすべてコメントアウトされていて、すべて デフォルト で動作します。

この お便利サーバー.com のアクセス解析結果を公開中ですのでご覧ください。
メインコンテンツのアクセス解析結果 お便利サーバー.com
お便利サーバー.comへの検索ロボットのアクセス状況 検索ロボット

もちろん、通常はそのままで何の問題もありません。

ただ、例えば コンテンツ の閲覧対象が日本に限定されるような場合は、国別のアクセス集計結果を表示する必要はないはずですので、262行目の "CountryGraph" ディレクティブを

CountryGraph  no

という具合に設定すれば、国別のアクセス数を表す円グラフは表示されなくなります。

このコンテンツでは、この表示要素の各設定についての説明は割愛します。あまり難しいものではありませんので適当に「いじくって」みてください。

ここで行う設定は集計と解析の結果には影響を与えません。あくまで表示に関する設定ですから、自分の意図しない表示になっても設定を修正してWebalizerを再実行すれば何度でも表示をしなおすことができます。

このページの先頭へ↑

個々のログに関する処理の設定

"/etc/webalizer.conf" の中の 252行目以降 は、基本的に個々の ログ に対してどのように処理を行うかという設定です。

例えば、 構築中のLinuxサーバー と同じ サブネット からのアクセスを統計に含めてしまうと、自分が家の中から閲覧した場合もアクセス数にカウントされ、正しいアクセス解析ができなくなります。

また、GoogleやYahoo、MSNなどの大手の検索エンジンサイトは、好む好まざるに関係なく 検索ロボット を使ってあなたのコンテンツの内容を読みにやってきます。

もちろんこれらもアクセスログに残るわけですから、これを一般ユーザーの閲覧と同じようにカウントしてしまうと解析の精度を落とす原因になります。

これらの問題に対処するため、 Webalizer はここの部分のディレクティブを適切に設定することで、特定の条件に一致するログを統計から除外することができるようになっています。

ただし、この作業のすべてをWebalizerに任せるのは得策ではありません。

なぜなら、Webalizerで特定のデータを除外できるのは「個々の詳細レポート」の項目だけで、「アクセス総数の統計データ」からは除外できないようになっているからです。

つまり、特定のログをWebalizerの解析から完全に除外してしまうには、解析対象となるログファイルに最初からそれらのログが記録されないようにしておく必要があるというわけです。

そこで、本来はこのパートで説明すべき内容かもしれませんが、そうすると説明の順序が前後してしまいますので、まず次のパート httpdログの構造を理解する 及びその次のパート httpdログの振り分けを行う httpd でのログファイルの振り分けについて解説した後に、 統計データの見方について 以降で解説していきます。

このサイトは既に更新を終了していますが、今のところ店じまいの予定はありません。 リンクフリー ですので、趣味や勉強のためでしたら、引用、転用、コピー、朗読、その他OKです。このサイトへのリンクについては こちら をご覧ください。
Powered by Apache
”Linux”は、Linus Torvalds 氏の各国における登録商標です。”Red Hat”及びRed Hatのロゴおよび Red Hat をベースとしたすべての商標とロゴは、各国におけるRed Hat, Inc. 社の商標または登録商標です。その他のプログラム名、システム名、製品名などは各メーカー、ベンダの各国における登録商標又は商標です。
www.centos.org - The Community ENTerprise Operating System