网站日誌_8511网

网站日誌是记录web伺服器接收处理请求以及运行时错误等各种原始信息的以·log结尾的档案，确切的讲，应该是伺服器日誌。网站日誌最大的意义是记录网站运营中比如空间的运营情况，被访问请求的记录。通过网站日誌可以清楚的得知用户在什幺IP、什幺时间、用什幺作业系统、什幺浏览器、什幺解析度显示器的情况下访问了你网站的哪个页面，是否访问成功。

基本介绍

中文名：网站日誌
外文名：web log
别名：伺服器日誌
意义：记录网站运营中的运营情况等
分析方面：访问次数、停留时间、抓取量

分析方法

1、访问次数、停留时间、抓取量

从这三项数据中我们可以得知：平均每次抓取页面数、单页抓取停留时间和平均每次停留时间。

平均每次抓取页面数=总抓取量/访问次数

单页抓取停留=每次停留/每次抓取

平均每次停留时间=总停留时间/访问次数

从这些数据我们可以看出蜘蛛的活跃程度、亲和程度、抓取深度等，总访问次数、停留时间、抓取量越高、平均抓取页面、平均停留时间，表明网站越受搜寻引擎喜欢。而单页抓取停留时间表明网站页面访问速度，时间越长，表明网站访问速度越慢，对搜寻引擎抓取收录较不利，我们应儘量提高网页载入速度，减少单页停留时间，让爬虫资源更多的去抓取收录

作用

通过网站日誌可以清楚的得知访客和服务端等套用是否正常运行，或者存在哪些缺陷，失效组件等信息。

对于专业从事搜寻引擎最佳化工作者而言，网站日誌可以记录各搜寻引擎蜘蛛机器人爬行网站的详细情况，例如：哪个IP的百度蜘蛛机器人在哪天访问了网站多少次，访问了哪些页面，以及访问页面时返回的HTTP状态码。

查看方法

网站日誌一般存放在虚拟主机的logfiles资料夹下，可以通过FTP工具将网站日誌下载下来，下载下来的为log格式的文档，可通过txt文档方式查看。

如何查看自己的伺服器的日记? （以Windows 2003系统为例）

1、开始－－管理工具－－事件查看器－－系统或者控制台－－管理工具－－事件查看器－－系统。

2、在远程客户端，运行IE浏览器，在地址栏中输入“https://Win2003伺服器IP位址:8098”，如“https://192.168.1.1:8098”。在弹出的登录对话框中输入管理员的用户名和密码，点击“确定”按钮即可登录Web访问接口管理界面。接着在“欢迎使用”界面中点击“维护”连结，切换到“维护”管理页面，然后点击“日誌”连结，进入到日誌管理页面。在日誌管理页面中，管理员可以查看、下载或清除Windows 2003伺服器日誌。选择系统日誌可进行查看。并且在日誌管理页面中可列出Windows 2003伺服器。

分析软体

市面上各家网页伺服器自发展初随时都会纪录其所有的交易于一个日誌档里头。这种特性不久就被网管意识到可以透过软体读取它，以提供网页流行度的相关资料；从而造成网站日誌分析软体的兴起。

90年代早期，网站统计资料仅是简单的客户端对网站伺服器请求 (或者访问) 的记数值。一开始这是挺合理的方法，因为每个网站通常只有单一个HTML档案。然而，随着图形进入 HTML 标準，以及网站扩增至多重 HTML 档案，这种记数变得没什幺帮助。最早真正的商用日誌分析器于1994年由 IPRO 发行[1]。

90年代中期，两种计量单位被引入以更準确的估计人类于网站伺服器上的活动总数。它们是网页点阅数(Page Views) 以及访问量(Visits，或者节区(Session))。一次的网页点阅数定义为客户端对伺服器提出某单一网页读取请求，恰好为对某一图形请求的相反；而一次的访问量则定义为来自于某一唯一已识别的客户端对伺服器一连串请求直到闲置一段时间──通常为30分钟──为止。网页点阅数与访问量仍旧在报告上十分常见，不过现今它们被当作是过于简单的量度。

90年代末期，随着网路蜘蛛与机器人问世，伴随着大型企业以及网际网路服务提供商使用代理伺服器与动态指定IP位址，鉴别某网站单一访客变得更困难。对此，日誌分析器以指定Cookie作为追蹤访问量的对策，并忽略已知的蜘蛛机器人的读取请求。

网页快取的广泛使用也造成日誌分析上的问题。如果某人再度造访某页，第二次的读取请求通常由网页浏览器快取达成，因此网站伺服器端不会接受到此请求。这意味着该访问者浏览过该站的“足迹”丢失。快取与否可于设定网站伺服器时克服，不过这可能导致降低该网站的效能。

日誌分析

从网站上下载下的网站日誌，在txt文本中就可以看到以下数据：

117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar)"

分析：

117.26.203.167 访问ip

02/May/2011:01:57:44 -0700 访问日期 -时区

GET/index.php HTTP/1.1 根据HTTP/1.1 协定抓取（域名下）/index.php 这个页面（GET表示伺服器动作）

500 伺服器回响状态码

伺服器回响状态码通常状态码有以下几种：200,301,302,304,404,500等。200代表用户成功的获取到了所请求的档案，如果是搜寻引擎，则证明蜘蛛在这次爬行中顺利的发现了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(永久性)处理，302则是暂时性重定向。404则代表所访问的页面已经不存在了，或者说访问的url根本就是个错误的。500则是伺服器的错误。

19967 表示抓取了19967个位元组

Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; AskTbCS-ST/5.11.3.15590; .NET CLR 2.0.50727; Alexa Toolbar 表示访问者使用火狐浏览器及Alexa Toolbar 等访问端信息

如果你的日誌里格式不是如此，则代表日誌格式设定不同。

很多日誌里可以看到 200 0 0和200 0 64 则都代表正常抓取。

抓取频率是通过查看每日的日誌里百度蜘蛛抓取次数来获知。抓取频率并没有一个规範的时间表或频率数字，我们一般通过多日的日誌对比来判断。

当然，我们希望百度蜘蛛每日抓取的次数越多越好。

日誌语法

#Software: Microsoft Internet Information Services 6.0 #Software：表示软体名称
#Version: 1.0 #Version：表示版本号
#Date: 2013-03-13 00:05:17 #Date：表示时间
#Fields：说明如下#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken
date：表示记录访问日期; 2013-03-13
00:05:17 time：访问具体时间
W3SVC212 s-sitename：表示你的虚拟主机的代称或机器码
116.255.196.2529s-ip：伺服器IP
GET cs-method：表示访问方法或发生的请求/提交事件，常见的有两种：一个是GET，就是平常我们打开一个URL访问的动作，另一个是POST，提交表单时的动作
/xiaohuxingzhuangxiuxiaoguotu/218.html cs-uri-stem：用户在当前时间访问哪一个档案或具体页面
- cs-uri-query：是指访问地址的附带参数，如asp档案?后面的字元串id=12等等，如果没有参数则用“-”表示
80 s-port：访问的连线埠
- cs-username：访问者名称，如果没有参数则用“-”表示
218.30.103.86c-ip：访问者IP
Sogou+web+spider/4.0 cs(User-Agent)：访问的搜寻引擎和蜘蛛名称
200sc-status：Http状态码，200表示成功，403表示没有许可权，404表示打不到该页面，500表示程式有错
0 子状态码 HTTP子协定的状态.一般来说网站都是不使用子协定的,所以这个代码为0就是很正常的
0 win32状态码是0,如果被64位系统访问,那幺这里记录的就是64 sc-substatus：服务端传送到客户端的位元组大小
12304 sc-bytes服务端传送到客户端的位元组大小伺服器传送的位元组数
256 cs-bytes客户端传送到服务端的位元组大小伺服器接受的位元组数
93 time-taken：time-taken处理时间（一段日誌分析到此结束）
2013-03-13 00:12:37 W3SVC212 116.255.196.252 GET / - 80 - 220.181.108.99 Mozilla/5.0+(compatible;+Baiduspider/2.0;++ ）
2013-03-13 00:12:37 W3SVC212 116.255.196.252 GET /index.html - 80 - 220.181.108.153 Mozilla/5.0+(compatible;+Baiduspider/2.0;++ ) 　
http状态码后面几位数据没有固定格式，如果只有一个表示下载数据位元组大小;
2、Http状态码：
1**：请求收到，继续处理
2**：操作成功收到，分析、接受
3**：完成此请求必须进一步处理
4**：请求包含一个错误语法或不能完成
5**：伺服器执行一个完全有效请求失败