日志中的HTTP状态码都代表什么?

想成为SEO高手, 那么必须知道网站的访问日志必须知道,那么王启SEO今天和大家说下,我们经常会在日志上看到类似这样的代码:

【网站日志名词解释】

—-开始—

网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件,确切的讲,应该是服务器日志。网站日志最大的意义是记录网站运营中比如空间的运营情况,被访问请求的记录。通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。

通过网站日志可以清楚的得知访客和服务端等应用是否正常运行,或者存在哪些缺陷,失效组件等信息。
对于专业从事搜索引擎优化工作者而言,网站日志可以记录各搜索引擎蜘蛛机器人爬行网站的详细情况,例如:哪个IP的百度蜘蛛机器人在哪天访问了网站多少次,访问了哪些页面,以及访问页面时返回的HTTP状态码。
1、访问次数、停留时间、抓取量
从这三项数据中我们可以得知:平均每次抓取页面数、单页抓取停留时间和平均每次停留时间。
平均每次抓取页面数=总抓取量/访问次数
单页抓取停留=每次停留/每次抓取
平均每次停留时间=总停留时间/访问次数
从这些数据我们可以看出蜘蛛的活跃程度、亲和程度、抓取深度等,总访问次数、停留时间、抓取量越高、平均抓取页面、平均停留时间,表明网站越受搜索引擎喜欢。而单页抓取停留时间表明网站页面访问速度,时间越长,表明网站访问速度越慢,对搜索引擎抓取收录较不利,我们应尽量提高网页加载速度,减少单页停留时间,让爬虫资源更多的去抓取收录

网站日志一般存放在虚拟主机的logfiles文件夹下,可以通过FTP工具将网站日志下载下来,下载下来的为log格式的文档,可通过txt文档方式查看。
如何查看自己的服务器的日记? (以Windows 2003系统为例)

查看方法

1、开始--管理工具--事件查看器--系统 或者 控制面板--管理工具--事件查看器--系统。
2、在远程客户端,运行IE浏览器,在地址栏中输入“https://Win2003服务器IP地址:8098”,如“https://192.168.1.1:8098”。在弹出的登录对话框中输入管理员的用户名和密码,点击“确定”按钮即可登录Web访问接口管理界面。接着在“欢迎使用”界面中点击“维护”链接,切换到“维护”管理页面,然后点击“日志”链接,进入到日志管理页面。在日志管理页面中,管理员可以查看、下载或清除Windows 2003服务器日志。选择系统日志可进行查看。并且在日志管理页面中可列出Windows 2003服务器。

—-结束—
61.135.166.232 – – [31/Dec/2007:02:30:11 +0800] “GET /category21.html HTTP/1.1” 200 10968 “-” “Baiduspider+(+http://www.baidu.com/search/spider.htm)”
66.249.70.172 – – [31/Dec/2007:03:36:10 +0800] “GET /32_10_zh.html HTTP/1.1” 200 18395 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
这里面需要知道的,就是那个奇怪的数字“200”(另外那个数字表示抓取的文件大小)。
“200”就是HTTP状态码。
SEO过程中最常见的HTTP状态码有:
200 – 服务器成功返回网页
404 – 请求的网页不存在
503 – 服务器超时

其他经常碰到的HTTP状态码列表如下:
HTTP状态码 摘要说明
成功2×× 成功处理了请求的状态码。
200 服务器已成功处理了请求并提供了请求的网页。
204 服务器成功处理了请求,但没有返回任何内容。
重定向3×× 每次请求中使用重定向不要超过 5 次。
301 请求的网页已永久移动到新位置。当URLs发生变化时,使用301代码。搜索引擎索引中保存新的URL。
302 请求的网页临时移动到新位置。搜索引擎索引中保存原来的URL。
304 如果网页自请求者上次请求后没有更新,则用304代码告诉搜索引擎机器人,可节省带宽和开销。
客户端错误4×× 表示请求可能出错,妨碍了服务器的处理。
400 服务器不理解请求的语法。
403 服务器拒绝请求。
404 服务器找不到请求的网页。服务器上不存在的网页经常会返回此代码。
410 请求的资源永久删除后,服务器返回此响应。该代码与 404(未找到)代码相似,但在资源以前存在而现在不存在的情况下,有时用来替代404 代码。如果资源已永久删除,应当使用 301 指定资源的新位置。
服务器错误5×× 表示服务器在处理请求时发生内部错误。这些错误可能是服务器本身的错误,而不是请求出错。
500 服务器遇到错误,无法完成请求。
503 服务器目前无法使用(由于超载或停机维护)。通常,这只是暂时状态。
下面王启SEO要着重讲解404页面该怎么做?

404页面的目的是:告诉浏览者其所请求的页面不存在或链接错误,同时引导用户使用网站其他页面而不是关闭窗口离开。
很多开源系统包括CMS系统、Blog系统等不提供404页面或提供的404页面并未达到SEO的要求,这让网站的权威性大打折扣。
404页面该达到怎么样的效果才符合SEO要求?
搜索引擎通过HTTP状态码来识别网页的状态。当搜索引擎获得了一个错误链接时,网站应该返回404状态码,告诉搜索引擎放弃对该链接的索引。而如果返回200或302状态码,搜索引擎就会为该链接建立索引,这导致大量不同的链接指向了相同的网页内容。结果是,搜索引擎对该网站的信任度大幅降低。——很多网站存在这个问题:404页面返回的是200或302状态码而不是404状态码。
正确建立404页面的方法是:(仅适合Apache服务器)
在.htaccess 文件中加入代码: ErrorDocument 404 /Error.html
建立一个简单的html404页面命名 Error.html
把 Error.html放置在网站根目录

注意:
不要将404错误直接转向到网站首页,这将导致首页不被收录;
/Error.html 前面不要带主域名,否则返回的状态码是302或200状态码。

未经允许不得转载:SEO培训教程|企业SEO优化顾问 » 日志中的HTTP状态码都代表什么?

赞 (3)
分享到:更多 ()

评论 0

评论前必须登录!

登陆 注册
二维码
联系地址