刘小白博客-君子好学,自强不息!

当前位置:首页 - 学习笔记 - 正文

君子好学,自强不息!

一、网站访问日志在哪里获取:
1、如果安装宝塔的话,可以点击首页-网站-(想要查看日志的网站)设置-响应日志,里面的内容就是网站的访问日志了,我们可以在里面获取详细的访客信息,也可以在日志文件中查询是否有蜘蛛来访问。
2.如果宝塔版本比较低的话可能设置选项里面没有响应日志选项,然后选择首页-安全,在右上角有个日志路径,点击那里就能看到服务器存储的日志文件了。日志文件已网站域名命名,例如www.baidu.com.log,下载下来直接打开就能查看了。当然如果太大的话没办法打开也不要急,把日志文件拖到浏览器地址栏里通过浏览器就能打开了。
3.如果是网站空间的话,一般在根目录或者根目录所在的文件夹中有个 wwwlogs或者logs之类的文件夹,网站的访问日志也有可能在这个文件夹中。
4.欢迎大佬们补充其他获取访问日志的办法。
二、如何确定是不是蜘蛛,以及蜘蛛爬取了那些内容。
通过检查访问IP记录中的UA来判断是不是蜘蛛
例如百度蜘蛛的PC版的UA Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)或者PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html),谷歌蜘蛛的UA:(compatible; Googlebot/2.1; +http://www.google.com/bot.html),以及Bing的UA:Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)等,来判断是爬虫还是用户正常访问。我们通过谷歌爬虫实例也详解下日志内容的解读:66.249.79.149 - - [06/Nov/2019:06:49:39 +0800] "GET /goods/info/id/198 HTTP/1.1" 200 11174 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"。这是一个真实的网站日志内容来自于谷歌蜘蛛抓取。66.249.79.149

;这个不用说也知道是IP地址。[06/Nov/2019:06:49:39 +0800]:这个是访问网站的时间。"GET /goods/info/id/198:蜘蛛访问的页面。200 11174:200访问状态码 11174访问字节,如果状态码返回的是404就需要把该链接提交死链处理了。再加上结尾的谷歌蜘蛛的UA,我们就能知道蜘蛛成功爬取了网址+/goods/info/id/198这个页面了。END。


本文来源:刘小白博客

本文地址:http://www.feixunyun.cn/?id=8

联系我们:发送邮件至lkan_cc@163.com

版权声明:如无特别注明,转载请注明本文地址!

发表评论

必填

选填

选填

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。


  • RainbowSoft Studio Z-Blog
  • 订阅本站的 RSS 2.0 新闻聚合