來源:本站日期:2017-7-7
各位站長朋友通常都會(huì)給自己的網(wǎng)站安裝cnzz、百度統(tǒng)計(jì)等站長統(tǒng)計(jì)工具,可是,這些站長統(tǒng)計(jì)工具不會(huì)記錄網(wǎng)絡(luò)蜘蛛的爬取情況。一些站長朋友通常會(huì)用日志分析工具對網(wǎng)站日志分析蜘蛛爬取情況。我個(gè)人認(rèn)為,可能大部分站長對網(wǎng)站日志的統(tǒng)計(jì)分析過程中,忽略了...
一、網(wǎng)站日志文件應(yīng)該按訪問量多少,來確定是否需要按小時(shí)生成。
一個(gè)站長朋友,網(wǎng)站是每天生成一個(gè)日志文件,前段時(shí)間他參加了電商圈比賽,網(wǎng)站排名保持在首頁,每天的流量有上千IP,每天的網(wǎng)站日志文件大小大約50M左右,有點(diǎn)杯具的是他的電腦舊了點(diǎn),一打開網(wǎng)站日志文件不是沒反應(yīng)就是死機(jī)。他只好通過網(wǎng)絡(luò)把日志傳給我,讓我?guī)椭治鲆幌拢?0M的文件雖然不大,問題是他用電信網(wǎng)絡(luò),我用網(wǎng)通網(wǎng)絡(luò),在傳日志的時(shí)候經(jīng)常杯具。50M的日志文件,我用的日志分析程序也經(jīng)常數(shù)據(jù)溢出、崩潰,無奈只好用文本編輯打開查看,面對密密麻麻的日志文本,統(tǒng)計(jì)分析這些數(shù)據(jù)實(shí)在非常非常困難。所以,建議網(wǎng)站訪問量比較大的站長朋友,最好按小時(shí)生成網(wǎng)站日志,雖然生成文件多了點(diǎn),但更有利于網(wǎng)站日志的分析。
二、網(wǎng)站日志記錄的信息實(shí)際并不完整。
不知道各位站長朋友,有沒有注意到,網(wǎng)站日志里很少出5xx的返回代碼。例如,500返回代碼表示服務(wù)器內(nèi)部錯(cuò)誤,503返回代碼表示服務(wù)不可用。各位站長朋友都知道,5xx返回代碼一般意味著網(wǎng)站服務(wù)器出了故障,一般情況下,服務(wù)器出了故障是無法生成網(wǎng)站日志的。換個(gè)說法,當(dāng)網(wǎng)站服務(wù)器宕機(jī)了,或者dns解析不了,所有人都無法訪問,蜘蛛也無法訪問,在這段時(shí)間里,網(wǎng)站日志肯定是無法記錄任何信息的。