網(wǎng)站SEO優(yōu)化過程中不免會分析網(wǎng)站日志,網(wǎng)站日志的分析與診斷就像為網(wǎng)站看病一樣,我們通過網(wǎng)站日志的分析,可以更清楚地了解網(wǎng)站的健康狀況,利用這些數(shù)據(jù)更有利于網(wǎng)站SEO優(yōu)化。
通過網(wǎng)站日志,可以清楚的知道用戶在什么IP、什么時間、使用什么操作系統(tǒng)、瀏覽器、分辨率顯示器的情況下訪問了你網(wǎng)站的哪個頁面,是否成功。對于專門從事搜索引擎優(yōu)化的人來說,網(wǎng)站日志可以記錄每個搜索引擎蜘蛛機(jī)器人爬行網(wǎng)站的細(xì)節(jié),比如哪個IP的百度蜘蛛機(jī)器人哪天訪問了網(wǎng)站多少次,訪問了哪些頁面,訪問頁面時返回的HTTP狀態(tài)碼。
常見的蜘蛛名稱:
Baiduspider:百度蜘蛛
Baiduspider-Image:百度圖片蜘蛛
Googlebot:谷歌機(jī)器人
Googlebot-Image:谷歌圖片機(jī)器人
360Spider:360蜘蛛
sogouspider:搜狗蜘蛛
第一,網(wǎng)站日志的作用。
1.通過網(wǎng)站日志,可以了解蜘蛛對網(wǎng)站的基本爬行情況,了解蜘蛛的爬行軌跡和爬行量。
2.網(wǎng)站的更新頻率也與網(wǎng)站日志中蜘蛛抓取的頻率有關(guān)。一般來說,更新頻率越高,蜘蛛抓取的頻率越高。我們網(wǎng)站的更新不僅是新內(nèi)容的添加,也是我們的微調(diào)操作。
3.我們可以根據(jù)網(wǎng)站日志的反應(yīng)提前預(yù)警我們空間中的一些事情和問題,因為如果服務(wù)器有問題,它會在網(wǎng)站日志中第一時間反映出來,要知道服務(wù)器的穩(wěn)定速度和打開速度會直接影響我們的網(wǎng)站。
4.通過網(wǎng)站日志,我們可以知道網(wǎng)站的那些頁面很受蜘蛛的歡迎,哪些頁面是蜘蛛甚至不碰的。同時,我們也可以發(fā)現(xiàn),有些蜘蛛因為過度爬行而損失了我們的服務(wù)器資源,所以我們必須進(jìn)行屏蔽工作。
第二,怎樣下載網(wǎng)站日志呢?
1.首先,我們的空間應(yīng)該支持網(wǎng)站日志下載,這非常重要。購買空間時,我們需要提前知道是否支持日志下載,因為一些服務(wù)提供商不提供這項服務(wù)。如果支持,空間背景通常有日志W(wǎng)ebLog日志下載功能,可以用FTP將其下載到根目錄并傳輸?shù)奖镜亍H绻?wù)器支持,可以設(shè)置將日志文件下載到指定路徑。
2.這里有一個非常重要的問題。網(wǎng)站日志強(qiáng)烈建議每小時生成一次。小企業(yè)站和頁面內(nèi)容少的網(wǎng)站可以設(shè)置為一天。默認(rèn)情況下是一天。如果內(nèi)容多或大站設(shè)置為一天生成一次,那么一天只生成一個文件,這個文件會相當(dāng)大。有時候打開電腦會導(dǎo)致死機(jī)。如果設(shè)置了,找空間提供商協(xié)調(diào)設(shè)置。
第三,網(wǎng)站日志數(shù)據(jù)分析。
1.網(wǎng)站日志中的數(shù)據(jù)量太大,所以我們通常需要使用網(wǎng)站日志分析工具來查看。常用的日志分析工具有:光年日志分析工具、網(wǎng)絡(luò)標(biāo)志、WPS表格等。
117.26.203.167-[02/May/2011:01:57:44-0700]"GET/index.phpHTTP/1.1"50019967"-"Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;AskTbCS-ST/5.11.3.15590;.NETCLR2.0.50727;AlexaToolbar"
分析:
117.26.203.167訪問ip;
2011:01:57:44-0700訪問日期-時區(qū);
GET/index.phpHTTP/1.1根據(jù)HTTP/1.1協(xié)議捕獲(域名下)/index.php頁面(GET代表服務(wù)器動作);
服務(wù)器響應(yīng)狀態(tài)碼500;
一般情況下,服務(wù)器響應(yīng)狀態(tài)碼有以下幾種:200,301,302,304,404,500等。200代表用戶成功地獲得了所需的文件,如果是搜索引擎,則證明蜘蛛在這次爬行中順利地發(fā)現(xiàn)了一些新的內(nèi)容。而且301代表用戶訪問的某一頁url已經(jīng)進(jìn)行了301重定向(永久)處理,而302則是暫時重定向。而且404代表所訪問的網(wǎng)頁已不存在,或者所訪問的網(wǎng)址完全是錯誤的。五百是服務(wù)器的錯誤。
19967表示抓取了19967字節(jié);
Mozilla/4.0(compatible;MSIE8.0;WindowsNT5.1;Trident/4.0;AskTbCS-ST/5.11.3.15590;.NETCLR2.0.50727;AlexaToolbar表示,訪問者使用火狐瀏覽器、AlexaToolbar等訪問端信息;
2.如果您的日志格式不是這樣,則意味著日志格式設(shè)置不同。
3.很多日志中都能看到20000和200064則代表正常抓取。
4.抓取頻率是通過查看日志中百度蜘蛛的抓取次數(shù)來知道的。抓取頻率沒有標(biāo)準(zhǔn)的時間表或頻率數(shù)字。我們通常通過比較日志來判斷。當(dāng)然,我們希望百度蜘蛛每天抓取的次數(shù)越多越好。
5.有時我們的路徑不統(tǒng)一,會出現(xiàn)帶斜杠和沒有斜杠的問題,蜘蛛會自動識別為301跳轉(zhuǎn)到帶斜杠的頁面,這里我們發(fā)現(xiàn)搜索引擎可以判斷我們的目錄,所以我們要統(tǒng)一我們的目錄。
6.我們分析日志分析時間長了,我們可以看到蜘蛛的抓取規(guī)律,同一目錄下單個文件的抓取頻率間隔和不同目錄的抓取頻率間隔都可以看到,這些抓取頻率間隔是蜘蛛根據(jù)網(wǎng)站的權(quán)重和更新頻率自動確定的。
7.蜘蛛對我們網(wǎng)頁的抓取是分等級的,是按權(quán)重依次遞減的,一般順序是首頁,目錄頁,內(nèi)頁。
第四,通過網(wǎng)站日志我們可以知道些什么?
1.我們買的空間能穩(wěn)定嗎?
2.蜘蛛喜歡我們的頁面,不喜歡什么?
3.蜘蛛什么時候經(jīng)常抓取我們的網(wǎng)站,什么時候需要更新內(nèi)容?
總結(jié):因此,無論是新站還是老站,無論你做百度還是Google,我們都可以通過網(wǎng)站日志來分析搜索引擎蜘蛛抓取的情況;如果網(wǎng)站長期收錄有問題,那么我們也可以對比網(wǎng)站日志中的搜索引擎蜘蛛行為,了解網(wǎng)站哪方面出了問題;如果網(wǎng)站被封或被K,我們都可以通過觀察網(wǎng)站日志網(wǎng)站日志的情況來了解原因出在哪里。所以對于真正的SEO高手來說,分析蜘蛛日志是最直觀、最有效的。