您好,歡迎訪問seo優(yōu)化易企優(yōu)搜索引擎優(yōu)化系統(tǒng)!
咨詢熱線:400-844-5354
 
微信二維碼
咨詢熱線:400-844-5354

網(wǎng)站優(yōu)化|什么是robots.txt文件?

  robots.txt是搜索引擎訪問網(wǎng)站時需要查看的第一個文件,是指定搜索引擎捕獲網(wǎng)站內(nèi)容范圍的文本文件。當(dāng)搜索蜘蛛訪問網(wǎng)站時,它會首先檢查網(wǎng)站根目錄下是否有robots.txt,如果存在,訪問范圍會根據(jù)文件中的內(nèi)容來確定。

  在網(wǎng)站建設(shè)的過程中,我們會有一些不想被搜索引擎捕獲或者不想出現(xiàn)在互聯(lián)網(wǎng)上的內(nèi)容,那么我們該怎么辦呢?我怎么能告訴搜索引擎你不應(yīng)該抓住我的xx內(nèi)容?這時,robots就派上了用場。

robots

  robots.txt是搜索引擎訪問網(wǎng)站時需要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務(wù)器上可以查看哪些文件。

  當(dāng)搜索蜘蛛訪問網(wǎng)站時,它將首先檢查網(wǎng)站根目錄下是否存在robots.txt。如果存在,搜索蜘蛛將根據(jù)文件中的內(nèi)容確定訪問范圍;如果文件不存在,所有搜索蜘蛛將能夠訪問網(wǎng)站上所有未受密碼保護(hù)的頁面。

  語法:最簡單的robots.txt文件使用兩條規(guī)則:

  User-Agent:適用以下規(guī)則的版本。

  disalow:要攔截的網(wǎng)頁。

  但是我們需要注意幾點:

  1.robots.txt必須存儲在網(wǎng)站的根目錄中。

  2.其命名必須是robots.txt,文件名必須全部小寫。

  3.Robots.txt是搜索引擎訪問網(wǎng)站的第一頁。

  在Robots.txt中必須指明user-agent。

  使用robots.txt的誤區(qū)。

  1:在robots.txt文件中設(shè)置所有文件都可以被搜索蜘蛛抓取,這樣可以提高網(wǎng)站的收錄率。

  即使蜘蛛收錄了網(wǎng)站中的程序腳本、樣式表等文件,也不會增加網(wǎng)站的收錄率,只會浪費服務(wù)器資源。因此,搜索蜘蛛索引這些文件必須設(shè)置在robots.txt文件中。

  在robots.txt中詳細(xì)介紹了哪些文件需要排除。

  2:我網(wǎng)站上的所有文件都需要蜘蛛抓取,所以我不需要添加robots.txt文件。無論如何,如果這個文件不存在,所有搜索蜘蛛都會默認(rèn)訪問網(wǎng)站上所有沒有密碼保護(hù)的頁面。

  每當(dāng)用戶試圖訪問一個不存在的URL時,服務(wù)器都會在日志中記錄404錯誤(無法找到文件)。服務(wù)器還會在日志中記錄一個404錯誤,所以你應(yīng)該在網(wǎng)站上添加一個robots。

  3:搜索蜘蛛抓取網(wǎng)頁太浪費服務(wù)器資源,在robots.txt文件中設(shè)置所有搜索蜘蛛都無法抓取所有網(wǎng)頁。

  如果是這樣的話,整個網(wǎng)站就不能被搜索引擎收錄。

  使用robots.txt的技巧。

  1.每當(dāng)用戶試圖訪問一個不存在的URL時,服務(wù)器都會在日志中記錄404錯誤(找不到文件)。服務(wù)器還會在日志中記錄一個404錯誤,所以你應(yīng)該在網(wǎng)站上添加一個robots。

  2.網(wǎng)站管理員必須將蜘蛛程序遠(yuǎn)離某些服務(wù)器上的目錄——確保服務(wù)器的性能。比如大部分網(wǎng)站服務(wù)器都有存儲在cgi-bin目錄下的程序,所以在robots.txt文件中加入disallow:/cgi-bin是個好主意,這樣可以避免蜘蛛索引所有程序文件,節(jié)省服務(wù)器資源。一般網(wǎng)站中不需要蜘蛛抓取的文件有:后臺管理文件、程序腳本、附件、數(shù)據(jù)庫文件、編碼文件、樣式表文件、模板文件、導(dǎo)航圖片、背景圖片等。

  下面是常見的robots.txt文件:

  User-agent: *

  Disalow:/admin/后臺管理文件。

  Disalow:/template/模板文件。

  Disalow:/require/程序文件。

  Disalow:/images/圖片。

  Disalow:data/數(shù)據(jù)庫文件。

  disachment/附件。

  Disalow:/css/樣式表文件。

  Disalow:/script/腳本文件。

  Disalow:/lang/編碼文件。

  3.如果你的網(wǎng)站是一個動態(tài)網(wǎng)頁,你為這些動態(tài)網(wǎng)頁創(chuàng)建一個靜態(tài)副本,讓搜索蜘蛛更容易抓取。然后,您需要在robots.txt文件中設(shè)置它們,以避免蜘蛛對動態(tài)網(wǎng)頁進(jìn)行索引,以確保這些網(wǎng)頁不會被視為重復(fù)內(nèi)容。

  4.在robots.txt文件中也可以直接包含sitemap文件的鏈接。就像這樣:

  Sitemap: http://dhooder.com/sitemap.xml

  目前支持這一點的搜索引擎公司包括谷歌、Yahoo、AskandMN。然而,中國的搜索引擎公司顯然不在這個圈子里。這樣做的好處是,站長不需要去每個搜索引擎的站長工具或類似的站長部分提交自己的站點地圖文件,搜索引擎的蜘蛛會抓取robots.txt文件,讀取其中的站點地圖路徑,然后抓取其中鏈接的網(wǎng)頁。

  5.合理使用robots.txt文件也可以避免訪問時出錯。例如,搜索者不能直接進(jìn)入購物車頁面。由于沒有理由包括購物車,您可以在robots.txt文件中設(shè)置它,以防止搜索者直接進(jìn)入購物車頁面。

  以上就是什么是robots.txt?的內(nèi)容,更多文章關(guān)注易企優(yōu)的其他相關(guān)文章!


TAG標(biāo)簽:網(wǎng)站優(yōu)化 robots 
聲明:本文"網(wǎng)站優(yōu)化|什么是robots.txt文件?":http://dhooder.com/html/show526.html內(nèi)容和圖片部分來自互聯(lián)網(wǎng),若本站收錄的信息無意侵犯了貴司版權(quán),請給我們來信,我們會及時處理和回復(fù)。

上一頁:seo優(yōu)化教程|什么是死鏈?

下一頁:seo行業(yè)目前的生存狀況

Top