robots作用是什么與nofollow有哪些區(qū)別
robots一般用于站長限制搜索引擎訪問頁面,所以說robots是網(wǎng)站跟搜索引擎爬蟲間的協(xié)議,一般站長通過txt文本方式告訴搜索引擎爬蟲被允許的權(quán)限,一般只要在根域名目錄下,未設(shè)置目錄訪問權(quán)限的文件爬蟲都可以抓取的到,如果網(wǎng)站跟搜索引擎之間沒有協(xié)議,將使不可預(yù)知的大量信息泄露到網(wǎng)上,這不是雙方愿意看到的。
robots作用是什么:
1.如果網(wǎng)站改版了,整個(gè)文件夾都沒有了的時(shí)候,這個(gè)情況下就要考慮屏蔽掉整個(gè)文件夾。我們可以運(yùn)用robots來對這整個(gè)的文件夾進(jìn)行屏蔽,例如網(wǎng)站里的ab文件夾因改版全都給刪掉了,這個(gè)時(shí)候就可以這樣子設(shè)置:
User-agent: *
Disallow: /ab/
2.可以利用各種通配符對網(wǎng)站進(jìn)行相對應(yīng)的調(diào)配,例如我不想網(wǎng)站抓取我的所有圖片,這個(gè)時(shí)候就可以運(yùn)用$來進(jìn)行設(shè)置。一般我們常見的圖片的格式是BMP?。jpg-w600、GIF、JPEG等格式。這個(gè)時(shí)候設(shè)置就是:
User-agent: *
Disallow: /.bmp$
Disallow: /.jpg-w600$
Disallow: /.gif-w600$
Disallow: /.jpeg-w600$
3.如果你只想某一個(gè)搜索引擎抓取你的信息,這個(gè)時(shí)候就可以用robots進(jìn)行設(shè)置,例如:我只想我的網(wǎng)站被百度這個(gè)收錄,而不想被別的搜索引擎收錄。就可以利用robots進(jìn)行設(shè)置。
User-agent: Baiduspider
Allow:
User-agent: *
Disallow: /
4.還可以利用*來屏蔽掉相關(guān)的URL,有些網(wǎng)站不允許搜索引擎抓取動(dòng)態(tài)地址的時(shí)候可以利用這個(gè)*通配符來進(jìn)行匹配設(shè)置。一般情況下動(dòng)態(tài)URL的有一個(gè)特點(diǎn)就是有“?”這個(gè)時(shí)候我們就可以利用這個(gè)特性來進(jìn)行匹配的屏蔽:
User-agent: *
Disallow: /*?*
5.屏蔽所有的搜索引擎抓取信息,如果你的網(wǎng)站只是你的私密性的網(wǎng)站,不想太多的人知道的話,可以利用robots屏蔽掉所有的搜索引擎,例如你寫的私人博客。你就可以把搜索引擎全都屏蔽掉。
robots與nofollow有哪些區(qū)別
robots文件是在根目錄中的一個(gè)txt文本文件,里面用代碼語句告訴蜘蛛什么可以抓取,什么不能抓取,從一開始就告訴了蜘蛛:“我有些東西不能讓你看,請你自動(dòng)繞開?!倍鴑ofollow屬性的鏈接,意思是告訴蜘蛛這個(gè)鏈接你可以看看,但是跟我網(wǎng)站無關(guān),不要給這個(gè)鏈接權(quán)重,這是比較直觀的說法。
說得更通俗點(diǎn)robots一開始就告訴蜘蛛我們什么鏈接不要去抓取,而對于nofollow標(biāo)簽來說,他無法節(jié)省我們的蜘蛛資源,連接中加了nofollow標(biāo)簽,蜘蛛還是會(huì)抓取這個(gè)鏈接,只是不傳遞權(quán)重,也就是我們的網(wǎng)站不對這個(gè)鏈接傳遞權(quán)重。