国产乱伦三级片精品视频网址_日韩久久精品麻豆_亚洲五十路在线播放_国产一区日韩精品二区_一二三四电影完整版免费观看国语_久青草无码视频在线观看_久草香蕉依人在线_欧美韩日性爱视频_国产丝袜女疯狂3p_aa欧美色欲色欲com

robots.txt規(guī)范,Google怎么看?

Ever

前端工程師 - Ever

2022年1月6日
robots.txt規(guī)范,Google怎么看?

在之前的文章robots.txt在SEO中助你如何做大做強(qiáng)我們便講到過(guò)關(guān)于robots.txt的詳細(xì)描述,robots.txt在網(wǎng)站被抓取時(shí),谷歌的自動(dòng)抓取工具是能夠支持識(shí)別的。這也就意味著在網(wǎng)站被抓取之前,首先解析robots.txt文件,就如同拿到了一張房卡,準(zhǔn)許進(jìn)入哪些房間來(lái)抓取被允許抓取的信息。某些網(wǎng)頁(yè),如果不希望抓取蜘蛛爬取,可創(chuàng)建相應(yīng)規(guī)則的robots.txt文件,阻止它打開(kāi)那扇門(mén)。關(guān)于robots.txt規(guī)范,谷歌是怎么看的呢?

文件位置

一般來(lái)說(shuō),你通常會(huì)在網(wǎng)站的頂級(jí)目錄中找到robots.txt文件,例如:mywebsite.com/robots.txt,并且使用各自支持的服務(wù)協(xié)議。就谷歌搜索引擎來(lái)說(shuō),網(wǎng)站使用FTP和HTTPHTTPS協(xié)議,都是被支持的。當(dāng)你在采用HTTP、HTTPS協(xié)議時(shí),抓取工具都是能夠識(shí)別robots.txt文件并能提取其中的文件內(nèi)容。值得注意的是,robots.txt文件中的網(wǎng)址,是和其他的網(wǎng)址一樣,都是區(qū)分大小寫(xiě)的。

robots.txt的緩存有效期

在通常情況下,robots.txt文件在谷歌瀏覽器中的有效期是長(zhǎng)達(dá)24小時(shí)的。然而也是有例外的情況,例如網(wǎng)頁(yè)出現(xiàn)了超時(shí)的情況,緩存版本沒(méi)有辦法刷新,緩存的有效期是會(huì)有可能變長(zhǎng)的。緩存的響應(yīng)深諳共享經(jīng)濟(jì),它的響應(yīng),是由搜索引擎中各種不同的抓取工具共享的。有關(guān)于緩存的更多情況,可以閱讀我們博文“緩存那些事”深入研究個(gè)中原理。

robots.txt的格式

robots.txt也不是那么隨心所欲,它也有一定的“準(zhǔn)入門(mén)檻”,關(guān)于它,需要采用UTF-8編碼,純文本文件,各行代碼中規(guī)定符號(hào)分隔(CR、LF或者CR/LF)。或許在書(shū)寫(xiě)robots.txt文件中,有一些便于人類閱讀的空行等,但是谷歌在讀取時(shí),這些無(wú)效行會(huì)被智能忽視。假如robots.txt文件的編寫(xiě)沒(méi)有選用UTF-8編碼,哪些沒(méi)有符合編碼的字符,是不會(huì)進(jìn)入谷歌的“法眼”,最終會(huì)導(dǎo)致robots.txt無(wú)效。

robots.txt編寫(xiě)“法規(guī)”

學(xué)習(xí)每一門(mén)語(yǔ)言,都會(huì)由其不同的語(yǔ)法規(guī)范。例如粵語(yǔ)也有九個(gè)聲調(diào)、普通話卻只有四個(gè)聲調(diào),自然robots.txt的編寫(xiě)也有自己的一套規(guī)范。有效的robots.txt文件的一行代碼,是由字段、冒號(hào)、值三個(gè)部分組成的。當(dāng)然你可以選擇自由添加空格(添加空格能夠有效提高robots.txt文件代碼行的閱讀)。相信學(xué)過(guò)編程的小伙伴們應(yīng)該知道,很多時(shí)候,注釋代碼都會(huì)用到“/”和“*”,但是在這里,robots.txt會(huì)使用到“#”符號(hào)來(lái)實(shí)現(xiàn)注釋,在此字符后的內(nèi)容,將會(huì)被谷歌忽略。

給站長(zhǎng)們的小貼士

谷歌在讀取robots.txt文件時(shí),也是支持以下這些字段:

  • user-agent:屬于抓取工具中的一種,適用于標(biāo)識(shí)規(guī)則,可以獲取robots.txt文件中的特定內(nèi)容;
  • allow:屬于“指令”,指定特定的路徑以供抓取工具按照規(guī)則訪問(wèn)網(wǎng)頁(yè);
  • disallow:指定的路徑,搜索蜘蛛是沒(méi)有辦法訪問(wèn)的,而且不含路徑的指令,抓取工具是不能識(shí)別到的;
  • sitemap:不依賴特定的用戶代理,只要sitemap中未被禁止抓取的網(wǎng)頁(yè),網(wǎng)絡(luò)爬蟲(chóng)還是能夠暢行無(wú)阻。

原創(chuàng)文章歸Sytech版權(quán)所有,轉(zhuǎn)載請(qǐng)注明出處,商用請(qǐng)聯(lián)系本站獲取版權(quán)。

Ever

前端工程師 - Ever

Sytech科技前端工程師,專注于網(wǎng)絡(luò)搭建和網(wǎng)站SEO優(yōu)化多年,擅長(zhǎng)于網(wǎng)站數(shù)據(jù)分析和海外網(wǎng)站運(yùn)營(yíng)、維護(hù)。

相關(guān)文章推薦正在加載中...

想要馬上開(kāi)始定制開(kāi)發(fā)您的網(wǎng)站建設(shè)?

添加微信咨詢 掃描二維碼添加微信客服

微信二維碼 微信客服

其它聯(lián)系方式

Sytech科技電話

郵寄聯(lián)系地址 廣州市番禺區(qū)鐘村街道長(zhǎng)華創(chuàng)意谷18棟8~9號(hào) 聯(lián)系服務(wù)熱線 020 8480 8073