外貿(mào)建站的抓取預(yù)算管理
連外貿(mào)建站也開始“內(nèi)卷”了,好不容易才得到收錄份額了,現(xiàn)在就連爬蟲抓取網(wǎng)頁(yè)也要講究預(yù)算管理了?
“預(yù)算”其實(shí)是我們對(duì)資源的比喻。
全球網(wǎng)站的每日產(chǎn)生的數(shù)據(jù)流量極大,搜索引擎單憑自身的機(jī)房很難將網(wǎng)絡(luò)上所有的內(nèi)容隨時(shí)、隨地編入索引并展示在SERP上。所以機(jī)智的搜索引擎會(huì)選擇自己的方法來優(yōu)先考慮網(wǎng)站的抓取工作,其中就包含為每個(gè)網(wǎng)站分配爬取預(yù)算。以谷歌為例,Googlebot在抓取過程中,花在每個(gè)網(wǎng)站上的時(shí)間和資源都是有限額的,外貿(mào)建站的小伙伴們要善用自身資源,優(yōu)先向谷歌推送“主打”頁(yè)面,以免超出抓取資源的預(yù)算。
抓取預(yù)算最影響什么樣的網(wǎng)站?
- 假如你的網(wǎng)站是屬于復(fù)雜型網(wǎng)站,網(wǎng)頁(yè)數(shù)據(jù)大且內(nèi)容更改較為頻繁;
- 網(wǎng)站不大,但是內(nèi)鏈建設(shè)繁雜、交互過多;
- 網(wǎng)站中存在著大量的重定向鏈接內(nèi)容,爬蟲抓取時(shí)會(huì)耗費(fèi)你的抓取預(yù)算。
一個(gè)關(guān)于網(wǎng)站抓取的重要知識(shí)點(diǎn):并不是說Googlebot從你的網(wǎng)站抓取的所有內(nèi)容都會(huì)被編入索引展示在SERP上面的,它只是將你的網(wǎng)站內(nèi)容放進(jìn)了一個(gè)索引庫(kù)里。被索引和爬取的信息抵達(dá)索引庫(kù)后還需一路過五關(guān)斬六將,在符合了谷歌的質(zhì)量算法之后,才能夠最終C位出道SERP。
我的網(wǎng)站最多能夠被抓取的限度是多少?
搜索引擎在抓取網(wǎng)站時(shí),首先考慮到超負(fù)荷運(yùn)作問題,因?yàn)樗麄児倦S意一個(gè)分機(jī)房派來的點(diǎn)擊爬蟲就可以將你的小服務(wù)器擊潰。為此,Googlebot會(huì)先計(jì)算得出你的網(wǎng)站的抓取容量上限,即它最多能夠在你的網(wǎng)站同時(shí)抓取多少內(nèi)容,而不影響網(wǎng)站的正常運(yùn)作,以免造成服務(wù)器負(fù)載過重。
抓取容量的上限就像溫度計(jì)一樣忽高忽低,根本原因有3:
服務(wù)器配置會(huì)影響抓取容量
配置導(dǎo)致的網(wǎng)站的響應(yīng)速度其實(shí)在很大程度上影響了爬蟲對(duì)網(wǎng)站的抓取容量,如果在某段時(shí)間內(nèi),網(wǎng)站的響應(yīng)速度很快,那么它的抓取容量也將會(huì)變高,進(jìn)行更大強(qiáng)度的抓取工作。但是網(wǎng)站的響應(yīng)速度變慢或者服務(wù)器出現(xiàn)連接錯(cuò)誤的話,那抓取的頻次和量便會(huì)下降。
搜索引擎本身的抓取能力影響抓取量
不止國(guó)家有額度調(diào)控,搜索引擎愿意在不同領(lǐng)域和話題上投入的資源其實(shí)是有配額的,因?yàn)榕老x資源的計(jì)算能力就那么多,他們自然會(huì)傾向更有用的資源。所以建議你在考慮話題的時(shí)候嘗試蹭一下熱度,也許會(huì)有意想不到的收獲。
站長(zhǎng)希望被抓取的的上限左右了爬蟲的判斷
網(wǎng)站的抓取容量上限其實(shí)也是“受制于人”的,網(wǎng)站站長(zhǎng)可以在代碼架構(gòu)或者站長(zhǎng)賬號(hào)中選擇增加或者減少可爬取內(nèi)容。但是值得注意的是,盡管站長(zhǎng)將網(wǎng)站的抓取容量上調(diào)至更高,但是,Googlebot也不會(huì)因?yàn)閷?duì)你的話題和領(lǐng)域更“偏心”,便對(duì)你自動(dòng)增加網(wǎng)站抓取量。
外貿(mào)建站要學(xué)會(huì)表達(dá)你的抓取需求
大家都希望自己的海外網(wǎng)站的所有內(nèi)容都能夠被抓取收錄,所以抓取壓力總是不會(huì)下降的。通常情況下,谷歌抓取網(wǎng)站會(huì)遵循“按需分配”的原則。根據(jù)網(wǎng)站的規(guī)模大小、網(wǎng)站內(nèi)容更新的頻率、內(nèi)容是否優(yōu)質(zhì)、以及內(nèi)容與行業(yè)的相關(guān)性等等,進(jìn)行一個(gè)綜合的評(píng)估,確認(rèn)網(wǎng)站的抓取需求,并以此來分配網(wǎng)站的抓取。
不過,不是說你不斷更新網(wǎng)站提交需求,谷歌就一定會(huì)收錄,所以更不是鼓勵(lì)你不斷地微調(diào)內(nèi)容。內(nèi)容與質(zhì)量是相掛鉤的,內(nèi)容的新鮮度更多是指Googlebot傾向的新鮮原創(chuàng)、熱門的內(nèi)容網(wǎng)頁(yè);
寫在最后
網(wǎng)站內(nèi)容更改不可避免,關(guān)于圖片更改、內(nèi)容錯(cuò)漏更改等情況,網(wǎng)絡(luò)爬蟲會(huì)重復(fù)地抓取舊網(wǎng)頁(yè)中的內(nèi)容,以便將在這些變化盡收囊中,對(duì)更改做出及時(shí)更新;另外,谷歌會(huì)嘗試將收錄過的所有內(nèi)容都嘗試去再抓取一遍,那些重復(fù)的網(wǎng)址、你不希望被抓取的網(wǎng)址,也都統(tǒng)統(tǒng)納入抓取隊(duì)列,如果你沒有對(duì)其進(jìn)行限制,網(wǎng)站的抓取預(yù)算也就被浪費(fèi)了。
原創(chuàng)文章歸Sytech版權(quán)所有,轉(zhuǎn)載請(qǐng)注明出處,商用請(qǐng)聯(lián)系本站獲取版權(quán)。
相關(guān)文章推薦正在加載中...