評估:(敏感信息用編號代替,均為真實數據)
先看一下爬蟲日志的情況,通過Shell腳本,我們可以分析出。
目錄總計被爬行的次數為13000次左右
不重復的目錄爬行次數為5500次左右
頻道A下的目錄幾乎被100%抓取過至少1次,頻道B的目錄抓取也不錯,有70%被至少抓過一次。
其余頻道下的目錄被抓取的覆蓋率不到30%
不要覺得這個結果很神奇,其實很多網站都會面對這樣的糟糕問題,只要你把數據不斷的細分,細分,再細分,總會觀察出一些端倪的。
關于日志分析,不要迷信任何的日志分析軟件,那都是給懶人用的,自制腳本+Excel才是王道,可以拆分顯示出任何你想要的數據,當然,甚至可以連Excel都不要。
然后,我們統計了一下被抓得最頻繁的頻道A和頻道B,目錄頁的收錄率
頻道A和B是很讓人放心的,說明頁面質量沒問題,但是余下的收錄情況就讓人比較擔心了。
決策:通過上面的數據評估,我們已經得到了如下結論。
頁面質量并不是影響收錄的原因。
頻道A,B的抓取量異常的高,通過調查了解,原來是首頁上的目錄頁,顯示的全是頻道A下的目錄頁,首頁又擁有全站最高的權重。頻道B擁有比其他頻道強大的外鏈資源,權重也非常高。
除了A, B頻道,其他頻道的抓取情況不容樂觀,抓取入口太少,太深,進而影響了收錄情況。
很明顯,現在頻道A從站內的角度來說太強大了,必須進行一些“劫富濟貧”的運動來降低頻道A的抓取量,轉移到其他頻道中去。同時,需要給爬蟲提供更多的入口抓取頻道頁。
現在問題變得清晰起來,我們開始把工作分成兩部分:1.提供更多的入口 2.將資源平分給各頻道而不是集中在少數幾個頻道上。
提供入口工作:
1.把目錄頁的URL制作成sitemap。提交給搜索引擎,并且將其設置為比較高的抓取權重。
2.完善面包屑導航,將面包屑導航劃分得更加細致,以提供更多入口
3.在其他產品中推薦目錄頁
資源平分工作:(一些概念:任意頁面都有可能成為爬蟲入口,百度爬蟲抓取深度有限,頁面相對入口越淺,被抓取的概率越高。)
1.原先首頁指向的都是頻道A的目錄頁+產品頁,將其全部nofollow,確保從首頁進入的爬蟲,全部抓取到頻道頁,通過頻道頁再進入目錄頁(其實這個不算太重要)
2.原先頻道頁指向自身的產品頁,將其全部nofollow(確保從頻道頁入口的爬蟲,最大程度的抓取目錄頁)
3.從目錄頁返回到首頁的鏈接,將其全部nofollow。
4.減少一些頁面上無關鏈接。(什么情況下這么做都是非常有效的。)
現在可以開始動手了。。
成果
這么做到底有什么效果呢,我們來看看修改后1個月后的數據。
目錄頁的收錄率提高了100%!
產品頁的收錄率也有一定程度的提高,這是歸功于目錄頁對于產品的良好展現。
目錄頁的SEO表現:
SEO流量占比上升了15%
增長10%的到訪關鍵詞數量(新頁面的收錄)
SEO流量增長了50%以上。(包含一些季節因素)
想認識全國各地的創業者、創業專家,快來加入“中國創業圈”
|