任何一個網站,無論規模大小,都要建立在seo基礎上。對于大型網站而言,良好的底層優化可以增加頁面索引量和有機可見性。
“大型網站”的定義無疑會因個人觀點的不同而有所不同,但就本文的目的而言,我指的是擁有數十萬個url的網站。
為什么大型網站seo難做?
首先,這些站點的規模意味著基本技術錯誤的存在可能會成倍增加,隨著時間的推移,這些問題可能會降低站點的整體質量,并導致索引和可見性問題。
其次,大型網站會給搜索引擎爬蟲帶來挑戰,因為它們需要了解網站結構、要抓取的網頁以及抓取網站的時間。
對于大型網站而言,或者那些基于URL參數自動生成頁面的網站來說,區分抓取內容的優先級、抓取時間以及托管網站的服務器可以分配多少資源來進行抓取更為重要。
對于大型網站,我們需要給搜索引擎爬蟲盡可能最好的體驗,減少關于抓取哪些頁面的混亂,最終使整個抓取過程盡可能高效。
大型網站優化需要注意的6個方面
1.站點地圖錯誤
確保XML站點地圖準確和最新,還需要確保站點地圖本身的構建配置正確。如果不是,那么Baidu Spider可能會遇到錯誤,因此無法抓取所引用的頁面。
2.頁面速度和服務器響應時間較差
近年來,在考慮網站質量時,頁面加載速度和網站穩定性已經成為百度搜索排名的核心考慮因素。如果網站頁面加載緩慢,那么搜索引擎爬蟲也會遭遇這種糟糕的體驗。服務器響應太慢會導致爬蟲程序根本無法連接到服務器來抓取url,因此,搜索引擎被迫放棄請求。
3.404錯誤
大型網站seo的另一個常見問題是“404 NOT FOUND”的,這些實際上是站點上已經不存在的頁面,404狀態代碼應該始終被監控,建議優先處理404錯誤,并修復那些需要修復的錯誤,任何不需要重定向的url都應該在百度站長索引中提交刪除。
4.重復內容
大型網站=大量的重復內容
內容重復的性質通常分為兩個核心類別
網站技術構建的問題
有問題的頁面上的物理內容。
在這兩種情況下,重復的內容通??梢酝ㄟ^規范化策略的實現來處理,但是很多大型網站沒有使用canonical標記(rel canonical)來引導搜索引擎爬蟲識別重復內容。
規范標記(又名“rel canonical”)是一種通知搜索引擎爬行器某個特定URL表示頁面的主副本的方法,在搜索引擎可能因重復或類似URL而產生混淆時,它可以讓搜索爬蟲區分頁面的主副關系。
5.URL結構、子域和協議
URL結構是大型網站seo的一個常見問題,例如帶有和不帶有后斜杠(有時在URL結構中還有下劃線),每個版本都返回一個200 OK頭狀態代碼。
如果發生這種情況,那么每個URL都將被視為唯一的URL,在配置不正確的子域和http協議中(www 和非www & http和https),一個URL可能導致存在5或6個副本。
確保http 301重定向到https,選擇站點的www或非www的其中一個版本作為主要版本,并在百度搜索控制臺中設置優先級,同時確保301個版本重定向到另一個版本。
6.分面導航、過濾器和內部搜索
當一個頁面在多個子文件夾中可用/可訪問時,規范url將幫助解決重復的內容問題。當一個產品或服務符合多個類別時,這種情況自然會發生,但是如果沒有規范的(主URL)集,那么搜索引擎將看到多個重復的頁面,并且不確定應該將哪個頁面包含在索引中。
當大型網站使用分面導航來允許用戶定位產品時,也會出現這個問題。如下圖,用戶可以通過多種方式在類別中對產品進行排序,包括多種排列,因此可能生成數千個獨特的url。根據站點的規模以及產品排序和查看的方式,無法處理分面導航可能會導致大規模的重復問題。
分面導航
不僅如此,搜索引擎還會花時間抓取過濾后的url,這是對爬行預算的巨大消耗。這可能導致爬行的頁面價值降低,而希望索引的頁面仍然未被發現。建議將分面url規范化回主類別頁面,利用robots.txt文件阻止這些url的爬行,以節省爬行預算。
分頁的內容
分頁在大型站點上很常見,當內容跨越多個數字頁面作為分類系列的一部分時,就會發生分頁。在大型網站上,如果處理不當,分頁可能會導致技術SEO問題,包括爬蟲程序的限制(因為他們可能會花時間爬行并嘗試索引本系列中的所有頁面)和重復的內容問題, 為了盡可能優化抓取效率,建議實現Rel= ” Prev ” / ” next “來指示組件url之間的關系。
例子:
第1頁:
第2頁:
結論
上面的一些問題是大型網站seo經常遇到的最常見的問題,特別是在分析大型網站時,優先注意以上的6個方面,并找出影響搜索引擎抓取的因素加以修復。