重複內容影響SEO成效, 如何正確使用Canonical?

Author: Locust
Duplicate-Content-ok

SEO很常出現的一個問題就是重複內容(Duplicate Content),重複內容會影響SEO成效,因為Google不允許有大量重複內容的網站,Google過濾重複內容需要花很多時間,當有數個網站出現一模一樣的「重複內容」的時候,Google 只會讓其中的一個網站排上去,如果可以好好處理網站重複內容,並重視內容原創與發表時間,便可以降低網站重複內容的機會,讓網站內容收錄更順利。
 


什麼是重複內容?

不同網址下卻有一樣的網站內容,就是「重複內容」,重複內容可能發生在同一個網站下,也可能發生在不同網站,只要有出現完全一樣或大部分相似的內容,我們就定義它是「重複內容」。

同一網站重複內容
相同網站重複內容

不同網站重複內容
不同網站重複內容


為什麼不能重複內容?

2017年以前Google演算法沒有那麼嚴謹的時候,有很多網站利用「複製別人網站內容」以增加自己網站內容的方式,取得更好的排名,網站為了排名,到處都是重複內容,而且是不經証實的醫療、健康、金融資訊,讓整個搜尋結果都是一堆假消息,於是Google開始整頓「違反著作權的複製內容」網站,利用演算法找出重複內容,包含:重複撰寫的主題,且內容部分相同的文章,商品顏色不同,但所有內容都一樣,電腦版與手機版網站內容重複,網頁版與印刷版內容重複...,下面會再詳細介紹,雖然這些不自覺的重複不會被Google懲罰,但難免影響排名應該要避免。
 

不自覺的重複內容原因

因為手機網站而使用不同網址

早期為了支援不同裝置,像是手機版網站,而有了不一樣的網址,但是網站內容是一模一樣的,後來有了RWD與AWD以後,因為這樣的原因而產生重複內容的機會就變比較少了,因為RWD跟AWD的多版本都是同一個網址。
〈延伸閱讀:RWD比較好還是AWD?

https://www.XXX.com/
https://mobile.XXX.com/
 

網站提供可列印的網頁版本

像是104人力銀行常會提供可列印的網頁內容,對於Google來說網站一般內容跟可列印的網站內容就是「重複內容」,必須要做重複內容的處理才可以避免這個問題。


網址有www與沒有www是不一樣的

對於Google來說網站網址有www跟沒有www是不一樣的網站,沒有將https://www.XXX.com 跟 https://XXX.com/ 網址整合成同一個網站,是會有重複內容問題的,這時候只需要選定其中一個,通常是建議有www的網址,把網址自動轉址到另一個,就不會有重複內容的問題了。


安裝了SSL後沒有轉址

沒有安裝SSL的網址是 http://www.XXX.com 與有安裝SSL的網址是 https://www.XXX.com ,多了一個"s",網站必須把沒有安裝SSL的網址轉址到有安裝SSL的網址上,如果沒有這樣做,Google會同時收錄這兩個網址,因為Google認定這是兩個網站。
〈延伸閱讀:SSL憑證是什麼? 網站真的需要安裝嗎?


網址有斜線跟沒有斜線是不一樣的

網站的網址中有斜線(slash)跟沒有斜線(non-slash)對Google來說是不一樣的網址,像是:https://www.XXX.com 跟 https://www.XXX.com/,多了一個 "/" ,有這個斜線跟沒有這個斜線是不一樣的,這是兩個網址,如果沒有好好定義是會發生重複內容的。


因優化網址而產生多個網址

網站的網址如果沒有優化,可能會帶有參數或是比較長的網址,經過優化後就會變成一個較短且可以帶有關鍵字的網址,因為網址優化原因會產生多個網址,而這些網址內容卻是一模一樣的,必須進行重複內容處理,不然會被Google認定是重複內容。
https://www.da-vinci.com.tw/blog/detail/50  (網址未優化)
https://www.da-vinci.com.tw/ssl  (網址優化後)


因為產品差異而出現類似網頁

同一個商品網頁因為有分成紅色、藍色、綠色,除了顏色以外其他的介紹都是一模一樣的,因為顏色的關係分成三個獨立網頁,這時候Google也會認定這是重複內容,這時候必須處理重複內容問題,把這三個顏色網頁都指向同一個顏色網頁,例如:無論紅色、藍色、綠色都指向紅色這一頁,後面會有教學怎麼處理這類的內容重複問題。
https://www.XXX.com/products.php?color=red
https://www.XXX.com/products.php?color=blue
https://www.XXX.com/products.php?color=green


自行推廣文章或是被盜用、引用

為了推廣而將網站文章一模一樣的刊載到其他網站,或是發生未經授權整篇文章被盜用,或是整篇文章一模一樣被引用,以上都是發生重複內容的情形,雖然沒有刻意要製造重複內容,但是對於Google來說就是重複內容,這時候需要做一些改善方法,但通常盜用、引用的文章幾乎不會幫你加上noindex的參數,所以只能事後通知他們加上引用連結或檢舉文章侵權盜用,如果是自行轉載到其他網站,可以試著加上canonical語法去定義標準網址,要執行SEO就盡量把原創文章留在自己的網站上。

 

重複內容對SEO的影響

爬取網頁效率降低

如果網站中有多個重複內容頁面,代表搜尋引擎爬蟲會需要花加倍的時間,爬取兩種版本的網頁,若加上網站本身效能不佳,則品質、評分、爬取速度也都會降低,因此必須要好好修復重複頁面和網站效能的問題。

〈延伸閱讀:PageSpeed Insights 是什麼? 對SEO有影響?

 

影響搜尋排名

當搜尋引擎爬取到相同內容時會透過內容發布時間、網站權重,來判別哪個頁面才是原創內容。若網站本身的原創內容,有投放到其他高權重、高可信度的外部網站時,則有可能出現非原創頁面但排名比較高的情況。

 

分散頁面權重

Google會參考網站的權重、內容原創性、網站效能、網站連結設置、內容相關性等項目,作為排名的依據,對SEO也有一定的幫助。但若有太多頁面有重複內容,則會讓這些頁面權重與分數,分散到不同的網址,並直接影響到頁面的排名效果。

 

瀏覽量分流

重複內容導致頁面瀏覽量分散的概念與權重分散很相似,使用者一般都可以透過不同管道和方式進入到網站、網頁中,也就是說重複內容頁面都會有使用者瀏覽,這樣不但讓瀏覽量無法集中,使行銷活動難執行、數據分析產生誤差,還會影響排名和權重。

 

如何找出重複內容?

有幾個工具可以用來檢視網站的重複內容,檢測工具有Google Search Console(GSC)、Google Analytic 4(GA4)、Screaming Frog、Ahrefs,最推薦的就是Google Search Console,因為GSC是免費,而且會自動檢查網站的重複內容,對外網站就只能用搜尋方式找出重複內容。
〈延伸閱讀:真正免費的SEO優化工具


用Google Search Consol檢測

說Google Search Console(GSC)是網站檢測中最重要的工具一點都不為過,透過GSC可以收集到重複內容的網頁,可以從「產生索引」中的「網頁」去看是不是有發生重複的網頁內容,再依照重複內容的處理方式處理即可,這個方法完全是讓Google幫忙檢查,但必須要有收錄到的網頁才會檢查。


用GSC檢測重複內容

用Search Console檢測重複內容


用Google Analytics 4檢測

如果不想等Google幫忙檢查,可以用GA4自行檢查,可以從GA4的報表>生命週期中的「網頁和畫面」去查看全部網頁,這個方法雖然可以主動自行檢查重複內容,但是需要耗費許多時間,可以用展開的方式檢視。


用GA4檢視全部的網頁

用GA檢視全部收錄的網頁


用Screaming Frog來檢測

Screaming Frog掃網站檢查各種資訊,500個網址以內是免費的,但超過500個就要用付費版本,如果您的網站網頁超過500頁,且需要長期檢測各種資訊,可以考慮夠購買,Screaming Frog有一個選項是【Canonicals】就是模擬爬蟲爬網站,可以去看哪一些網頁有重複內容的問題,並針對問題進行改善。


用Screaming Frog檢查重複內容

Screaming-Frog檢查重複內容


用Ahrefs來檢測

Ahrefs是一個付費軟體,如果您有預算的話可以購買Ahrefs來進行網站重複內容的檢測,但Ahrefs主要的工作不是檢測網站重複內容,Ahrefs是一個綜合性的SEO工具,它可以幫您評估整個網站的各種數據,也包含了內容的分析,Ahrefs費用也不算親民,如果只是想知道網站重複內容,建議用Google Search Console(GSC)檢測就好。
〈延伸閱讀:SEMrush、Moz、Ahrefs,SEO軟體哪個好?


用Ahrefs來檢測重複內容

Ahrefs檢查重複內容


檢測已收錄網站內容

複製網站文章的一小段內容,用Google搜尋網站內容是不是有重複,看是網站內容是不是有被抄襲或引用?如果有發現內容重複,或是對方網站引用沒有放連回的連結,都可以去主動告知請對方改善,如對方不改善可以針對事實向Google提出檢舉,根據〈數位千禧年著作權法 (DMCA)〉進行申訴。
〈Google侵權申訴:數位千禧年著作權法


以一段原創文字進行搜尋

以一段原創文字搜尋


如何解決重複內容?

檢測之後發現了網站有重複內容要怎麼處理呢?如果是「公版內容」造成的,像是網站每一頁的下方出現公司介紹、版權說明,這類的重複內容就要縮短簡介字數,把詳細內容另外建立獨立的介紹頁,內容減少到很低比例的重複就不算重複了。如果是網站結構上的重複,就必須要用301轉址與canonical語法這兩個方法來解決重複內容的問題。


不製作重複內容、刪除重複內容

網站一定要避免重複內容的製作,千萬不要過度引用別人的文章,因為重複內容到一定的比例,都有可能被Google判定是重複內容,包含重複的網頁連結文字,如果出現過多的重複內容,如果不是必要的網頁內容會建議刪除,讓網站保持更多的第一手內容


301轉址整合內容

如果是沒有SSL(http://www.XXX.com)跟有裝SSL(https://www.XXX.com)造成的重複網站內容,只要將沒有SSL的網址301轉址到有SSL的https://的網址就可以解決重複的問題,像是沒有www與有www的網址問題,也是用301轉址到其中一個,固定一個即可,網址有斜線跟沒有斜線也是用301轉址解決重複網頁的問題。
〈延伸閱讀:301轉址沒做好,SEO排名越來越差!


用canonical標準化網頁內容

無論網頁的網址是什麼,無論同樣內容的網頁有幾頁,只要在這些網頁上放上canonical語法「定義標準頁」是哪一頁,Google就不會把這些頁面當做重複內容的網頁,有些網頁無法使用301轉址就要用canonical語法,多個網頁只是類似網頁並不能整合到同一頁,像前面提到的三個不同顏色的產品頁,三種顏色網頁都必須存在,這時候就無法使用301轉址,只能用canonical語法,告訴Google這幾個顏色頁都以紅色那一頁為主,三個產品顏色都是獨立網址,在每個網址上放上以紅色為標準的rel="canonical" 語法, 例如這樣寫: <link rel="canonical" href=" https://www.XXX.com/products.php?color=red "/> ,Google就不會把藍色、綠色的產品頁當做重複內容,會以紅色產品頁為主。


網址無法整合也是用 canonical 語法

如果是因為手機跟桌機產生的不同網址,也是不能用301轉成同一頁,這時候可以用canonical語法把其中一個版本網址「定義為標準頁」,主動告知Google以「標準頁內容」為準,即使網址不一樣,Google也會以設定的標準頁網址為準,不會當做重複內容。如果是因為網站進行的網址優化,包含「網址自訂」或「網址自動優化」,網站通常可以自動產生一個標準網址以避免重複內容,用程式自動產出 rel="canonical" 語法是最佳的辦法,全自動規則才不會忘記定義,但這個程式必須由網頁設計公司幫忙撰寫程式。
〈延伸閱讀:網頁設計公司不會告訴你的5個真相
〈延伸閱讀:
好的SEO網站架構是什麼?這樣做SEO成功率才會高!


使用canonical語法指定「標準化網址」

canonical語法使用範例


Canonical 跨網域使用

有時候會請其他網站幫忙張貼一樣內容的文章,或是請KOL幫忙寫文章,同時刊載在多個網站上,這時候文章就會出現「重複內容」,如果有跨網域(Cross-Domain)的重複內容,也可以請其他網站使用Canonical把標準網址指向原創網站,就能減少被Google誤判的機會,對SEO也是有幫助的,但大部分的外連網站都沒有使用Canonical的權限,所以一定要確認有Canonical權限再允許文章同時刊載,如果不確定最好還是自己的網站先發表文章。


原創內容與文章刊載順序

如果要以文章進行SEO優化關鍵字排名,建議您不要在其他網站刊載文章,以獨創文章的方式在自己的網站上刊載,如果文章還是希望可以在別的網站曝光與宣傳,那至少在自己網站上先刊載文章,至少一個月後才將文章刊載到其他網站,Google會透過文章發布時間,得知哪一個網站是原創內容,但即使如此依然無法保證排名一定不會受到影響,所以建議還是把文章留在自己網站比較妥當,除此之外還有助於提升自身網站的權重。
〈延伸閱讀:SEO文章怎麼寫才符合架構呢?
 

使用 Noindex 直接不收錄

重複內容可以直接使用 Noindex 請 Google 不要索引這些重複內容網頁,Noindex 是一個阻止重複內容出現在搜索結果中的好方法,不要的網址使用301轉址,把舊頁面轉址到新頁面,需要存在的頁面則使用canonical 標準化網址,而無法 301轉址 與 canonical 標準化網址,就是直接用 Noindex 讓Google不收錄重複內容
〈延伸閱讀:用 robots.txt、noindex 限制搜尋引擎抓網站資料


設定 noindex 去除重複內容

請Google不要收錄重複內容


結論

大部分的重複內容都是結構性問題,只要做好301轉址跟使用canonical語法就能改善,千萬不要用robots.txt去限制重複網頁的檢索,或是使用GSC的網址移除工具做標準網頁的定義,也不要用Sitamap.xml去定義網站的標準網址,這些方式都比不上canonical語法的精確,記得要隨時檢查文章是不是有被其他的網站引用或抄襲,如果類似情形可以請對方補上文章連結,可以額外得到一些外部反向連結。
〈延伸閱讀:SEO是什麼?SEO怎麼做?2024 重點教學

(本文為達文西數位科技所有,轉載文圖請註明出處)
 

邁入網站與SEO工作已經超過20年,喜歡探索新知與研究技術,總是希望給您最適合的解決方案。

SEO套版網站,優惠 $ NT 62,000 (1年代管+SSL)

請與我們聯繫
線上客服 TOP