SEO为什么不能重复内容?如何使用Canonical?

Author: 路卡斯特
Duplicate-Content-ok

SEO很常出现的一个问题就是重复内容(Duplicate Content),重复内容会影响SEO成效,因为Google不允许有大量重复内容的网站,Google过滤重复内容需要花很多时间,当有数个网站出现一模一样的「重复内容」的时候,Google 只会让其中的一个网站排上去,如果可以好好处理网站重复内容,并重视内容原创与发表时间,便可以降低网站重复内容的机会,让网站内容收录更顺利。
 


什么是重复内容?

不同网址下却有一样的网站内容,就是「重复内容」,重复内容可能发生在同一个网站下,也可能发生在不同网站,只要有出现完全一样或大部分相似的内容,我们就定义它是「重复内容」。

同一网站重复内容
相同网站重复内容

不同网站重复内容
不同网站重复内容


为什么不能重复内容?

2017年以前Google演算法没有那么严谨的时候,有很多网站利用「复制别人网站内容」以增加自己网站内容的方式,取得更好的排名,网站为了排名,到处都是重复内容,而且是不经证实的医疗、健康、金融资讯,让整个搜寻结果都是一堆假消息,于是Google开始整顿「违反著作权的复制内容」网站,利用演算法找出重复内容,包含:重复撰写的主题,且内容部分相同的文章,商品颜色不同,但所有内容都一样,电脑版与手机版网站内容重复,网页版与印刷版内容重复...,下面会再详细介绍,虽然这些不自觉的重复不会被Google惩罚,但难免影响排名应该要避免。
 

不自觉的重复内容原因

因为手机网站而使用不同网址

早期为了支援不同装置,像是手机版网站,而有了不一样的网址,但是网站内容是一模一样的,后来有了RWD与AWD以后,因为这样的原因而产生重复内容的机会就变比较少了,因为RWD跟AWD的多版本都是同一个网址。
〈延伸阅读:RWD比较好还是AWD?

https://www.XXX.com/
https://mobile.XXX.com/
 

网站提供可列印的网页版本

像是104人力银行常会提供可列印的网页内容,对于Google来说网站一般内容跟可列印的网站内容就是「重复内容」,必须要做重复内容的处理才可以避免这个问题。


网址有www与没有www是不一样的

对于Google来说网站网址有www跟没有www是不一样的网站,没有将https://www.XXX.com 跟 https://XXX.com/ 网址整合成同一个网站,是会有重复内容问题的,这时候只需要选定其中一个,通常是建议有www的网址,把网址自动转址到另一个,就不会有重复内容的问题了。


安装了SSL后没有转址

没有安装SSL的网址是 http://www.XXX.com 与有安装SSL的网址是 https://www.XXX.com ,多了一个"s",网站必须把没有安装SSL的网址转址到有安装SSL的网址上,如果没有这样做,Google会同时收录这两个网址,因为Google认定这是两个网站。
〈延伸阅读:SSL凭证是什么? 网站真的需要安装吗?


网址有斜线跟没有斜线是不一样的

网站的网址中有斜线(slash)跟没有斜线(non-slash)对Google来说是不一样的网址,像是:https://www.XXX.com 跟 https://www.XXX.com/,多了一个 "/" ,有这个斜线跟没有这个斜线是不一样的,这是两个网址,如果没有好好定义是会发生重复内容的。


因优化网址而产生多个网址

网站的网址如果没有优化,可能会带有参数或是比较长的网址,经过优化后就会变成一个较短且可以带有关键字的网址,因为网址优化原因会产生多个网址,而这些网址内容却是一模一样的,必须进行重复内容处理,不然会被Google认定是重复内容。
https://www.da-vinci.com.tw/blog/detail/50  (网址未优化)
https://www.da-vinci.com.tw/ssl  (网址优化后)


因为产品差异而出现类似网页

同一个商品网页因为有分成红色、蓝色、绿色,除了颜色以外其他的介绍都是一模一样的,因为颜色的关系分成三个独立网页,这时候Google也会认定这是重复内容,这时候必须处理重复内容问题,把这三个颜色网页都指向同一个颜色网页,例如:无论红色、蓝色、绿色都指向红色这一页,后面会有教学怎么处理这类的内容重复问题。
https://www.XXX.com/products.php?color=red
https://www.XXX.com/products.php?color=blue
https://www.XXX.com/products.php?color=green


自行推广文章或是被盗用、引用

为了推广而将网站文章一模一样的刊载到其他网站,或是发生未经授权整篇文章被盗用,或是整篇文章一模一样被引用,以上都是发生重复内容的情形,虽然没有刻意要制造重复内容,但是对于Google来说就是重复内容,这时候需要做一些改善方法,但通常盗用、引用的文章几乎不会帮你加上noindex的参数,所以只能事后通知他们加上引用连结或检举文章侵权盗用,如果是自行转载到其他网站,可以试着加上canonical语法去定义标准网址,要执行SEO就尽量把原创文章留在自己的网站上。

 

重复内容对SEO的影响

爬取网页效率降低

如果网站中有多个重复内容页面,代表搜寻引擎爬虫会需要花加倍的时间,爬取两种版本的网页,若加上网站本身效能不佳,则品质、评分、爬取速度也都会降低,因此必须要好好修复重复页面和网站效能的问题。

〈延伸阅读:PageSpeed Insights 是什么?对SEO有影响?

 

影响搜寻排名

当搜寻引擎爬取到相同内容时会透过内容发布时间、网站权重,来判别哪个页面才是原创内容。若网站本身的原创内容,有投放到其他高权重、高可信度的外部网站时,则有可能出现非原创页面但排名比较高的情况。

 

分散页面权重

Google会参考网站的权重、内容原创性、网站效能、网站连结设置、内容相关性等项目,作为排名的依据,对SEO也有一定的帮助。 但若有太多页面有重复内容,则会让这些页面权重与分数,分散到不同的网址,并直接影响到页面的排名效果。

 

浏览量分流

重复内容导致页面浏览量分散的概念与权重分散很相似,使用者一般都可以透过不同管道和方式进入到网站、网页中,也就是说重复内容页面都会有使用者浏览,这样不但让浏览量无法集中,使行销活动难执行、数据分析产生误差,还会影响排名和权重。

 

如何找出重复内容?

有几个工具可以用来检视网站的重复内容,检测工具有Google Search Console(GSC)、Google Analytic 4(GA4)、Screaming Frog、Ahrefs,最推荐的就是Google Search Console,因为GSC是免费,而且会自动检查网站的重复内容,对外网站就只能用搜寻方式找出重复内容。
〈延伸阅读:真正免费的SEO优化工具


用Google Search Consol检测

说Google Search Console(GSC)是网站检测中最重要的工具一点都不为过,透过GSC可以收集到重复内容的网页,可以从「产生索引」中的「网页」去看是不是有发生重复的网页内容,再依照重复内容的处理方式处理即可,这个方法完全是让Google帮忙检查,但必须要有收录到的网页才会检查。


用GSC检测重复内容

用Search Console检测重复内容


用Google Analytics 4检测

如果不想等Google帮忙检查,可以用GA4自行检查,可以从GA4的报表>生命周期中的「网页和画面」去查看全部网页,这个方法虽然可以主动自行检查重复内容,但是需要耗费许多时间,可以用展开的方式检视。


用GA4检视全部的网页

用GA检视全部收录的网页


用Screaming Frog来检测

Screaming Frog扫网站检查各种资讯,500个网址以内是免费的,但超过500个就要用付费版本,如果您的网站网页超过500页,且需要长期检测各种资讯,可以考虑够购买,Screaming Frog有一个选项是【Canonicals】就是模拟爬虫爬网站,可以去看哪一些网页有重复内容的问题,并针对问题进行改善。


用Screaming Frog检查重复内容

Screaming-Frog检查重复内容


用Ahrefs来检测

Ahrefs是一个付费软体,如果您有预算的话可以购买Ahrefs来进行网站重复内容的检测,但Ahrefs主要的工作不是检测网站重复内容,Ahrefs是一个综合性的SEO工具,它可以帮您评估整个网站的各种数据,也包含了内容的分析,Ahrefs费用也不算亲民,如果只是想知道网站重复内容,建议用Google Search Console(GSC)检测就好。
〈延伸阅读:SEMrush、Moz、Ahrefs,SEO软体哪个好?


用Ahrefs来检测重复内容

Ahrefs检查重复内容


检测已收录网站内容

复制网站文章的一小段内容,用Google搜寻网站内容是不是有重复,看是网站内容是不是有被抄袭或引用?如果有发现内容重复,或是对方网站引用没有放连回的连结,都可以去主动告知请对方改善,如对方不改善可以针对事实向Google提出检举,根据〈数位千禧年著作权法 (DMCA)〉进行申诉。
〈Google侵权申诉:数位千禧年著作权法


以一段原创文字进行搜寻

以一段原创文字搜寻


如何解决重复内容?

检测之后发现了网站有重复内容要怎么处理呢?如果是「公版内容」造成的,像是网站每一页的下方出现公司介绍、版权说明,这类的重复内容就要缩短简介字数,把详细内容另外建立独立的介绍页,内容减少到很低比例的重复就不算重复了。如果是网站结构上的重复,就必须要用301转址与canonical语法这两个方法来解决重复内容的问题。


不制作重复内容、删除重复内容

网站一定要避免重复内容的制作,千万不要过度引用别人的文章,因为重复内容到一定的比例,都有可能被Google判定是重复内容,包含重复的网页连结文字,如果出现过多的重复内容,如果不是必要的网页内容会建议删除,让网站保持更多的第一手内容


301转址整合内容

如果是没有SSL(http://www.XXX.com)跟有装SSL(https://www.XXX.com)造成的重复网站内容,只要将没有SSL的网址301转址到有SSL的https://的网址就可以解决重复的问题,像是没有www与有www的网址问题,也是用301转址到其中一个,固定一个即可,网址有斜线跟没有斜线也是用301转址解决重复网页的问题。
〈延伸阅读:301转址没做好,SEO排名越来越差!


用canonical标准化网页内容

无论网页的网址是什么,无论同样内容的网页有几页,只要在这些网页上放上canonical语法「定义标准页」是哪一页,Google就不会把这些页面当做重复内容的网页,有些网页无法使用301转址就要用canonical语法,多个网页只是类似网页并不能整合到同一页,像前面提到的三个不同颜色的产品页,三种颜色网页都必须存在,这时候就无法使用301转址,只能用canonical语法,告诉Google这几个颜色页都以红色那一页为主,三个产品颜色都是独立网址,在每个网址上放上以红色为标准的rel="canonical" 语法, 例如这样写: <link rel="canonical" href=" https://www.XXX.com/products.php?color=red "/> ,Google就不会把蓝色、绿色的产品页当做重复内容,会以红色产品页为主。

网址无法整合也是用 canonical 语法

如果是因为手机跟桌机产生的不同网址,也是不能用301转成同一页,这时候可以用canonical语法把其中一个版本网址「定义为标准页」,主动告知Google以「标准页内容」为准,即使网址不一样,Google也会以设定的标准页网址为准,不会当做重复内容。如果是因为网站进行的网址优化,包含「网址自订」或「网址自动优化」,网站通常可以自动产生一个标准网址以避免重复内容,用程式自动产出 rel="canonical" 语法是最佳的办法,全自动规则才不会忘记定义,但这个程式必须由网页设计公司帮忙撰写程式。
〈延伸阅读:网页设计公司不会告诉你的5个真相
〈延伸阅读:
好的SEO网站架构是什么?这样做SEO成功率才会高!


使用canonical语法指定「标准化网址」

canonical语法使用范例

Canonical 跨网域使用

有时候会请其他网站帮忙张贴一样内容的文章,或是请KOL帮忙写文章,同时刊载在多个网站上,这时候文章就会出现「重复内容」,如果有跨网域(Cross-Domain)的重复内容,也可以请其他网站使用Canonical把标准网址指向原创网站,就能减少被Google误判的机会,对SEO也是有帮助的,但大部分的外连网站都没有使用Canonical的权限,所以一定要确认有Canonical权限再允许文章同时刊载,如果不确定最好还是自己的网站先发表文章。

原创内容与文章刊载顺序

如果要以文章进行SEO优化关键字排名,建议您不要在其他网站刊载文章,以独创文章的方式在自己的网站上刊载,如果文章还是希望可以在别的网站曝光与宣传,那至少在自己网站上先刊载文章,至少一个月后才将文章刊载到其他网站,Google会透过文章发布时间,得知哪一个网站是原创内容,但即使如此依然无法保证排名一定不会受到影响,所以建议还是把文章留在自己网站比较妥当,除此之外还有助于提升自身网站的权重。
〈延伸阅读:SEO文章怎么写才符合架构呢?
 

使用 Noindex 直接不收录

重复内容可以直接使用 Noindex 请 Google 不要索引这些重复内容网页,Noindex 是一个阻止重复内容出现在搜索结果中的好方法,不要的网址使用301转址,把旧页面转址到新页面,需要存在的页面则使用canonical 标准化网址,而无法 301转址 与 canonical 标准化网址,就是直接用 Noindex 让Google不收录重复内容
〈延伸阅读:用 robots.txt、noindex 限制搜寻引擎抓网站资料


设定 noindex 去除重复内容

请Google不要收录重复内容


结论

大部分的重复内容都是结构性问题,只要做好301转址跟使用canonical语法就能改善,千万不要用robots.txt去限制重复网页的检索,或是使用GSC的网址移除工具做标准网页的定义,也不要用Sitamap.xml去定义网站的标准网址,这些方式都比不上canonical语法的精确,记得要随时检查文章是不是有被其他的网站引用或抄袭,如果类似情形可以请对方补上文章连结,可以额外得到一些外部反向连结。
〈延伸阅读:SEO是什么? SEO怎么做? 2024 重点教学

(本文为达文西数位科技所有,转载文图请注明出处)
 

迈入网站与SEO工作已经超过20年,喜欢探索新知与研究技术,总是希望给您最适合的解决方案。

SEO套版網站,優惠 $ NT 62,000 (1年代管+SSL)

請與我們聯繫
線上客服 TOP