• 首页
  • 博客
  • 重复内容影响SEO,如何使用 Canonical?

重复内容影响SEO,如何使用 Canonical?

Author: 路卡斯特
Duplicate-Content-ok

SEO很常出现的一个问题就是重复内容,重复内容会影响SEO成效,因为Google不喜欢有大量重复内容的网站,Google过滤重复内容需要花很多时间,当有重复内容时只会让一个网站有好的排名。如果可以好好处理网站重复内容,并重视内容原创与发表时间,便可以降低网站重复内容的机会,让网站内容收录更顺利。


什么是重复内容?

不同网址下却有一样的网站内容,就是「重复内容」,重复内容可能发生在同一个网站下,也可能发生在不同网站,只要有出现完全一样或大部分相似的内容,我们就定义它是「重复内容」。


重复内容的原因?

因为手机网站而使用不同网址

早期为了支援不同装置,像是手机版网站,而有了不一样的网址,但是网站内容是一模一样的,后来有了RWD与AWD以后,因为这样的原因而产生重复内容的机会就变比较少了,因为RWD跟AWD的多版本都是同一个网址。
延伸阅读:RWD比较好还是AWD?

https://www.XXX.com/
https://mobile.XXX.com/
 


网站提供可列印的网页版本

像是104人力银行常会提供可列印的网页内容,对于Google来说网站一般内容跟可列印的网站内容就是「重复内容」,必须要做重复内容的处理才可以避免这个问题。


网址有www与没有www是不一样的

对于Google来说网站网址有www跟没有www是不一样的网站,没有将https://www.XXX.com 跟 https://XXX.com/ 网址整合成同一个网站,是会有重复内容问题的,这时候只需要选定其中一个,通常是建议有www的网址,把网址自动转址到另一个,就不会有重复内容的问题了。


安装了SSL后没有转址

没有安装SSL的网址是 http://www.XXX.com 与有安装SSL的网址是 https://www.XXX.com ,多了一个"s",网站必须把没有安装SSL的网址转址到有安装SSL的网址上,如果没有这样做,Google会同时收录这两个网址,因为Google认定这是两个网站。
延伸阅读:SSL凭证是什么? 网站真的需要安装吗?


网址有斜线跟没有斜线是不一样的

网站的网址中有斜线(slash)跟没有斜线(non-slash)对Google来说是不一样的网址,像是:https://www.XXX.com 跟 https://www.XXX.com/,多了一个 "/" ,有这个斜线跟没有这个斜线是不一样的,这是两个网址,如果没有好好定义是会发生重复内容的。


因优化网址而产生多个网址

网站的网址如果没有优化,可能会带有参数或是比较长的网址,经过优化后就会变成一个较短且可以带有关键字的网址,因为网址优化原因会产生多个网址,而这些网址内容却是一模一样的,必须进行重复内容处理,不然会被Google认定是重复内容。
https://www.da-vinci.com.tw/blog/detail/50  (网址未优化)
https://www.da-vinci.com.tw/ssl  (网址优化后)


因为产品差异而出现类似网页

同一个商品网页因为有分成红色、蓝色、绿色,除了颜色以外其他的介绍都是一模一样的,因为颜色的关系分成三个独立网页,这时候Google也会认定这是重复内容,这时候必须处理重复内容问题,把这三个颜色网页都指向同一个颜色网页,例如:无论红色、蓝色、绿色都指向红色这一页,后面会有教学怎么处理这类的内容重复问题。
https://www.XXX.com/products.php?color=red
https://www.XXX.com/products.php?color=blue
https://www.XXX.com/products.php?color=green


自行推广文章或是被盗用、引用

为了推广而将网站文章一模一样的刊载到其他网站,或是发生未经授权整篇文章被盗用,或是整篇文章一模一样被引用,以上都是发生重复内容的情形,虽然没有刻意要制造重复内容,但是对于Google来说就是重复内容,这时候需要做一些改善方法,但通常盗用、引用的文章几乎不会帮你加上noindex的参数,所以只能事后通知他们加上引用连结或检举文章侵权盗用,如果是自行转载到其他网站,可以试着加上canonical语法去定义标准网址,要执行SEO就尽量把原创文章留在自己的网站上。


如何检测网站的重复内容?

有几个工具可以用来检视网站的重复内容,检测工具有Google Search Console(GSC)、Google Analytice(GA)、Screaming Frog、Ahrefs,最推荐的就是Google Search Console,因为GSC是免费,而且会自动检查网站的重复内容,对外网站就只能用搜寻方式找出重复内容。
延伸阅读:真正免费的SEO优化工具


用Google Search Consol检测

说Google Search Console(GSC)是网站检测中最重要的工具一点都不为过,透过GSC可以收集到重复内容的网页,可以从【索引】中的【涵盖范围】去看是不是有发生重复的网页内容,再依照重复内容的处理方式处理即可,这个方法完全是让Google帮忙检查,但必须要有收录到的网页才会检查。


用GSC检测重复内容

用Search Console检测重复内容


用Google Analytics检测

如果不想等Google帮忙检查,可以用GA自行检查,可以从GA的【行为】->【网站内容】->【所有网页】去查看全部网页,这个方法虽然可以主动自行检查重复内容,但是需要耗费许多时间,可以用展开的方式检视。


用GA检视全部的网页

用GA检视全部收录的网页


用Screaming Frog来检测

Screaming Frog扫网站检查各种资讯,500个网址以内是免费的,但超过500个就要用付费版本,如果您的网站网页超过500页,且需要长期检测各种资讯,可以考虑够购买,Screaming Frog有一个选项是【Canonicals】就是模拟爬虫爬网站,可以去看哪一些网页有重复内容的问题,并针对问题进行改善。


用Screaming Frog检查重复内容

Screaming-Frog检查重复内容


用Ahrefs来检测

Ahrefs是一个付费软体,如果您有预算的话可以购买Ahrefs来进行网站重复内容的检测,但Ahrefs主要的工作不是检测网站重复内容,Ahrefs是一个综合性的SEO工具,它可以帮您评估整个网站的各种数据,也包含了内容的分析,Ahrefs费用也不算亲民,如果只是想知道网站重复内容,建议用Google Search Console(GSC)检测就好。
延伸阅读:SEMrush、Moz、Ahrefs,SEO软体哪个好?


用Ahrefs来检测重复内容

Ahrefs检查重复内容


检测已收录网站内容

复制网站文章的一小段内容,用Google搜寻网站内容是不是有重复,看是网站内容是不是有被抄袭或引用?如果有发现内容重复,或是对方网站引用没有放连回的连结,都可以去主动告知请对方改善,如对方不改善可以针对事实向Google提出检举,根据〈数位千禧年著作权法 (DMCA)〉进行申诉。
Google侵权申诉数位千禧年著作权法


以一段原创文字进行搜寻

以一段原创文字搜寻


重复内容要怎么处理?

检测之后发现了网站有重复内容要怎么处理呢?如果是「公版内容」造成的,像是网站每一页的下方出现公司介绍、版权说明,这类的重复内容就要缩短简介字数,把详细内容另外建立独立的介绍页,内容减少到很低比例的重复就不算重复了。如果是网站结构上的重复,就必须要用301转址与canonical语法这两个方法来解决重复内容的问题。


301转址整合内容

如果是没有SSL(http://www.XXX.com)跟有装SSL(https://www.XXX.com)造成的重复网站内容,只要将没有SSL的网址301转址到有SSL的https://的网址就可以解决重复的问题,像是没有www与有www的网址问题,也是用301转址到其中一个,固定一个即可,网址有斜线跟没有斜线也是用301转址解决重复网页的问题。
延伸阅读:301转址没做好,SEO排名越来越差!


用canonical标准化网页内容

当有些网页无法使用301转址时就要用canonical语法,多个网页只是类似并不是唯一,所以不能整合到同一页,像前面提到的三个不同颜色的产品页,三种颜色都必须存在,这时候就无法使用301转址,只能用canonical语法,告诉Google这几个颜色页都以红色那一页为主,三个产品颜色都是独立网址,在每个网址上放上以红色为标准的rel="canonical" 语法, 例如: <link rel="canonical" href=" https://www.XXX.com/products.php?color=red "/>

如果是手机跟桌机不同网址,也可以用canonical语法把其中一个版本网址指向到另一个网址,主动告知Google这是同一个网站的内容,即使网址不一样,Google也会以设定的标准网址做处理。如果是网站进行的网址优化,建议网站可以自动产生一个标准网址,用程式自动产出 rel="canonical" 语法,「自动化产生」是最好的办法,但这个程式必须由网页设计公司帮忙撰写程式。
延伸阅读:网页设计公司不会告诉你的5个真相


使用canonical语法指定「标准化网址」

canonical语法使用范例


原创内容与文章刊载顺序

如果要以文章进行SEO优化关键字排名,那建议您不要在其他网站刊载文章,以独立文章的方式在自己的网站上刊载,如果文章还是希望可以在别的网站曝光与宣传,那至少要先在自己网站上架文章,至少一个月后才将文章上到其他网站,Google至少会知道哪一个网站是原创,但无法保证排名一定不会被影响,所以最好的办法还是把文章留在自己网站是最好的。
延伸阅读:SEO文章怎么写才符合架构呢?


结论

大部分的重复内容都是结构性问题,只要做好301转址跟使用canonical语法就能改善,千万不要用robots.txt去限制重复网页的检索,或是使用GSC的网址移除工具做标准网页的定义,也不要用Sitamap.xml去定义网站的标准网址,这些方式都比不上canonical语法,要随时检查文章是不是有被外面的网站引用与抄袭,告知对方补上文章连结还可以额外得到一些外部反向连结,当然前提是你的文章必须是原创才行。
延伸阅读:SEO是什么? SEO怎么做? 2021重点教学

(本文为达文西数位科技所有,转载文图请注明出处)
 

马上咨询SEO
喜欢探索,常常埋首于新奇的事物里,总是希望给您最适切的解决方案。

SEO套版網站,優惠 $ NT 62,000 (1年代管+SSL)

請與我們聯繫
線上客服 TOP