Duplicate content: De ultieme gids

9 min


91

(Duplicate content) zoekmachines zoals Google hebben een probleem – dit wordt ‘dubbele inhoud’ genoemd. Dubbele inhoud betekent dat vergelijkbare inhoud op meerdere locaties (URL’s) op internet wordt weergegeven, waardoor zoekmachines niet weten welke URL in de zoekresultaten wordt weergegeven. Dit kan de rangorde van een webpagina schaden en het probleem wordt alleen erger wanneer mensen beginnen te linken naar de verschillende versies van dezelfde inhoud. Dit artikel helpt u de verschillende oorzaken van dubbele inhoud te begrijpen en de oplossing voor elk van deze te vinden.

Wat is duplicate content (dubbele inhoud)

Dubbele inhoud kan worden vergeleken met het zijn op een kruispunt waar verkeersborden in twee verschillende richtingen naar dezelfde bestemming verwijzen: welke weg moet u nemen? Om het nog erger te maken, is de eindbestemming ook anders, maar slechts in geringe mate. Als lezer heb je er geen bezwaar tegen omdat je de inhoud krijgt waarvoor je bent gekomen, maar een zoekmachine moet kiezen welke pagina in de zoekresultaten wordt weergegeven, omdat het natuurlijk niet dezelfde inhoud twee keer wil weergeven.

Laten we zeggen dat uw artikel over  ‘zoekwoord x’ wordt  weergegeven http://www.example.com/keyword-x/en dat dezelfde inhoud ook wordt weergegeven op http://www.example.com/article-category/keyword-x/. Deze situatie is niet fictief: het gebeurt in veel moderne Content Management Systemen. Stel dat uw artikel is opgehaald door verschillende bloggers en dat sommigen van hen verwijzen naar de eerste URL, terwijl anderen naar de tweede verwijzen. Dit is het probleem van de zoekmachine dat zijn ware aard toont: het is  jouw  probleem. De dubbele inhoud is uw probleem, omdat deze koppelingen beide verschillende URL’s promoten. Als ze allemaal linken naar dezelfde URL, zou uw kans om te worden geclassificeerd voor  ‘zoekwoord x’  hoger zijn.

 

duplicate content

1 Oorzaken van duplicate content

Er zijn tientallen redenen voor dubbele inhoud. De meesten van hen zijn technisch: het komt niet vaak voor dat een mens besluit om dezelfde inhoud op twee verschillende plaatsen te plaatsen zonder duidelijk te maken wat het origineel is – het voelt onnatuurlijk voor de meesten van ons. Er zijn echter veel technische redenen en het gebeurt meestal omdat ontwikkelaars niet denken als een browser of zelfs maar een gebruiker, laat staan ​​een spider van een zoekmachine – ze denken als een programmeur. Neem dat artikel dat we eerder noemden, dat verschijnt op http://www.example.com/keyword-x/en http://www.example.com/article-category/keyword-x/. Als je de ontwikkelaar vraagt, zullen ze zeggen dat het maar één keer bestaat.

1.1 Misverstand over het concept van een URL

Nee, die ontwikkelaar is niet gek geworden, ze spreken alleen een andere taal. Een CMS zal waarschijnlijk de website van stroom voorzien, en in die database is er slechts één artikel, maar de software van de website staat alleen toe dat hetzelfde artikel in de database via verschillende URL’s wordt opgehaald. Dat komt omdat, in de ogen van de ontwikkelaar, de unieke ID voor dat artikel de ID is die artikel in de database heeft, niet de URL. Maar voor de zoekmachine is de URL de unieke ID voor een stukje inhoud. Als je dat aan een ontwikkelaar uitlegt, beginnen ze het probleem te krijgen. En na het lezen van dit artikel kunt u hen zelfs meteen een oplossing bieden.

1.2 Sessie-ID’s

U wilt vaak uw bezoekers bijhouden en hen bijvoorbeeld toestaan ​​om items die ze willen kopen op te slaan in een winkelwagentje. Om dat te doen, moet je ze een ‘sessie’ geven. Een sessie is een korte geschiedenis van wat de bezoeker op uw site heeft gedaan en kan dingen bevatten zoals de items in hun winkelwagentje. Om die sessie te behouden terwijl een bezoeker van de ene pagina naar de andere klikt, moet de unieke identificatie voor die sessie – de Sessie-ID genoemd – ergens worden opgeslagen. De meest gebruikelijke oplossing is om dat met cookies te doen. Zoekmachines slaan echter meestal geen cookies op.

Op dat moment zijn sommige systemen terug te voeren op het gebruik van sessie-ID’s in de URL. Dit betekent dat elke interne link op de website die Sessie-ID aan de URL toevoegt en omdat die Sessie-ID uniek is voor die sessie, wordt een nieuwe URL gemaakt en daarom wordt inhoud gedupliceerd.

1.3 URL-parameters gebruikt voor tracking en sorteren

Een andere oorzaak van dubbele inhoud is het gebruik van URL-parameters die de inhoud van een pagina niet wijzigen, bijvoorbeeld in volglinks. Ziet u, voor een zoekmachine, http://www.example.com/keyword-x/en http://www.example.com/keyword-x/?source=rsszijn niet dezelfde URL. Met dat laatste zou je kunnen volgen naar welke bron mensen zijn gekomen, maar het kan het ook moeilijker maken voor je om goed te scoren – een ongewenste bijwerking!

Dit geldt natuurlijk niet alleen voor trackingparameters. Het geldt voor elke parameter die u aan een URL kunt toevoegen die het essentiële stuk inhoud niet verandert, ongeacht of die parameter bedoeld is om ‘het sorteren op een set producten te wijzigen’ of om ‘een andere zijbalk weer te geven’: ze veroorzaken allemaal duplicaten inhoud.

1.4 Schrapers en inhoudssyndicatie

De meeste redenen voor dubbele inhoud zijn ofwel de ‘fout’ van u of uw website. Soms gebruiken andere websites uw inhoud echter, met of zonder uw toestemming. Ze linken niet altijd naar uw oorspronkelijke artikel en daarom krijgt de zoekmachine deze niet ” en krijgt hij te maken met weer een andere versie van hetzelfde artikel. Hoe populairder uw site wordt, hoe meer scrapers u krijgt, waardoor dit probleem groter en groter wordt.

1.5 Volgorde van parameters

 

duplicate content

 

Een andere veel voorkomende oorzaak is dat een CMS geen mooie, schone URL’s gebruikt, maar eerder URL’s zoals /?id=1&cat=2, waar ID naar het artikel verwijst en kat naar de categorie verwijst. De URL /?cat=2&id=1geeft dezelfde resultaten in de meeste websitesystemen, maar voor een zoekmachine zijn ze compleet verschillend.

1.6 Paginering van opmerkingen

In mijn geliefde WordPress, maar ook in sommige andere systemen, is er een optie om je reacties te pagineren. Dit leidt ertoe dat de inhoud wordt gedupliceerd over de URL van het artikel en de URL van het artikel + / comment-pagina-1 /, / comment-page-2 / enz.

1.7 Printervriendelijke pagina’s

Als uw inhoudbeheersysteem printervriendelijke pagina’s maakt en u linkt naar die van uw artikelpagina’s, zal Google ze meestal vinden, tenzij u ze specifiek blokkeert. Vraag je nu af: welke versie wil je dat Google laat zien? Die met uw advertenties en perifere inhoud, of degene die alleen uw artikel laat zien?

1.8 WWW versus niet-WWW

Dit is een van de oudste in het boek, maar soms krijgen zoekmachines het nog steeds fout: WWW versus niet-WWW dubbele inhoud, wanneer beide versies van uw site toegankelijk zijn. Een andere, minder vaak voorkomende situatie, maar een die ik ook heb gezien, is de inhoud van HTTP versus HTTPS, waarbij dezelfde inhoud wordt gedistribueerd over beide.

2 Conceptuele oplossing: een ‘canonieke’ URL

Zoals we al hebben gezien, is het feit dat verschillende URL’s naar dezelfde inhoud leiden een probleem, maar het kan worden opgelost. Eén persoon die bij een publicatie werkt, kan u normaal gesproken vrij gemakkelijk vertellen wat de ‘juiste’ URL voor een bepaald artikel zou moeten zijn, maar soms als u drie mensen binnen hetzelfde bedrijf vraagt, krijgt u drie verschillende antwoorden …

Dat is een probleem dat moet worden aangepakt, omdat er uiteindelijk maar één (URL) kan zijn. Die ‘juiste’ URL voor een stukje inhoud wordt  door de zoekmachines de  Canonical URL genoemd .

duplicate content

Ironische kanttekening

Canonical is een term die voortkomt uit de rooms-katholieke traditie, waar een lijst met heilige boeken is gemaakt en als echt is geaccepteerd. Ze stonden bekend als de canonieke evangeliën van het Nieuwe Testament. De ironie is dat de rooms-katholieke kerk er ongeveer 300 jaar over deed en talloze gevechten om die canonieke lijst te verzinnen, en uiteindelijk kozen ze vier versies van  hetzelfde verhaal …

3 Identificeren van dubbele inhoudsproblemen

U weet misschien niet of u een probleem met de inhoud in dubbele vorm op uw site of met uw inhoud hebt. Hier zijn enkele manieren om erachter te komen.

3.1 Google Search Console

Google Search Console  is een geweldige tool voor het identificeren van dubbele inhoud. Ga naar de Search Console voor uw site en ga vervolgens naar  Uiterlijk zoeken »HTML-verbeteringen en u ziet dit:

duplicate content

Als pagina’s dubbele titels of dubbele beschrijvingen hebben, is dat bijna nooit een goede zaak. Als u erop klikt, worden de URL’s met dubbele titels of beschrijvingen zichtbaar en kunt u het probleem identificeren. Het probleem is dat als u een artikel heeft zoals dat over  zoekwoord X en dit in twee categorieën wordt weergegeven, de titels mogelijk anders zijn. Ze kunnen bijvoorbeeld  ‘Trefwoord X – Categorie X – Voorbeeldsite’  en  ‘Trefwoord X – Categorie Y – Voorbeeldsite’ zijn . Google haalt deze niet op als dubbele titels, maar je kunt ze vinden door te zoeken.

3.2 Zoeken naar titels of fragmenten

Er zijn verschillende  zoekoperators  die erg behulpzaam zijn in gevallen zoals deze. Als u alle URL’s op uw site wilt vinden die uw X-sleutelwoordbevatten   , typt u de volgende zoekterm in Google:

site: example.com intitle: “Keyword X”

Google toont u vervolgens alle pagina’s op example.com die dat zoekwoord bevatten. Hoe specifieker u dat intitledeel van de query maakt, hoe eenvoudiger het is om dubbele inhoud te verwijderen. U kunt dezelfde methode gebruiken om dubbele inhoud op internet te identificeren. Laten we zeggen dat de volledige titel van uw artikel  ‘Sleutelwoord X – waarom is het geweldig’ is , u zou zoeken naar:

intitle: “Keyword X – waarom is het geweldig”

En Google geeft u alle sites die overeenkomen met die titel. Soms is het zelfs de moeite waard om een ​​of twee complete zinnen uit je artikel te zoeken, omdat sommige scrapers de titel kunnen veranderen. In sommige gevallen, wanneer u zo’n zoekopdracht uitvoert, kan Google een bericht als dit op de laatste pagina met resultaten weergeven:

https://yoast.com/app/uploads/2010/12/duplicate-content-google1-300x34.jpg

Dit is een teken dat Google de resultaten al ‘decompeteert’. Het is nog steeds niet goed, dus het is de moeite waard om op de link te klikken en naar alle andere resultaten te kijken om te zien of u sommige ervan kunt oplossen.

4 Praktische oplossingen voor dubbele inhoud

Zodra je hebt besloten welke URL de canonieke URL is voor je inhoud, moet je een proces van canonicalisatie starten (ja ik weet het, probeer dat drie keer hardop te zeggen). Dit betekent dat we zoekmachines over de canonieke versie van een pagina moeten vertellen en ze ZO VLUG MOGELIJK moeten kunnen vinden. Er zijn vier methoden om het probleem op te lossen, in volgorde van voorkeur:

  1. Geen dubbele inhoud maken
  2. Het omleiden van dubbele inhoud naar de canonieke URL
  3. Een canonical link-element toevoegen aan de dubbele pagina
  4. Een HTML-koppeling toevoegen van de dubbele pagina naar de canonieke pagina

4.1 Vermijden van duplicate content

Sommige van de bovenstaande oorzaken voor dubbele inhoud hebben zeer eenvoudige oplossingen voor hen:

  • Zijn er Sessie-ID’s in uw URL’s? 
    Deze kunnen vaak gewoon worden uitgeschakeld in de systeeminstellingen.
  • Hebt u dubbele, printervriendelijke pagina’s? 
    Deze zijn helemaal niet nodig: u moet gewoon een  print-stylesheet gebruiken .
  • Gebruikt u de paginering van opmerkingen in WordPress? 
    Je moet deze functie alleen uitschakelen (onder  instellingen »discussie ) op 99% van de sites.
  • Zijn uw parameters in een andere volgorde? 
    Vertel uw programmeur een script te bouwen om parameters altijd in dezelfde volgorde te plaatsen (dit wordt vaak een URL-fabriek genoemd).
  • Zijn er problemen met trackinglinks? 
    In de meeste gevallen kunt u gebruik maken van op  hash-tags gebaseerde campagnetracking in  plaats van het volgen van campagnes op basis van parameters.
  • Hebt u problemen met WWW versus niet-WWW? 
    Kies er een en blijf bij door  de ene naar de andere te richten . U kunt ook een voorkeur instellen in de Webmasterhulpprogramma’s van Google, maar u moet beide versies van de domeinnaam claimen.

Als je probleem niet zo gemakkelijk is opgelost, is het misschien de moeite waard om het te proberen. Het doel moet zijn om te voorkomen dat dubbele inhoud volledig wordt weergegeven, omdat dit veruit de beste oplossing voor het probleem is.

4.2 301 Het omleiden van dubbele inhoud

In sommige gevallen is het onmogelijk om volledig te voorkomen dat het systeem dat u gebruikt verkeerde URL’s voor inhoud maakt, maar soms is het mogelijk om ze om te leiden. Als dit niet logisch voor je is (wat ik begrijp), houd het dan in gedachten terwijl je met je ontwikkelaars praat. Als je  doet  zich te ontdoen van een aantal van de duplicate content problemen, zorg ervoor dat u redirect alle oude duplicate content URL’s naar de juiste canonieke URL’s.

 

SEO copywriting training

 

4.3 Gebruik van koppelingen

Soms wil je geen dubbele versie van een artikel verwijderen, ook niet als je weet dat dit de verkeerde URL is. Om dit probleem op te lossen, hebben de zoekmachines het canonieke link-element geïntroduceerd. Het staat in het gedeelte <head> van uw site en ziet er als volgt uit:

1&amp;lt;link rel=”canonical” href=”http://example.com/wordpress/seo-plugin/”&amp;gt;

In het hrefgedeelte van de canonieke link plaatst u de juiste canonieke URL voor uw artikel. Wanneer een zoekmachine die canoniek ondersteunt dit linkelement vindt, voert deze een zachte 301-omleiding uit, waarbij het grootste deel van de koppelingswaarde die door die pagina is verzameld, wordt overgedragen naar uw canonieke pagina.

Dit proces is echter iets langzamer dan de 301-omleiding, dus als je gewoon een 301-omleiding kunt doen die de voorkeur verdient, zoals  vermeld door John Mueller van Google .

Blijf lezen: rel = canoniek • Wat het is en hoe (niet) te gebruiken »

4.4 Terugkoppelen naar de originele inhoud

Als u een van de bovenstaande dingen niet kunt doen, mogelijk omdat u niet het <head> -gedeelte van de site beheert waarop uw inhoud wordt weergegeven, is het altijd een goed idee om een ​​link naar het oorspronkelijke artikel boven of onder het artikel toe te voegen idee. Misschien wilt u dit in uw RSS-feed doen door een link toe te voegen aan het artikel dat erin staat. Sommige scrapers filteren die link, maar anderen kunnen deze laten staan. Als Google verschillende links tegenkomt die verwijzen naar uw oorspronkelijke artikel, komt het snel genoeg te weten dat dit de daadwerkelijke canonieke versie is.

5 Conclusie: dubbele inhoud is fixeerbaar en moet worden gerepareerd

Dubbele inhoud gebeurt overal. Ik moet nog steeds een site van meer dan 1000 pagina’s tegenkomen die niet op zijn minst een klein duplicaat inhoudsprobleem heeft. Het is iets dat je constant in de gaten moet houden, maar het is fixeerbaar en de beloningen kunnen overvloedig zijn. Uw kwaliteitsinhoud zou kunnen stijgen in de ranglijst, gewoon door het verwijderen van dubbele inhoud van uw site!

 


Erwin@delaatbusiness.com
Dag, Hulp nodig met internet marketing of websites maken? neem dan contact op

0 Comments

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Choose A Format
Personality quiz
Series of questions that intends to reveal something about the personality
Trivia quiz
Series of questions with right and wrong answers that intends to check knowledge
Poll
Voting to make decisions or determine opinions
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Meme
Upload your own images to make custom memes
Video
Youtube, Vimeo or Vine Embeds
Audio
Soundcloud or Mixcloud Embeds
Image
Photo or GIF
Gif
GIF format