Hoe problemen met indexatiebloat te identificeren en op te lossen - DeLaatbusiness

Hoe problemen met indexatiebloat te identificeren en op te lossen

5 min


122
6 gratis internet marketing ebooks, klik hier voor download

Indexatiezwakte is wanneer een website pagina’s heeft binnen een “index” van een zoekmachine die niet geïndexeerd mag worden en die problemen kan veroorzaken als deze niet goed worden bewaakt en gecontroleerd.

Het is een zeer algemeen SEO-probleem en beïnvloedt alle websites, variërend van kleine WordPress-blogs tot grote Hybris en Magento e-commerce websites.

De ernstigere gevallen van indexatiebloat komen meestal voor op e-commerce websites, omdat ze de neiging hebben om gebruikersvriendelijke gefacetteerde navigaties en filterlijsten te gebruiken, waardoor gebruikers snel de gewenste producten kunnen identificeren.

Ik heb voorbeelden uit de eerste hand gezien van eenvoudige Demandware- en Open Cart-websites met slechts een paar honderd producten met miljoenen URL’s in de index van Google vanwege de productfilters die URL’s genereren.

Waarom is indexatiezwakte een probleem?

Het is een bekend feit dat wanneer Google en de andere zoekmachines uw website crawlen, ze uw website niet volledig crawlen. Door deze toe te staan ​​en te vragen onnodige URL’s te crawlen, is deze resource verspild.

Als zoekmachines niet regelmatig uw ‘geld’-pagina’s doorzoeken en in plaats daarvan andere konijnenholen vastlopen zonder updates op te halen, kan dit van invloed zijn op uw organische prestaties.

Bloat kan ook leiden tot dubbele inhoudsproblemen. Hoewel duplicatie van interne website-inhoud niet zo serieus is als externe duplicatie, kan het de bekendheid en relevantie van een afzonderlijke pagina voor zoektermen verminderen als de pagina zelf als de zoekmachines niet zeker weten welke URL moet worden gerangschikt voor de voorwaarden.

Problemen met indexbloat identificeren

Een vroege indicator van de indexzwelling is het aantal pagina’s dat wordt weergegeven in deresultaten van de zoekmachine .

Het is belangrijk om hier op te merken dat het aantal pagina’s dat meestal wordt geïdentificeerd met de site: operator binnen Google en Bing, vaak verschillende getallen weergeven voor wat u ziet in Google Search Console en Bing Webmaster Tools – dit hoeft u zich geen zorgen te maken.

Website monitoring

Hoewel er manieren zijn om de index-bloat op te lossen, is de beste manier om er in mijn ervaring mee om te gaan, te voorkomen dat het helemaal gebeurt.

Door de Google Search Console en Bing Webmaster Tools maandelijks te controleren, met name op crawlgegevens, kunt u vastleggen wat wel en geen regulier gedrag is voor uw website.

Abnormale stijgingen of pieken in de “Pages crawled per day” en “Kilobytes gedownload per dag” kunnen indicatoren zijn dat Google meer URL’s gebruikt dan het was.

Evenzo voert u een site uit: zoeken binnen Google en Bing laat u zien hoeveel URL’s ze in de index hebben en u weet ongeveer hoeveel pagina’s uw website heeft.

Hoe kan ik indexatieproblemen oplossen?

Identificeren dat u een index bloat probleem hebt is slechts de eerste stap, nu moet u vaststellen wat de oorzaak is van de bloat.

Dit zijn enkele van de meest voorkomende oorzaken van indexatiebloat, maar het is ook niet ongebruikelijk om meer dan één van deze oorzaken te hebben.

  • Domein-URL’s worden weergegeven via zowel http- als https-protocollen
  • Afdrukbare versies van pagina’s die een dubbele URL veroorzaken
  • Parameter-URL’s veroorzaakt door intern zoeken
  • Parameter-URL’s veroorzaakt door productfilters
  • Paginering
  • Blogtaxonomieën
  • Sessie-ID’s in URL’s
  • Injectie van spam-pagina’s na een hack
  • Oude URL’s worden niet correct omgeleid na een migratie
  • Achteraan slashes aan het einde van URL’s die dubbel werk veroorzaken
  • UTM-bron

Fixeren met meta-robots

Een meta-robotslabel op paginaniveau is mijn voorkeursmethode voor het omgaan met indexbloat en is met name handig als deze vanaf een serverniveau op meerdere pagina’s tegelijkertijd wordt geïmplementeerd.

Meta-robots op paginaniveau hebben ook voorrang op paginering- en canonicalisatierichtlijnen, evenals het robots.txt-bestand (tenzij geblokkeerd in het robots.txt-bestand).

Deze zijn ook effectief bij het verwijderen van URL’s die parameters bevatten die worden veroorzaakt door productfilters, faceted-navigatie en interne zoekfuncties. Het blokkeren van deze in het robots.txt-bestand is niet altijd de beste omdat het enkele problemen kan veroorzaken tussen wat verschillende Google-gebruikersagenten kunnen zien, wat een negatieve invloed kan hebben op betaalde zoekcampagnes.

Best practice zou zijn om ‘ noindex, follow ‘ te gebruiken – op deze manier geven backlinks die naar de pagina verwijzen nog steeds equity aan het domein door.

Robots.txt-bestand

Het blokkeren van URL-parameters in het robots.txt- bestand is zowel een goede preventieve als reactieve maatregel, maar het is geen absolute oplossing.

Het enige wat een bestand van Robots.txt doet is directe zoekmachines om een ​​pagina niet te crawlen, maar Google kan de pagina toch indexeren als de pagina intern of van externe sites wordt gelinkt. Als u weet waar deze interne links zijn, voegt u een rel = “nofollow” toe.

Canonieke tags

Canonnering op basis van zelfverwijzingen is doorgaans de beste methode, afgezien van op opgeblazen URL’s. Ecommerce-platforms, zoals Open Winkelwagen, kunnen meerdere URL’s maken voor hetzelfde product en dezelfde categorie.

Door een canonieke tag toe te voegen aan de headers van de onnodige product- en categorie-URL’s die naar de hoofd-URL verwijzen, kunnen zoekmachines zien welke versie van de pagina moet worden geïndexeerd.

De canonieke richtlijn is echter slechts een richtlijn en kan door zoekmachines worden genegeerd.

Paginering

Paginakwesties kunnen voortvloeien uit blogpost- en blogcategoriepagina’s, productcategoriepagina’s, interne pagina’s met zoekresultaten; eigenlijk elk element van een website met meerdere pagina’s.

Omdat deze pagina’s dezelfde meta-informatie bevatten, kunnen zoekmachines de relatie tussen deze pagina’s verwarren en besluiten dat het om dubbele inhoud gaat.

Met paginarangschikking rel = “next” en rel = “prev” kunnen zoekmachines de relatie tussen deze pagina’s beter begrijpen en bepalen, samen met de configuratie in Google Search Console, welke moeten worden geïndexeerd.

URL-parameterhulpmiddel van Google Search Console gebruiken

Het hulpprogramma URL-parameter kan worden gebruikt om Google te laten weten wat specifieke parameters doen om inhoud op een pagina weer te geven (bijvoorbeeld sorteren, smal, filteren). Net als andere eerder genoemde methoden, moet u ervoor zorgen dat u niet per ongeluk Google vraagt ​​URL’s die u wilt in de index niet te indexeren en niet om een ​​gedrag voor parameters onjuist op te geven.

Google classificeert uw parameters in twee categorieën; actief en passief. Een actieve parameter is iets dat van invloed is op de inhoud van een pagina, dus een productfilter en een passieve parameter is zoiets als een sessie-ID of een UTM-bron.

Dit mag alleen echt als laatste redmiddel worden gebruikt en correct worden gebruikt in combinatie met andere methoden, anders zou dit de organische zoekprestaties van het domein negatief kunnen beïnvloeden.

Lees voordat u dit hulpprogramma gebruikt de officiële documentatie en richtlijnen van Google .

Het hulpprogramma voor het verwijderen van URL’s

Afhankelijk van de autoriteit van uw domein kan het Google enige tijd kosten om de URL’s die u wilt verwijderen, te herkennen en uit te filteren. Nadat u iets heeft geïmplementeerd om Google te vertellen de URL niet opnieuw te indexeren (een tag met robots op paginaniveau), kunt u Google vragen de URL te verwijderen uit de index via Google Search Console.

Dit is slechts een tijdelijke maatregel omdat het de URL 90 dagen lang uit de zoekresultaten van Google zal verbergen, maar dit heeft geen invloed op het crawlen en indexeren van de URL door Google.

Dit is goed om te gebruiken als u niet wilt dat gebruikers bepaalde pagina’s kunnen vinden, maar elke URL moet afzonderlijk worden ingediend, dus dit is geen geweldige oplossing als u ernstige indexbloat heeft.

Index bloat als gevolg van een hack

Nu, natuurlijk als uw website gehackt is, zal indexzwelling zeker geen prioriteit zijn. Maar de bloat van een hack kan problemen veroorzaken voor het domein.

De onderstaande schermafbeelding is van een Zwitsers (.ch) -domein dat binnen enkele weken na een hack in Europa actief is:

De website zelf heeft slechts ongeveer 50 pagina’s, maar zoals je ziet, is Google momenteel 112.000 aan het indexeren.

Dit betekent dat onder andere die 50 pagina’s met product- en productinformatiepagina’s nu verloren gaan tussen duizenden gehackte URL’s, dus het kan weken duren voordat updates van deze pagina’s worden opgemerkt – vooral als uw website geen grote crawl uitvoert begroting.

Een andere indicator hiervan is een plotselinge toename van de zichtbaarheid van zoekresultaten (voor irrelevante termen):

Ik heb eerder aan websites gewerkt waar dit de eerste indicator was. Tijdens het uitvoeren van een dagelijkse routinecontrole in Google Search Console, was een website die zich bezighield met doopkleedjes begonnen met het klasseren voor ‘goedkope NFL-truien’ en andere Amerikaanse sportkledingvoorwaarden.

Deze zichtbaarheidspieken zijn vaak van korte duur, maar kunnen het vertrouwen tussen Google en uw domein gedurende lange tijd schaden, dus er kan veel worden gezegd over het investeren in cyberbeveiliging buiten https.

Conclusie

Het verminderen van de indexzwelling gebeurt niet van de ene dag op de andere, dus het is belangrijk om geduldig te blijven.

Het is ook belangrijk om een ​​proces of raamwerk op te zetten en het eigenaarschap van het proces aan iemand te geven om op regelmatige basis te handelen.


What's Your Reaction?

hate hate
0
hate
confused confused
0
confused
fail fail
0
fail
fun fun
0
fun
geeky geeky
0
geeky
love love
0
love
lol lol
0
lol
omg omg
0
omg
win win
0
win
Erwin@delaatbusiness.com
Dag, Hulp nodig met internet marketing of websites maken? neem dan contact op

0 Comments

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Choose A Format
Personality quiz
Series of questions that intends to reveal something about the personality
Trivia quiz
Series of questions with right and wrong answers that intends to check knowledge
Poll
Voting to make decisions or determine opinions
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Meme
Upload your own images to make custom memes
Video
Youtube, Vimeo or Vine Embeds
Audio
Soundcloud or Mixcloud Embeds
Image
Photo or GIF
Gif
GIF format