Hoe om te gaan met uitschieters in uw gegevens

13 min


103

Een ding dat veel mensen vergeten bij het omgaan met gegevens: uitschieters.

Zelfs in een gecontroleerd online experiment kan uw dataset worden scheefgetrokken door extremiteiten. Hoe ga je met hen om? Knip je ze eruit, of is er een andere manier?

Hoe detecteer je zelfs de aanwezigheid van uitschieters en hoe extreem ze zijn?

Vooral als u uw site optimaliseert voor inkomsten, moet u rekening houden met uitschieters. Dit bericht zal ingaan op de aard van uitbijters in het algemeen, hoe ze te detecteren, en vervolgens enkele populaire methoden om ermee om te gaan.

Wat zijn uitschieters?

Ten eerste, wat zijn precies uitschieters?

Uitschiet is een waarneming die op een abnormale afstand ligt van andere waarden in een willekeurige steekproef uit een populatie.

Afbeeldingsbron

Er is hier natuurlijk een zekere dubbelzinnigheid. Het kwalificeren van een gegevenspunt als een anomalie laat het aan de analist of het model over om te bepalen wat er eigenlijk abnormaal is en wat te doen met dergelijke gegevenspunten.

Er zijn ook verschillende gradaties van uitschieters :

  • Milde uitschieters liggen aan weerszijden voorbij een binnenomheining
  • Extreme uitschieters liggen buiten een buitenste omheining

Waarom treden er uitschieters op? Volgens Tom Bodenberg , chief economist en data consultant bij marktonderzoeksbureau Unity Marketing: “Het kan het gevolg zijn van meet- of opnamefouten, of de onbedoelde en waarheidsgetrouwe uitkomst die voortvloeit uit de definitie van de set.”

Uitschieters kunnen waardevolle informatie bevatten, het kunnen zinloze aberraties zijn die worden veroorzaakt door meet- en registratiefouten, ze kunnen problemen veroorzaken met herhaalbare A / B-testresultaten. Het is dus belangrijk om uitschietersin elk geval te analyseren om te zien wat hun werkelijke betekenis is.

Afbeeldingsbron

Waarom komen ze voor, waar, en wat zou de betekenis kunnen zijn? Het antwoord kan van business tot business verschillen, maar het is belangrijk om het gesprek te voeren in plaats van de gegevens te negeren, ongeacht de significantie.

Hoe uitschieters een effect hebben op A / B-testen

Hoewel uitschieters in veel analysesituaties worden weergegeven, moet u omwille van conversieoptimalisatie vooral zorgen maken over tests waarbij u optimaliseert voor omzetstatistieken zoals Gemiddelde bestelwaarde of Revenue Per Visitor.

U kunt zich gemakkelijk anekdotisch voorstellen hoe uitschieters een enkel A / B-testresultaat zouden kunnen beïnvloeden. Zo niet, dan is hier Taylor Wilson, Senior Optimization Analyst bij Brooks Bell , die enkele scenario’s uitlegt waarin dat zou kunnen gebeuren :

taylorTaylor Wilson:

“In deze specifieke situatie waren wederverkopers de boosdoeners – klanten die bulk inkopen met de bedoeling later items door te verkopen. Ver van uw typische klant plaatsen ze ongewoon grote orders, waarbij ze weinig aandacht besteden aan de ervaring waarin ze zich bevinden.

Het zijn niet alleen wederverkopers die niet echt worden beïnvloed door uw tests. Afhankelijk van uw branche kunnen het zeer loyale klanten zijn, medewerkers in de winkel die de site bestellen, of een andere groep die afwijkend gedrag vertoont. ”

Vooral in datasets met lage steekproefgroottes , kunnen uitschieters je data verknoeien.

Afbeeldingsbron

Zoals Dr. Julia Engelmann, hoofd Data Analytics bij Konversionkraft , vermeldde in een CXL-blogpost : “Bijna elke webwinkel heeft ze en meestal veroorzaken ze problemen voor de geldige evaluatie van een test: de bulk-bestellers.”

Een probleem dat uitschieters kunnen veroorzaken bij A / B-testen, merkte HiConversion op , is dat uitschieters niet beïnvloed worden door de kleinere UI-veranderingen die een meer wispelturige en reguliere populatie kunnen beïnvloeden. Bulkorders zullen uw kleinere usability-wijzigingen doorvoeren, zoals uw gemiddelde bezoeker dat misschien niet doet.

Hun artikel schetste een geval waarin uitschieters de resultaten van een test scheidden. Bij nadere analyse was het outlier-segment 75% terugkerende bezoekers en veel meer betrokken dan de gemiddelde bezoeker.

Afbeeldingsbron

Denkt u dat uw gegevens immuun zijn voor uitschieters? Misschien wel, maar waarschijnlijk niet – en in elk geval is het het beste om het zeker te weten. Dus hoe stel je dat op eigen houtje vast? Dat wil zeggen, hoe detecteer je uitschieters in je gegevens?

Hoe uitschieters in je gegevens te detecteren

Datavisualisatie is een kerndiscipline voor analisten en optimizers, niet alleen om resultaten te communiceren met leidinggevenden , maar om de gegevens vollediger te verkennen.

Als zodanig worden uitbijters vaak grafisch gedetecteerd, maar je kunt dit ook doen met een verscheidenheid aan statistische methoden met je favoriete tool (Excel en R zullen hier zwaar worden vermeld, hoewel SAS, Python, etc. allemaal werken).

Twee van de meest voorkomende grafische manieren om uitbijters te detecteren zijn de boxplot en de scatterplot. Een boxplot is mijn favoriete manier.

Je ziet hier dat de blauwe cirkels uitbijters zijn, waarbij de open cirkels lichte uitbijters voorstellen en gesloten cirkels extreme uitbijters vertegenwoordigen:

Afbeeldingsbron

Het is erg eenvoudig om boxplots te analyseren in R. Gebruik gewoon boxplot (x, horizontal = TRUE) waarbij x uw gegevensset is om iets te maken dat er als volgt uitziet:

Sterker nog, je kunt boxplot.stats (x) gebruiken, waarbij x jouw dataset is, om samenvattende statistieken te krijgen die de lijst met uitbijters bevat ($ out):

Je kunt deze ook in een spreidingsdiagram bekijken, hoewel ik geloof dat het een beetje moeilijker is om met duidelijkheid te zeggen welke extreme en milde uitbijters zijn:

Afbeeldingsbron

Een histogram kan ook werken:

Afbeeldingsbron

U kunt ook uitbijters vrij gemakkelijk zien in rasterdiagrammen , lagplots (een soort scatterplot) en lijndiagrammen , afhankelijk van het type gegevens waarmee u werkt.

Conversie-expert Andrew Anderson ondersteunt ook de waarde van grafieken om het effect van uitschieters op gegevens te bepalen:

Andrew AndersonAndrew Anderson:

“De grafiek is je vriend. Een van de redenen dat ik 7 dagen naar consistente gegevens opzoek ben, is dat het normalisatie mogelijk maakt tegen niet-normale acties, ongeacht of het om grootte of externe invloed gaat.

Het andere ding is dat als er duidelijke niet-normale actiewaarden zijn, het ok is om ze te normaliseren tot het gemiddelde zolang het eenzijdig wordt gedaan en wordt gedaan om de resultaten niet te beïnvloeden. Dit wordt alleen gedaan als het duidelijk buiten de normale lijn valt en meestal zal ik de test nog eens 2-3 extra dagen uitvoeren om er zeker van te zijn. ”

Maar is er een statistische manier om uitschieters te detecteren, afgezien van het alleen maar op een grafiek te zien? Er zijn inderdaad veel manieren om dit te doen ( hier uiteengezet ), de twee belangrijkste zijn een standaardafwijkingsaanpak of de methode van Tukey .

Afbeeldingsbron

In het laatste geval hebben  extreme uitschieters de neiging om meer dan 3,0 maal het interkwartielbereik onder het eerste kwartiel of boven het derde kwartiel te liggen, en milde uitbijters liggen tussen 1,5 maal en 3,0 maal het interkwartielbereik onder het eerste kwartiel of boven het derde kwartiel.

Het is vrij eenvoudig om uitschieters in Excel te markeren. Hoewel er geen ingebouwde functie is voor uitschietersdetectie, kunt u de kwartielwaarden vinden en vanaf daar verder gaan.

Strategieën voor het omgaan met uitschieters in gegevens

Moet een uitbijter uit de analyse worden verwijderd? Het antwoord, hoewel schijnbaar eenvoudig, is niet zo eenvoudig .

Er zijn veel strategieën om met uitschieters in gegevens om te gaan, en afhankelijk van de situatie en de gegevensverzameling kan alles de juiste of de verkeerde manier zijn. Bovendien hebben de meeste belangrijke tools strategieën om met uitschieters om te gaan, maar ze verschillen meestal in hoe ze dat precies doen.

Daarom is het nog steeds belangrijk om uw eigen aangepaste analyse uit te voeren met betrekking tot uitschieters, zelfs als uw testtool zijn eigen standaardparameters heeft. U kunt niet alleen uw testgegevens beter vertrouwen, maar soms produceert analyse van uitschieters zijn eigen inzichten die u zullen helpen bij het optimaliseren.

Laten we enkele algemene strategieën bespreken:

Een filter instellen in uw testtool

Hoewel dit een beetje kosten met zich meebrengt, is het de moeite waard om uitschieters te filteren, omdat je vaak significante effecten kunt ontdekken die eenvoudigweg “verborgen” zijn door uitbijters.

Volgens Himanshu Sharma bij OptimizeSmart moet u, als u inkomsten bijhoudt als een doel in uw A / B-testtool, een code instellen die abnormaal grote orders uit uw testresultaten filtert.

Hij zegt dat u naar uw eerdere analysegegevens moet kijken om een ​​gemiddelde webvolgorde te beveiligen en om daarmee filters in te stellen. Stel u in zijn voorbeeld voor dat de gemiddelde bestelwaarde van uw website in de afgelopen 3 maanden $ 150 was, dan kan elke bestelling die hoger is dan $ 200 worden beschouwd als een uitbijter.

Vervolgens gaat het erom een ​​stukje code te schrijven om te voorkomen dat de tool die waarde doorgeeft. Hier zijn enkele korte instructies over hoe dat te doen in Optimizely . De tl; dr is dat je waarden boven een bepaald bedrag uitsluit met code die er ongeveer zo uitziet (voor bestellingen van meer dan $ 200):

if (priceInCents <20000) {

window.optimizely = window.optimizely || [];

window.optimizely.push ([ ‘trackEvent,

‘orderComplete’, {‘omzet’: priceInCents}]);

Uitschieters verwijderen of wijzigen tijdens de analyse na de test

Kevin Hillstrom, President van Mine That Data , legde uit waarom hij soms uitbijters in tests zal aanpassen …

kevinKevin Hillstrom:

“Gemiddeld wordt wat een klant uitgeeft normaal niet gedistribueerd.

Als u een gemiddelde bestelwaarde van $ 100 heeft, besteden de meeste van uw klanten $ 70, $ 80, $ 90 of $ 100, en u betaalt een klein aantal klanten van $ 200, $ 300, $ 800, $ 1600 en een klant die $ 29.000 uitgeeft. Als u 29.000 mensen in het testvenster heeft en één persoon $ 29.000 uitgeeft, is dat $ 1 per persoon in de test.

Dat is de reden waarom die ene bestelling de zaken scheef trekt. ‘

Een manier om dit te verklaren is eenvoudigweg het verwijderen van uitschieters of het inkorten van uw gegevensverzameling om zo veel mogelijk uit te sluiten als u wilt.

Dit is echt gemakkelijk te doen in Excel – een eenvoudige TRIMMEAN-functie volstaat. Het eerste argument is de matrix die u wilt manipuleren (kolom A hier) en het tweede argument is in hoeverre u de bovenste en onderste uiteinden wilt trimmen:

Het trimmen van waarden in R is ook super eenvoudig. Het bestaat binnen het gemiddelde (functie). Stel dat u een gemiddelde heeft dat nogal verschilt van de mediaan, dan betekent dit waarschijnlijk dat u enkele zeer grote of kleine waarden scheef trekt. In dat geval kunt u een bepaald percentage van de gegevens aan zowel de grote als de kleine kant bijsnijden. In R is het gewoon gemiddeld (x, trim = .05), waarbij x uw gegevensset is en .05 een willekeurig aantal kan zijn:

Dit proces van het gebruik van getrimde schattingen wordt meestal gedaan om een ​​meer robuuste statistiek te verkrijgen . Overigens is de mediaan de meest getrimde statistiek, aan beide zijden 50% (wat je ook kunt doen met de gemiddelde functie in R – gemiddelde (x, trim = .5)).

Meestal zullen optimalisaties uw uitschieters ten goede komen vanwege bulkbestellingen. Gezien uw kennis van historische gegevens, als u post-hoc waarden boven een bepaalde parameter wilt trimmen, is dat heel gemakkelijk in R. Als de naam van mijn gegevensset ‘rivieren’ is, kan ik dit doen, gezien de wetenschap dat mijn gegevens meestal onder de 1210 vallen: rivieren.low <- rivieren [rivieren <1210].

Dat creëert een nieuwe variabele die alleen bestaat uit wat ik niet-uitbijterwaarden vind, en vandaar kan ik het inpakken en zoiets krijgen als dit:

Het is duidelijk dat er minder uitschieters zijn, hoewel er nog steeds enkele zijn. Dit zal vrijwel altijd gebeuren, ongeacht hoeveel waarden je trimt van de uitersten.

U kunt dit ook doen door waarden te verwijderen die verder gaan dan drie standaardafwijkingen van het gemiddelde. Om dat te doen, moet u eerst de onbewerkte gegevens uit uw testtool extraheren. Bewaar dit vermogen voor zakelijke klanten optimaal, tenzij u ondersteuning vraagt ​​om u te helpen.

In plaats van echte klantgegevens te nemen, alleen om te demonstreren hoe dit te doen, heb ik twee willekeurige reeks getallen gegenereerd met normale verdelingen (met = NORMINV (RAND (), C1, D1) waarbij C1 gemiddeld is en D1 SD is, ter referentie) . In “variant 1” heb ik echter een aantal zeer hoge uitbijters toegevoegd, waardoor variant 1 een “statistisch significante” winnaar is:

Vervolgens kunt u voorwaardelijke opmaak gebruiken om die te markeren die groter zijn dan 3 standaarddeviaties. Hak die af:

En je hebt een andere statistisch significante winnaar:

Mijn voorbeeld is  waarschijnlijk eenvoudiger dan je zult behandelen, maar je kunt tenminste zien hoe slechts enkele zeer hoge waarden dingen kunnen afwerpen (en een mogelijke oplossing daarvoor).

Wijzig de waarde van uitschieters

Veel van het debat over hoe om te gaan met uitschieters in gegevens komt neer op de volgende vragen: moet je uitschieters behouden, verwijderen of veranderen in een andere variabele?

In feite, in plaats van eenvoudig de uitbijters uit de gegevens te verwijderen, neemt u in dit geval uw verzameling uitschieters en wijzigt u hun waarden in iets dat representatiever is voor uw gegevensverzameling. Het is een klein verschil, maar belangrijk: wanneer u gegevens bijsnijdt, worden de extreme waarden weggegooid. Wanneer u winsorized schatters gebruikt (waarbij de waarden worden gewijzigd), worden extreme waarden vervangen door bepaalde percentielen (het minimale minimum en maximum).

Kevin Hillstrom vermeldde in zijn podcast dat hij de top 5% of top 1% (afhankelijk van het bedrijf) van de bestellingen trimt en de waarde wijzigt (bijvoorbeeld $ 29.000 naar $ 800). Zoals hij zegt: “Je mag uitbijters aanpassen.”

Hier is hoe dat te doen in R .

Overweeg de onderliggende distributie

Traditionele methoden voor het berekenen van betrouwbaarheidsintervallen gaan ervan uit dat de gegevens een normale verdeling volgen , maar zoals we hierboven hebben besproken, met bepaalde statistieken zoals de gemiddelde opbrengst per bezoeker, is dat meestal niet de manier waarop de realiteit werkt.

In een ander deel van het prachtige artikel van Dr. Julia Engelmann voor onze blog, deelde ze een grafische voorstelling van dit verschil. De linker afbeelding toont een perfecte (theoretische) normale verdeling. Het aantal orders schommelt rond een positieve gemiddelde waarde. In het voorbeeld bestellen de meeste klanten vijf keer. Meer of minder bestellingen komen minder vaak voor.

De grafische afbeelding rechts toont de bittere realiteit. Uitgaande van een gemiddelde conversieratio van 5% zijn 95% klanten die niet kopen. De meeste kopers hebben waarschijnlijk een of twee bestellingen geplaatst en er zijn een paar klanten die een extreme hoeveelheid bestellen.

De verdeling aan de rechterkant staat bekend als een “right- skewed ” verdeling.

Afbeeldingsbron

In wezen komt het probleem als we aannemen dat een distributie normaal is, maar we werken eigenlijk met iets als een rechtschuing verdeling. Betrouwbaarheidsintervallen kunnen niet langer betrouwbaar worden berekend.

Met uw gemiddelde e-commercesite laten we zeggen dat ten minste 90% van de klanten niets koopt. Daarom is het aandeel “nullen” in de gegevens extreem en zijn de afwijkingen over het algemeen enorm, inclusief ledematen vanwege bulkbestellingen.

In dit geval is het de moeite waard om de gegevens te bekijken met andere methoden dan de t-toets. ( Met de Shapiro-Wilk-test kunt u uw gegevens testen voor normale distributie, trouwens). Al deze werden in dit artikel voorgesteld:

1. U-test Mann-Whitney

De Mann-Whitney U-test is een alternatief voor de t-toets wanneer de gegevens sterk afwijken van de normale verdeling.

2. Robuuste statistieken

Methoden van robuuste statistieken worden gebruikt wanneer de gegevens niet normaal worden verdeeld of vervormd door uitbijters. Hier worden de gemiddelde waarden en varianties zodanig berekend dat ze niet worden beïnvloed door ongebruikelijk hoge of lage waarden – die ik met windsorizatie hierboven enigszins ben ingegaan.

3. Bootstrappen

Deze zogenaamde niet-parametrische procedure werkt onafhankelijk van elke distributie-aanname en biedt betrouwbare schattingen voor betrouwbaarheidsniveaus en -intervallen. In de kern behoort het tot de herbemonsteringsmethoden. Ze bieden betrouwbare schattingen van de verdeling van variabelen op basis van de waargenomen gegevens door middel van willekeurige steekproefprocedures.

Overweeg de waarde van milde uitschieters

Zoals eerder vermeld, is bij Revenue Per Visitor de onderliggende distributie vaak niet-normaal. Het komt vaak voor dat weinig grote kopers de gegevensset naar de uitersten scheeftrekken. Wanneer dit het geval is, valt uitbijterdetectie ten prooi aan voorspelbare onnauwkeurigheden – het detecteert uitschieters veel vaker.

Dus er is een kans dat u in uw gegevensanalyse geen uitschieters weggooit. Integendeel, u moet ze segmenteren en dieper analyseren. Welke demografische, gedrags-, firmografische kenmerken correleren met hun koopgedrag en hoe kun je een experiment uitvoeren om daar wat causaliteit in te vinden.

Dit is een vraag die dieper gaat dan eenvoudige A / B-tests en die van cruciaal belang is voor uw klantenwerving, targeting en segmentatie. Ik wil hier niet te diep ingaan, maar ik wil wel zeggen dat het analyseren van je cohorten met de hoogste waarde om verschillende marketingredenen ook diepgaande inzichten kan opleveren.

Ongeacht wat, doe iets

In elk geval helpt het om een ​​plan op zijn plaats te hebben. Zoals Dan Begley-Groth schreef op de Richrelevance-blog :

DanDan Begley-Groth:

“Om een ​​test statistisch geldig te laten zijn, moeten alle regels van het testspel worden bepaald voordat de test begint. Anders stellen we ons mogelijk bloot aan een draaikolk van subjectiviteit in het midden van de test.

Moet een order van $ 500 alleen meetellen als deze rechtstreeks werd aangestuurd door toerekenbare aanbevelingen? Moeten alle bestellingen van $ 500 + tellen als er aan beide kanten een gelijk aantal is? Wat als een partij nog steeds verliest na het opnemen van zijn $ 500 + bestellingen? Kunnen ze dan worden opgenomen?

Door het definiëren van uitbijtergrenzen voorafgaand aan de test (voor RichRelevance-tests, drie standaarddeviaties van het gemiddelde) en het vaststellen van een methodologie die deze verwijdert, zijn zowel de willekeurige ruis als de subjectiviteit van de A / B-testinterpretatie aanzienlijk verminderd. Dit is de sleutel tot het minimaliseren van hoofdpijn tijdens het beheer van A / B-tests ”

Of u nu van mening bent dat uitbijters geen sterk effect hebben op uw gegevens en ervoor kiezen deze te laten zoals ze zijn, of dat u de bovenste en onderste 25% van uw gegevens wilt inkorten, het belangrijkste is dat u erover hebt nagedacht en een actieve strategie hebben. Gegevensgestuurd zijn, betekent dit soort afwijkingen in aanmerking nemen en negeren betekent dat u beslissingen kunt nemen over defecte gegevens.

Conclusie

Uitschieters worden vaak niet vaak besproken tijdens het testen, maar afhankelijk van uw bedrijf en welke gegevens u optimaliseert, kunnen ze zeker van invloed zijn op uw resultaten.

Zoals we hebben gezien, kunnen een of twee hoge waarden in een kleinere steekproef een test volledig scheeftrekken, waardoor u een beslissing neemt over defecte gegevens.

Voor het grootste deel, als uw gegevens door deze extreme gevallen worden beïnvloed, kunt u de invoer binden aan een historische vertegenwoordiger van uw gegevens die uitschieters uitsluit. Dus dat kan een aantal items zijn (> 3) of een lagere of hogere limiet voor uw orderwaarde.

Een andere manier, misschien beter op de lange termijn, zou zijn om uw posttestgegevens te exporteren en deze op verschillende manieren te visualiseren. Bepaal van geval tot geval wat het effect van de uitschieters was. En van daaruit, beslis of u de uitbijterwaarden wilt verwijderen, wijzigen of behouden.

Maar er zijn echt veel manieren om uitschieters in gegevens op te vangen. Het is geen eenvoudige snelle oplossing die over de hele linie werkt, en daarom blijft de vraag naar goede analisten groeien.


0 Comments

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Choose A Format
Personality quiz
Series of questions that intends to reveal something about the personality
Trivia quiz
Series of questions with right and wrong answers that intends to check knowledge
Poll
Voting to make decisions or determine opinions
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Meme
Upload your own images to make custom memes
Video
Youtube, Vimeo or Vine Embeds
Audio
Soundcloud or Mixcloud Embeds
Image
Photo or GIF
Gif
GIF format