Gebruik maken van statistische power voor testresultaten die u kunt vertrouwen - DeLaatbusiness

Gebruik maken van statistische power voor testresultaten die u kunt vertrouwen

8 min


135
Dummy image 6 gratis internet marketing ebooks, klik hier voor download

Jaren geleden, toen ik voor het eerst met split-testen begon , dacht ik dat elke test de moeite waard was om te lopen. Het maakte niet uit of het een knopkleur of een kop veranderde – ik wilde die test uitvoeren.

Mijn enthousiaste, maar toch misplaatste, overtuiging was dat ik eenvoudig aspecten moest vinden om te optimaliseren, de tool te installeren en de test te starten. Daarna dacht ik dat het gewoon een kwestie was van wachten op de beruchte 95% statistische significantie .

Ik had het mis.

Na het implementeren van “statistisch significante” variaties, ondervond ik geen lift in de verkoop omdat er geen echte lift was – ” het was denkbeeldig. “Veel van die tests waren bij aanvang gedoemd. Ik maakte algemene statistische fouten, zoals het niet testen op een volledige bedrijfscyclus of het negeren van de effectgrootte.

Ik heb ook gefaald om een ​​andere mogelijkheid te overwegen: dat een “te zwakke” test ertoe zou kunnen leiden dat ik veranderingen mis die een “echte lift” zouden genereren.

Het begrijpen van statistische power, of de ‘gevoeligheid’ van een test , is een essentieel onderdeel van pre-test planning en zal u helpen meer omzet genererende wijzigingen aan uw site te implementeren.

Wat is statistische macht?

Statistische macht is de waarschijnlijkheid van het waarnemen van een statistisch significant resultaat op niveau alfa (α) als een echt effect van een bepaalde grootte aanwezig is. Het is jouw vermogen om een ​​verschil te detecteren tussen testvariaties wanneer een verschil daadwerkelijk bestaat .

Statistische kracht is de bekroning van het harde werk dat je in het conversieonderzoek hebt gestopt en de behandeling (en) op de juiste manier hebt geprioriteerd tegen een controle. Daarom is kracht zo belangrijk: het vergroot je vermogen om verschillen te vinden en te meten wanneer ze er daadwerkelijk zijn.

Statistisch vermogen (1 – β) houdt een omgekeerde relatie met Type II-fouten (β). Het is ook hoe je controle hebt over de mogelijkheid van valse negatieven. We willen het risico van Type I-fouten tot een acceptabel niveau verlagen, terwijl we voldoende vermogen behouden om verbeteringen te detecteren als testbehandelingen daadwerkelijk beter zijn.

Het vinden van de juiste balans, zoals later gedetailleerd, is zowel kunst als wetenschap. Als een van uw varianten beter is, zorgt een goed uitgevoerde test ervoor dat de verbetering waarschijnlijk wordt gedetecteerd. Als uw test onvoldoende is, hebt u een onaanvaardbaar hoog risico om een ​​valse nul niet te weigeren.

Voordat we ingaan op de componenten van statistische power, laten we de fouten bekijken die we proberen te verantwoorden.  

Type I en Type II fouten

Type I-fouten

Een Type I-fout, of fout-positief, verwerpt een nulhypothese die feitelijk waar is. Uw test meet een verschil tussen variaties die in werkelijkheid niet bestaan. Het waargenomen verschil – dat de testbehandeling beter presteerde dan de controle – is illusoir en vanwege toeval of fouten.

De waarschijnlijkheid van een Type I-fout, aangeduid met de Griekse alpha (α), is het significantieniveau voor uw A / B-test . Als u test met een betrouwbaarheidsniveau van 95%, betekent dit dat u een kans van 5% hebt voor een Type I-fout (1,0 – 0,95 = 0,05).

Als 5% te hoog is, kunt u uw kans op een vals positief verlagen door uw betrouwbaarheidsniveau te verhogen van 95% naar 99%, of zelfs hoger. Dit zou op zijn beurt uw alpha verlagen van 5% naar 1%. Maar die vermindering van de kans op een vals positief komt op kosten.

Door uw betrouwbaarheidsniveau te verhogen, neemt het risico van een vals negatief (type II-fout) toe. Dit komt door de omgekeerde relatie tussen alfa en bèta-verlagen, de ene verhoogt de andere.

Verlaging van uw alfa (bijv. Van 5% naar 1%) vermindert de statistische kracht van uw test. Naarmate u uw alpha verlaagt, wordt het kritieke gebied kleiner en betekent een kleiner kritisch gebied een lagere kans op het weigeren van het null-vandaar een lager vermogensniveau. Omgekeerd, als u meer vermogen nodig heeft, is een optie om uw alfa te verhogen (bijv. Van 5% naar 10%).

kritieke regiografiek voor a / b-test

Type II fouten

Een Type II-fout, of fout-negatief , is het niet-afwijzen van een nulhypothese die feitelijk onjuist is. Een Type II-fout treedt op wanneer uw test geen significante verbetering in uw variatie vindt die in feite bestaat.

Beta (β) is de kans om een ​​Type II-fout te maken en heeft een omgekeerde relatie met statistische power (1 – β). Als 20% het risico is om een ​​Type II-fout (β) te begaan, is uw vermogensniveau 80% (1.0 – 0.2 = 0.8). U kunt uw risico op een vals-negatief verlagen tot 10% of 5% -voor vermogensniveaus van respectievelijk 90% of 95%.

Type II-fouten worden bepaald door het gekozen vermogensniveau: hoe hoger het vermogensniveau, hoe lager de kans op een Type II-fout. Omdat alfa en bèta een omgekeerde relatie hebben, zal het uitvoeren van extreem lage alfa’s (bijv. 0,001%), als al het andere gelijk is, het risico op een Type II-fout enorm vergroten.

Statistische macht is een evenwichtsoefening met afwegingen voor elke test. Zoals Paul D. Ellis zegt : “Een goed doordacht onderzoeksontwerp is een ontwerp dat het relatieve risico van het maken van elk type fout beoordeelt, en vervolgens een passend evenwicht tussen beide vindt.”

Als het gaat om statistische kracht, welke variabelen beïnvloeden dat evenwicht? Laten we kijken.

De variabelen die van invloed zijn op de statistische kracht

Houd rekening met het volgende wanneer u elke variabele met invloed op de statistische macht bekijkt: het primaire doel is het controleren van foutenpercentages. Er zijn vier hefbomen die je kunt trekken:

  1. Grootte van het monster
  2. Minimaal effect van interesse (MEI, of Minimum Detectable Effect)
  3. Significantieniveau (α)
  4. Gewenst vermogensniveau (impliciet Type II foutenpercentage)

1. Grootte van het monster

De 800-pond gorilla van statistisch vermogen is steekproefgrootte. Je kunt veel dingen goed krijgen door een voldoende grote steekproefomvang te hebben. De truc is om een ​​steekproefomvang te berekenen die uw test voldoende kan aandrijven, maar niet zo groot dat de test langer dan nodig is. (Een langere test kost meer en vertraagt ​​de testsnelheid.)

U hebt genoeg bezoekers nodig voor elke variant en voor elk segment dat u wilt analyseren .  Pre-test planning voor steekproefomvang helpt om te voorkomen dat de tests te laag zijn; anders realiseer je je misschien niet dat je te veel varianten of segmenten gebruikt totdat het te laat is, zodat je posttestgroepen hebt met een laag bezoekersaantal.

Verwacht een statistisch significant resultaat binnen een redelijke tijdspanne – gewoonlijk minstens een volledige week of een bedrijfscyclus. Een algemene richtlijn is om tests uit te voeren voor minimaal twee weken maar niet meer dan vier om problemen te voorkomen als gevolg van monstervervuiling en het verwijderen van cookies .

Het vaststellen van een minimale steekproefomvang en een vooraf ingestelde tijdshorizon vermijdt de veelvoorkomende fout van het uitvoeren van een test totdat deze een statistisch significant verschil genereert en vervolgens stopt ( gluren ).

2. Minimaal effect van rente (MEI)

Het minimale effect van rente (MEI) is de grootte (of grootte) van het verschil in resultaten dat u wilt detecteren.

Kleinere verschillen zijn moeilijker te detecteren en vereisen een grotere steekproefomvang om hetzelfde vermogen te behouden; Effecten van grotere omvang kunnen betrouwbaar worden gedetecteerd met kleinere steekproefgroottes. Toch, zoals Georgi Georgiev opmerkt , zijn die grote “verbeteringen” van kleine steekproeven onbetrouwbaar:

Het probleem is dat er meestal geen goede stopregel was en geen vaste steekproefomvang, waardoor de nominale p-waarden en betrouwbaarheidsinterval (CI) zinloos zijn. Men kan zeggen dat de resultaten in zekere zin ‘kersgezaaid’ waren. 

Als er een goede stopregel of een vaste steekproefomvang was, komt een waargenomen verbetering van 500% van een zeer kleine steekproef waarschijnlijk met een CI van 95% van zeg + 5% tot + 995%: niet erg informatief.

Een geweldige manier om de relatie tussen kracht en effectgrootte te visualiseren, is deze illustratie van Georgiev, waarin hij de macht vergelijkt met een visnet:

statistische kracht als gevoeligheid

3. Statistische betekenis

Zoals Georgiev uitlegde:

Een waargenomen testresultaat is statistisch significant als het zeer onwaarschijnlijk is dat we een dergelijk resultaat zouden waarnemen, ervan uitgaande dat de nulhypothese waar is.

Dit stelt ons dan in staat om de andere kant op te redeneren en te zeggen dat we bewijs tegen de nulhypothese hebben in de mate waarin een dergelijk extreem resultaat of een meer extreme die niet zou worden waargenomen, de nul waar zou zijn (de p-waarde).

Die definitie wordt vaak gereduceerd tot een eenvoudigere interpretatie: als uw split-test voor twee landingspagina’s 95% vertrouwen heeft in het voordeel van de variatie, is er slechts een kans van 5% dat de waargenomen verbetering resulteerde in toeval – of een kans van 95% dat het verschil is niet te wijten aan willekeurig toeval.

“Velen, die de strikte betekenis van ‘de waargenomen verbetering resulteerden door willekeurig toeval’, zouden zo’n verklaring minachten”, beweerde Georgiev. “We moeten niet vergeten dat wat ons in staat stelt om deze waarschijnlijkheden in te schatten de aanname is dat de nul waarheid is.” 

Vijf procent is een gemeenschappelijk startniveau van betekenis in online testen en, zoals eerder vermeld, is de kans een Type I-fout te maken. Als u een alfa van 5% gebruikt voor uw test, betekent dit dat u bereid bent een kans van 5% te accepteren dat u de nulhypothese ten onrechte hebt afgewezen.

Als u uw alpha verlaagt van 5% naar 1%, verhoogt u tegelijkertijd de kans om een ​​Type II-fout te maken, ervan uitgaande dat al het andere gelijk is. Het vergroten van de kans op een type II-fout vermindert de kracht van uw test.

4. Gewenst vermogen

Met een vermogen van 80% heeft u een kans van 20% dat u een echt verschil niet kunt detecteren voor een gegeven belangenswaarde. Als 20% te riskant is, kunt u deze kans verlagen tot 10%, 5% of zelfs 1%, waardoor uw statistische vermogen zou toenemen tot respectievelijk 90%, 95% of 99%.

Voordat u denkt dat u al uw problemen zult oplossen door tests uit te voeren met een vermogen van 95% of 99%, moet u weten dat elke toename van het vermogen een overeenkomstige toename van de steekproefomvang en de hoeveelheid tijd die de test nodig heeft, nodig heeft (tijd die u zou kunnen afval dat een verliezende test uitvoert – en omzet verliest – uitsluitend voor een extra procentpunt of twee van de statistische waarschijnlijkheid).

Dus hoeveel vermogen heb je echt nodig? Een algemeen startpunt voor het aanvaardbare risico van vals-negatieven bij conversie-optimalisatie is 20%, wat een vermogensniveau van 80% oplevert.

Er is niets definitiefs aan een vermogensniveau van 80%, maar de statisticus Jacob Cohen suggereert dat 80% een redelijk evenwicht tussen het alfa- en bètarisico vertegenwoordigt. Anders gezegd, volgens Ellis , “zouden studies niet meer dan 20% kans moeten hebben om een ​​Type II-fout te maken.”

Uiteindelijk is het een kwestie van:

  • Hoeveel risico wilt u nemen als het gaat om het missen van een echte verbetering;
  • De minimale steekproefgrootte die nodig is voor elke variatie om het gewenste vermogen te bereiken.

Hoe statistische power voor uw test te berekenen

Met behulp van een rekenmachine voor steekproefgroottes of G * , kunt u uw waarden invullen om erachter te komen wat nodig is om een ​​test met voldoende vermogen uit te voeren. Als u drie van de ingangen kent, kunt u de vierde berekenen. 

In dit geval hebben we met G * Power geconcludeerd dat we voor elke varianteen steekproefgrootte van 681 bezoekers nodig hebben . Dit werd berekend met behulp van onze inputs van 80% power en een 5% alpha (95% significantie). We wisten dat onze controle een conversiepercentage van 14% had en verwachtten dat onze variant presteerde op 19%:

g * energiecalculator

Op dezelfde manier, als we de steekproefomvang voor elke variatie, de alpha en het gewenste vermogensniveau (bijvoorbeeld 80%) kenden, konden we de MEI vinden die nodig is om die macht te bereiken – in dit geval 19%:

g * energiecalculator voor MEI

Wat als u uw steekproefomvang niet kunt vergroten?

Er komt een dag dat je meer kracht nodig hebt, maar het vergroten van de steekproefomvang is geen optie. Dit kan te wijten zijn aan een klein segment in een test die u momenteel uitvoert of weinig verkeer naar een pagina.

Stel dat u uw parameters op een A / B-testcalculator aansluit en een steekproefgrootte van meer dan 8000 nodig heeft:

a / b-testcalculator

Als je dat minimum niet kunt halen – of het zou maanden duren om dat te doen – is een optie om de MEI te verhogen. In dit voorbeeld vermindert het verhogen van de MEI van 10% naar 25% de steekproefomvang tot 1.356 per variant:

a / b-testcalculator met grote MEI

Maar hoe vaak kun je een MEI van 25% halen? En hoeveel waarde mis je als je alleen op zoek bent naar een enorme impact? Een betere optie is meestal om het betrouwbaarheidsniveau te verlagen naar 90% -als je maar comfortabel bent met een kans van 10% op een Type I-fout:

a / b-testcalculator met 90% alfa

Dus waar begin je? Georgiev gaf toe dat, te vaak, CRO-analisten “beginnen met de steekproefgrootte (test moet worden uitgevoerd met <semi-willekeurig aantal> weken) en vervolgens de hendels willekeurig aanduwen totdat de uitvoer past.”

De juiste balans vinden:

Conclusie

Statistische kracht helpt u bij het beheersen van fouten, geeft u meer vertrouwen in uw testresultaten en verbetert aanzienlijk uw kans om praktisch significante effecten te detecteren.

Profiteer van statistische kracht door deze suggesties te volgen:

  1. Voer uw tests uit voor twee tot vier weken .
  2. Gebruik een testcalculator (of G * Power ) om te controleren of de voeding juist is.
  3. Voldoen aan minimale vereisten voor de steekproefomvang.
  4. Test indien nodig voor grotere veranderingen in effect.
  5. Gebruik statistische significantie pas na het voldoen aan de minimale vereisten voor de steekproefomvang.
  6. Plan voldoende vermogen voor alle variaties en post-testsegmenten .

What's Your Reaction?

hate hate
0
hate
confused confused
0
confused
fail fail
0
fail
fun fun
0
fun
geeky geeky
0
geeky
love love
0
love
lol lol
0
lol
omg omg
0
omg
win win
0
win
Erwin@delaatbusiness.com
Dag, Hulp nodig met internet marketing of websites maken? neem dan contact op

0 Comments

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Choose A Format
Personality quiz
Series of questions that intends to reveal something about the personality
Trivia quiz
Series of questions with right and wrong answers that intends to check knowledge
Poll
Voting to make decisions or determine opinions
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Meme
Upload your own images to make custom memes
Video
Youtube, Vimeo or Vine Embeds
Audio
Soundcloud or Mixcloud Embeds
Image
Photo or GIF
Gif
GIF format