Hold-outgroepen: gouden standaard voor testen of valse idol?

10 min


117

U voert regelmatig A / B-tests uit op het ontwerp van een pop-up. U hebt een proces, implementeert het op de juiste manier, vindt statistisch significante winnaars en rolt winnende versies over de hele breedte.

Je tests beantwoorden elke vraag behalve één: is de winnende versie nog steeds beter dan nooit een pop-up te hebben getoond?

Een uithoudingsgroep kan het antwoord leveren, maar, zoals alles, kost dit geld.

Wat zijn hold-out-groepen?

Een uithoudingsgroep is een vorm van kruiselingse validatie die een reeks gebruikers uittrekt of “uithoudt”. U kunt holdouts uitvoeren voor A / B-testsen andere marketinginspanningen, zoals drip-e-mailcampagnes  waarbij een percentage van de gebruikers helemaal geen e-mail ontvangt.

Na voltooiing van een test en implementatie van de winnende versie, blijft de hold-outgroep weken, maanden of, in zeldzame gevallen, jaren achter. Daarbij probeert de holdout de ‘toename’ van de inkomsten te kwantificeren in vergelijking met niets doen.

Een kortingsbon van 10% (geleverd via een pop-up- of e-mailcampagne) kan bijvoorbeeld 15% meer verkopen genereren dan een huidige coupon van $ 10 korting op een aankoop van $ 100. U weet echter niet hoeveel consumenten er zonder enige coupon zouden hebben gekocht, maar zonder winstoogmerk kan een winstmoment nog steeds worden verlaagd met een winnende test .

Meestal worden holdouts echter gebruikt om de lift van een enkele test niet te meten maar op te heffen voor een volledig experimentatieprogramma.  Omdat holdouts een statistisch relevant gedeelte van een publiek moeten overhevelen, zijn ze alleen zinvol voor sites met enorme hoeveelheden verkeer.

Het verschil tussen een hold-out en een controlegroep

Stel je voor dat je een kop op een productpagina wilt testen. De versie aan de linkerkant (Besturing) is de huidige versie, terwijl de experimentele versie (Variant A) aan de rechterkant staat:

ab test apple kabels

Veronderstel, door een of ander wonder, dat Variatie A beter presteert, en je implementeert het voor alle bezoekers. Dat is het standaardproces voor een A / B-gesplitstest: 50% ziet elke versie tijdens de test en 100% ziet de winnende versie nadat de test is voltooid.

Echter, als u doorgaat met sommige bezoekers tonen de controle versie, dat de controle groep wordt de holdout. In andere tests kan het besturingselement niet “overgaan” van controle naar holdout. In plaats daarvan kan het een afzonderlijk segment zijn dat vanaf het begin is weggelaten, zoals de e-mailcampagne waarin een percentage van de abonnees niets ontvangt.

Omdat een holdout de waarde van een marketinginspanning kan schatten op een relatieve verbetering tussen twee versies, beschouwen sommigen het als ‘de gouden standaard’ bij het testen.

Waarom hold-out-groepen zijn “de gouden standaard”

Voor velen zijn holdouts een gouden standaard voor testen omdat ze de waarde meten, niet alleen van een test maar van een testprogramma.

En hoewel de waarde van testen duidelijk kan zijn voor degenen die erbij betrokken zijn, voegen afzonderlijke testresultaten niet bij aan ROI-berekeningen die in de C-Suite zijn gemaakt. Daar gaan de overwegingen verder dan de KPI’s van de website:

  • Is het zinvol om een ​​team van data scientists of e-mailmarketeers in dienst te nemen?
  • Als we morgen het hele team ontslaan, wat zou er dan gebeuren?

Holdouts bieden ook de mogelijkheid om de impact van experimenten op de lifetime value van klanten te beoordelen. Hoewel een split-test op korte termijn een toename van klikken, opvullingen of verkopen kan registreren, worden de langetermijneffecten niet vastgelegd:

  • Verlengen pop-ups en plakbalken de e-mailleads, maar verminderen ze na verloop van tijd de terugkerende bezoekers?
  • Verlaagt een couponprogramma uiteindelijk de aankopen van niet-scherp geprijsde artikelen?

Sommige effecten kunnen maanden of jaren duren om zich te materialiseren, waarbij elke dag verstorende factoren worden verzameld. Dus, als het gaat om het meten van de langetermijnimpact van tests, hoe lang is lang genoeg?

De reikwijdte van uithoudingsgroepen definiëren

Hoe lang moet je een uithoudingsgroep behouden? Zonder een gedefinieerd venster zou je belachelijke vergelijkingen kunnen maken, zoals decennia lange holdouts om je huidige site te meten aan de handgecodeerde versie van eind jaren negentig.

De beslissingen in het extreme zijn lachwekkend, maar naarmate de kloof kleiner wordt – vijf jaar, drie jaar, een jaar, zes maanden – worden ze moeilijker.

Terugkijkvensters en basislijnen voor holdouts

Hoeveel tijd verstrijkt voordat u de “basislijn” -versie van uw site voor een uithoudingsgroep bijwerkt? “Het hangt van je doelen af”, legt CXL-oprichter Peep Laja uit. “Je kunt het drie jaar ongewijzigd laten, maar als je de jaarlijkse ROI wilt meten, dan zou je elk jaar een cyclus maken. 

Hoe zit het met de mate van siteverandering? ” Wanneer het functionaliteit betreft, is er een gevoel van duurzaamheid ” , vertelde Cory Underwood, een Senior Programmer Analyst bij LL Bean . ” Wanneer het berichten verzendt, kom je te weten hoe effectief en hoe lang het effectief zal zijn. 

Underwood vervolgde:

Er zijn tijden dat u een langere leesduur wilt hebben. Je kunt dit zien aan personalisatie. Je richt een bepaald segment met een heel andere ervaring op het bereik van “nooit” tot “altijd”. Zeg dat het gewonnen is en je draait het altijd om. Zes maanden later, is het nog steeds de terugkeer aan het drijven?

Een uithoudingsgroep biedt een antwoord. (Laia merkte dus ook op dat ze uw A / B-test opnieuw konden uitvoeren.) Maar u zou geen vergelijking tussen appels en appels krijgen, tenzij u rekening hield met seizoensgebondenheid tussen de twee tijdsperiodes.

Op die manier is een uithoudingsgroep uniek lonend en uitdagend: het kan seizoensgevoeligheid in een voltooide A / B-test verminderen, maar het opnieuw introduceren bij het vergelijken van de uithoudingsgroep met de winnaar.

Omnichannel-retailers zoals LL Bean beheren verdere complexiteit: aantonen dat websiteveranderingen een langdurig positief effect hebben op gedrag op locatie en offline activiteiten. De toegevoegde variabelen kunnen de tijdlijn voor holdouts verlengen. Underwood heeft tot twee jaar uithoudingsgroepen (een anomalie, gaf hij toe).

Voor testtypen en tijdlijnen die een uithoudingsgroep verdienen, heeft de implementatie zijn eigen overwegingen.

Hold-out-groepen implementeren voor tests

De implementatie van holdouts is niet formeel. Oppervlakkig gezien moet je je publiek opdelen in één extra segment. (Hold-out-segmenten variëren vaak van 1 tot 10% van het totale publiek.) Bijvoorbeeld:

Controle : doelgroep 1 (47,5%)

Variant A : Doelgroep 2 (47,5%)

Hold-out : doelgroep 3 (5%)

Veel A / B-testtools stellen gebruikers in staat om de gewichten aan te passen om (of niet) versies van een test aan een publiek te geven. Maar niet elke test kan profiteren van segmentatie via testplatforms.

Zoals Underwood uitlegde, hangt een besluit om tests aan clientzijde uit te voeren (met behulp van een testtool) versus serverzijde (via een CDN) om twee redenen:

  1. De schaal van verandering. Grootschalige DOM-manipulaties die worden geïmplementeerd via client-side implementaties riskeren een trage en glitchy gebruikerservaring. Hoe groter het verschil tussen versies van de site die bij een test zijn betrokken (zoals een hold-out met een geheel ander homepage-ontwerp), des te meer dat server-side levering zinvol is.
  2. De specificiteit van targeting. Testhulpmiddelen verbinden gebruikersgegevens met CRM-gegevens voor gedetailleerdere targeting; server-side segmentatie kan worden beperkt tot bredere attributen van anonieme gebruikers, zoals locatie- en apparaattype, waardoor het moeilijk is om wijzigingen te testen voor een eng getarget publiek.

Bij een bepaalde omvang-zeg, voor Pinterest de kwart-miljard maandelijkse gebruikers- bouwen van een aangepaste platform kan testen versnellen en effectiever integreren met in-house gereedschappen.

pinterest testplatformmodel
Pinterest bouwde zijn eigen A / B-testplatform om meer dan 1.000 gelijktijdige tests te ondersteunen. ( Beeldbron )

Misschien nog belangrijker is dat een winstgevende implementatie afhankelijk is van weten wanneer een hold-outgroep een website verbetert – en wanneer het een kostbaar fineer is om het wantrouwen in het testproces te verbergen.

Wanneer holdouts werken

1. Voor grootschalige veranderingen

Naar de site. Hoe duurder een wijziging zal zijn om te implementeren, hoe groter de rechtvaardiging om een ​​uithoudingsgroep te gebruiken vóór deimplementatie.

After-the-fact holdouts voor een niet-omkeerbare verandering hebben weinig zin. Maar vooraf testen om het effect op lange termijn te valideren doet. “Naarmate het risico stijgt, stijgt de waarschijnlijkheid [van een holdout] ook”, vat Underwood samen.

Underwood zei vaak dat marketingteams holdouts aanvragen om voorstellen voor uitgebreide siteveranderingen te valideren. Een uitputting die de langetermijnwaarde van hun plannen bevestigt, is overtuigend voor degenen die de investering goedkeuren.

Naar teamprioriteiten. John Egan, het hoofd van Growth Traffic Engineering bij Pinterest, is het eens met Underwood – een test die grotere veranderingen impliceert, verdient meer (of, tenminste, langer) onderzoek, wat een ‘holdout’ oplevert.

Maar kosten voor het ontwikkelen van een locatie zijn niet de enige kosten die u moet overwegen. Zoals Egan uitlegde, is holdouts ook zinvol als “er een experiment is dat een gigantische overwinning was en als gevolg daarvan een verschuiving in de strategie van het team kan veroorzaken om echt op dat gebied te verdubbelen.”

In die omstandigheden duurt een uithouding volgens Egan meestal drie tot zes maanden. Die lengte is “genoeg tijd voor ons om er zeker van te zijn dat deze nieuwe strategie of tactiek inderdaad resultaten op de lange termijn oplevert en geen kortstondige piek veroorzaakt, maar dat de lange termijn netto-negatief is.”

2. Om het niet-traceerbare te meten

Egan erkende dat holdouts standaard zijn op Pinterest, “we voeren alleen uithoudtests uit voor een klein percentage van de experimenten.”

Voor Pinterest is de primaire use case:

meet de impact van iets dat moeilijk is om volledig te meten, alleen via tracking. We voeren bijvoorbeeld periodieke holdouts uit waarbij we e-mails / meldingen voor een klein aantal gebruikers een week of een maand uitschakelen om te zien hoeveel engagementmails / -meldingen rijden en wat hun impact is op de langetermijnretentie van gebruikers.

Egan detailleerde zo’n instantie op Medium . Zijn team wilde de impact testen van het toevoegen van een badgenummer om meldingen te pushen. Hun eerste A / B-test onthulde dat een badge-nummer de dagelijkse actieve gebruikers met 7% verhoogde en de belangrijkste betrokkenheidsstatistieken versterkte.

pinterest badge nummers
Badge-nummers zorgden voor een lift op korte termijn, maar zou die lift verdragen? Het team van Egan gebruikte een uithoudingsgroep om erachter te komen. ( Beeldbron )

Toch vroeg Egan zich af: “Is badging effectief op de lange termijn, of zet vermoeidheid van gebruikers uiteindelijk in en maken gebruikers het immuun?” Om dit te achterhalen, creëerde Pinterest een 1% hold-out-groep terwijl de verandering naar de andere 99 werd doorgevoerd. % van de gebruikers.

Het resultaat? De eerste 7% lift zakte in de loop van een jaar weg naar 2,5% – nog steeds positief maar minder dramatisch dan voorspelde kortetermijnresultaten. (Een latere wijziging aan het platform verhoogde de lift terug naar 4%.)

pinterest testresultaten
De badging-groep bleef na meer dan een jaar beter presteren dan de hold-outgroep, zij het minder dramatisch dan de eerste testresultaten toonden. ( Beeldbron )

De afhaalmaaltijd voor Egan was duidelijk: “Over het algemeen moeten hold-outgroepen worden gebruikt wanneer er een vraag is over de langetermijneffecten van een functie.”

3. Om machine learning algoritmen te voeden

Tegenwoordig heeft een Google-zoekopdracht op ‘hold-out-groepen’ meer kans op informatie voor algoritmen voor het trainen van machine-algoritmendan voor het valideren van A / B-tests. De twee onderwerpen sluiten elkaar niet uit.

Zoals Egan uitlegde, holdouts voor algoritmen voor het leren van machines, “verzamelt onbevooroordeelde trainingsgegevens voor het algoritme en zorgt ervoor dat het algoritme voor machinaal leren blijft presteren zoals verwacht.”

In dit geval is een uithouding een uitbijter met betrekking tot achter-schermen: ” De hold- outs voor algoritmen voor het leren van machines worden voor altijd uitgevoerd. 

Deze use-cases zijn logisch, maar ze hebben allemaal kosten die snel kunnen worden vermenigvuldigd:

  • Teams spenderen tijd aan het identificeren van een hold-out-segment.
  • Teams spenderen tijd aan het onderhouden van de ‘hold-out’-versie van de website.
  • Een deel van het publiek ziet geen siteverandering die beter is getest.

In sommige gevallen is de rechtvaardiging voor een uithoudingsgroep niet het resultaat van een verplichting tot strenge tests, maar van methodologisch wantrouwen.

Wanneer holdouts het grotere probleem omzeilen

Tim Stewart, die met  trsdigital werkt , is meestal bezig met het ‘opzetten van testprogramma’s of het redden van deze programma’s’. De laatste, merkte hij op, komt vaker voor.

Als consultant komt hij vaak direct in contact met de C-Suite, een voorrecht waar vele interne optimalisatieteams niet van genieten. Die toegang heeft hem sceptisch gemaakt over het gebruik van holdouts: ” Met holdouts, het antwoord op ‘Waarom?’ lijkt te zijn ‘We vertrouwen onze testen niet. ‘”

Stewart is geen volledig contrair. Zoals hij me vertelde, erkent hij de voordelen van hold-out-groepen om drop-offs van het nieuwheidseffect te identificeren, het cumulatieve effect van testen te bewaken en andere eerder besproken ratio’s.

Maar al te vaak vervolgde Stewart, holdouts ondersteunen statistisch welke teams er niet in slagen relationeel te ondersteunen – de legitimiteit van hun proces:

Ik begrijp wat [CEO’s] willen. Maar testen geeft geen antwoord. Het geeft je de kans dat de beslissing die je neemt in de goede richting gaat. Elk afzonderlijk is alleen zo nuttig. Maar als u een reeks vragen structureert, is het grootste cumulatieve effect van leren en het vermijden van risico de moeite waard. Dat is het op geloof gebaseerde deel ervan.

Met andere woorden, een geldig testproces vermindert de behoefte aan holdouts. Die tests uitvoeren, zei Stewart, is:

veel geld en moeite en kanttekeningen [die] elke vorm van verantwoordelijkheid afstaat om het aan het bedrijf uit te leggen. Voor het aantonen van de bedrijfswaarde moet je het op andere manieren bewijzen.

Dat is vooral waar gezien de alternatieve kosten.

De opportunitykosten van holdouts

De testresources zijn beperkt en het gebruik van resources voor hold-outs vertraagt ​​de testsnelheid. Zoals Jeff Bezos van Amazon verklaarde: “Ons succes bij Amazon is een functie van het aantal experimenten dat we doen per jaar, per maand, per week, per dag.”

Opportunitykosten kunnen exponentieel stijgen vanwege de complexiteit van het beheer van hold-out-groepen, die bedrijven vaak onderschatten.

Stewart heeft een analogie: stel je een vijver voor. Gooi een grote straatsteen in de vijver. Hoe moeilijk zou het zijn om de grootte en het effect van de rimpelingen te meten? Niet te hard.

rimpel in vijver

Stel je nu voor handen vol kiezels in de oceaan te gooien. Welk effect heeft elke kiezelsteen? Hoe verklaart u de onophoudelijke golven? Of past u uw schattingen voor de getijden aan? Of tijdens een orkaan?

In marketing omvatten de verstorende factoren die het moeilijk maken om de impact van elk steentje te meten (lees: test) offline marketingcampagnes of macro-economische veranderingen.

Kan een wachtgroep nog steeds een antwoord geven? Ja. Maar tegen welke prijs? Zoals Stewart vroeg:  wat is de ROI van statistische zekerheid gemeten tot drie cijfers achter de komma in plaats van twee als uw controle niet veel controle heeft?

Op een bepaald moment moet u nog een andere variabele opnemen: de impact op de ROI van het gebruik van holdouts om de ROI te meten. En toch gaat dit alles ervan uit dat het maken van een uithoudingsgroep haalbaar is.

De illusie van haalbaarheid

” Er is geen echte uitweg, ” voerde Stewart aan. “Zelfs bij een controle zijn er sommige mensen die op verschillende apparaten binnenkomen.” (Om nog maar te zwijgen, Edgar Špongolts, onze Director of Optimization bij CXL, voegde gebruikers van VPN’s en incognito-browsers toe.)

Holdouts verergeren de uitdagingen van multi-device-metingen: hoe langer een test wordt uitgevoerd, hoe waarschijnlijker het is dat iemand een cookie verwijdert en uiteindelijk overstapt van een segment ‘zonder tests’ naar ‘tests’. En elke inspanning om de vervuiling van het monster te beperken, verhoogt de kosten, wat de uitrol van andere tests vertraagt.

Stel dat je het konijnenhol wilt afdalen om de ROI van een testprogramma te bepalen – kosten zijn geen factor. Zoals Stewart heeft uiteengezet, moet u meer doen dan alleen een deel van de bezoekers van een bijgewerkte site weghouden.

U zou alle testresultaten van een parallel marketingteam moeten achterhouden en, aangezien websites nooit statisch zijn, hen toestaan ​​wijzigingen aan te brengen in de hold-outversie op basis van instinctief instinct. Stewart heeft executives dat scenario voorgelegd:

Wat we eigenlijk moeten hebben is een overval waarin al onze slechte ideeën en onze goede ideeën zijn verwerkt. Het bevat geen publiek: het draait een site zonder dat de mensen die de wijzigingen aanbrengen, een van de testresultaten te zien krijgen. Waarom zouden we dat doen ?! Precies wat ik bedoel.

Stewart maakt zijn argument niet om elk gebruik van holdouts te vermijden. In plaats daarvan probeert hij de misleide motivaties bloot te leggen die er vaak om vragen. Elk testresultaat biedt waarschijnlijkheid, geen zekerheid en het gebruik van hold-out-groepen onder het valse voorwendsel dat ze immuun zijn voor de onduidelijkheden die andere tests teisteren, is naïef en verkwistend.

Een hold-out bevrijdt analisten niet van de dialoog met het management en het management mag ook geen uithoudingsresultaten gebruiken om teams of bureaus “te betrappen” wanneer een testresultaat van tijd tot tijd niet voldoet aan de oorspronkelijke belofte.

‘Het gaat niet echt om wiskunde,’ concludeerde Stewart. “Het gaat over de mensen.”

Conclusie

“Kun je het gemakkelijk, goedkoop en met genoeg van je publiek doen?” Vroeg Stewart. Underwood en Egan hebben het gedaan, maar niet alleen vanwege testefficiëntie.

Beiden hebben de autonomie verdiend om spaarzaam met holdouts te werken. Hun oeuvre-test na test waarvan de resultaten, maanden en jaren verder, binnen hun oorspronkelijke projecties blijven vallen, bouwde het hele bedrijf vertrouwen in hun proces.

Top-down vertrouwen in het testproces richt het gebruik van holdouts op hun juiste taken:

  • Het opgraven van de gemakkelijk omkeerbare valse positieven die kortstondige tests periodiek begraven.
  • Bevestiging van de langetermijnwaarde van een dure wijziging voordat de middelen worden geïnvesteerd.

Erwin@delaatbusiness.com
Dag, Hulp nodig met internet marketing of websites maken? neem dan contact op

0 Comments

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Choose A Format
Personality quiz
Series of questions that intends to reveal something about the personality
Trivia quiz
Series of questions with right and wrong answers that intends to check knowledge
Poll
Voting to make decisions or determine opinions
Story
Formatted Text with Embeds and Visuals
List
The Classic Internet Listicles
Countdown
The Classic Internet Countdowns
Open List
Submit your own item and vote up for the best submission
Ranked List
Upvote or downvote to decide the best list item
Meme
Upload your own images to make custom memes
Video
Youtube, Vimeo or Vine Embeds
Audio
Soundcloud or Mixcloud Embeds
Image
Photo or GIF
Gif
GIF format