Sprievodca A/B testovaním

0
Sprievodca A/B testovaním

Napriek všetkému obsahu o A/B testovaní ľudia stále testujú nesprávne veci a spúšťajú A/B testy nesprávne.

Táto príručka vám pomôže pochopiť všetko, čo potrebujete, aby ste mohli začať s A/B testovaním.

Čo je A/B testovanie?

A/B testovanie je experimentálny proces, pri ktorom sa porovnáva dva alebo viac variantov (A a B), aby sa zistilo, ktorá premenná je efektívnejšia.

Keď výskumníci testujú účinnosť nových liekov, používajú tzv. split test – „rozdelený test”. V skutočnosti by sa teda väčšina výskumných experimentov mohla považovať za „rozdelený test” doplnený o hypotézu, kontrolu, variáciu a štatisticky vypočítaný výsledok.

To je všetko. Ak by ste napríklad spustili jednoduchý test A/B, bolo by to rozdelenie návštevnosti 50/50 medzi pôvodnú stránku a variáciu:

Príklad jednoduchého a/b testu, ktorý rozdeľuje návštevnosť rovnomerne medzi dve stránky

V tomto prípade vy vyhrala možnosť B, pretože má vyššiu konverziu.

Pre optimalizáciu konverzie je hlavným rozdielom variabilita internetovej prevádzky. V laboratóriu je jednoduchšie ovládať externé premenné. Online ich môžete zmierniť, ale je ťažké vytvoriť čisto kontrolovaný test.

Navyše, testovanie nových liekov si vyžaduje takmer istý stupeň presnosti. Na rade sú životy. Z technického hľadiska môže byť vaše obdobie „prieskumu” oveľa dlhšie, pretože si chcete byť istí, že sa nedopustíte chyby typu I (falošne pozitívne).

Online proces deleného testovania A/B zohľadňuje obchodné ciele

Zvažuje riziko vs. odmena, prieskum vs. vykorisťovanie, veda vs. podnikanie. Preto sa na výsledky pozeráme inou optikou a rozhodujeme sa inak ako tí, ktorí testujú v laboratóriu.

Môžete samozrejme vytvoriť viac ako dve variácie. Testy s viac ako dvoma variáciami sú známe ako testy A/B/n. Ak máte dostatočnú návštevnosť, môžete testovať toľko variácií, koľko chcete. Tu je príklad testu A/B/C/D a množstvo návštevnosti pridelené každej variácii:

Príklad toho, ako test a/b/n rozdeľuje návštevnosť medzi viacero stránok

Test A/B/n rozdeľuje návštevnosť rovnomerne medzi kontrolnú časť a variácie viacerých stránok, v prípade vyššie vyhráva viariant C.

A/B/n testy sú skvelé na implementáciu viacerých variácií tej istej hypotézy, vyžadujú si však väčšiu návštevnosť, pretože ju rozdeľujú medzi viac stránok.

A/B testy, hoci sú najobľúbenejšie, sú len jedným typom online experimentu. Môžete tiež spustiť multivariačné a tzv. banditské testy.

A/B testovanie, multivariačné testovanie a banditové algoritmy: Aký je rozdiel?

A/B/n testy sú kontrolované experimenty, ktoré spúšťajú jednu alebo viac variácií oproti pôvodnej stránke. Výsledky porovnávajú miery konverzie medzi variáciami na základe jedinej zmeny.

Testy s viacerými premennými testujú viacero verzií stránky, aby sa izolovalo, ktoré atribúty majú najväčší vplyv. Inými slovami, testy s viacerými premennými sú ako testy A/B/n v tom, že testujú originál oproti variáciám, ale každá variácia obsahuje iné prvky dizajnu. Napríklad: príklad viacrozmerného testu na webovej stránke.

Každý prvok má špecifický vplyv a prípad použitia, ktorý vám pomôže vyťažiť z vášho webu maximum. Tu je postup:

  • Na určenie najlepších rozložení použite testovanie A/B.
  • Pomocou testov s viacerými premennými vylepšite rozloženia a zaistite, aby všetky prvky spolu dobre spolupracovali.

Na testovanú stránku potrebujete veľkú návštevnosť ešte predtým, než začnete uvažovať o testovaní s viacerými premennými. Ak však máte dostatočnú návštevnosť, mali by ste vo svojom optimalizačnom programe použiť oba typy testov.

Väčšina agentúr uprednostňuje A/B testovanie, pretože zvyčajne testujete významnejšie zmeny (s väčším potenciálnym dopadom) a pretože sa jednoduchšie spúšťajú.

Banditové algoritmy sú testy A/B/n, ktoré sa aktualizujú v reálnom čase na základe výkonnosti každej variácie.

Tieto algoritmy v podstate začínajú odoslaním návštevnosti na dve (alebo viaceré) stránky: originál a variáciu (variácie). Potom, aby sa „častejšie ťahalo rameno výherného automatu”, algoritmus sa aktualizuje na základe toho, ktorá variácia „vyhráva”. Alebo môže algoritmus využívať najlepšiu možnosť:

Príklad toho, ako algoritmus banditov postupne presúva návštevnosť na víťaznú variáciu.

Jednou z výhod testovania banditov je, že banditi zmierňujú „ľútosť”, čo je stratená príležitosť na konverziu, ktorú zažívate pri testovaní potenciálne horšej variácie.

Banditi a A/B/n testy majú každý svoj účel. Vo všeobecnosti sú banditové algoritmy skvelé na:

  • Titulky a krátkodobé kampane;
  • Automatizácua váhy;
  • Zacielenie;
  • Kombináciu optimalizácie s atribúciou.

Bez ohľadu na to, aký typ testu spustíte, je dôležité mať proces, ktorý zvyšuje vaše šance na úspech. To znamená spustiť viac testov.

Na ako dlho spustiť A/B testy

Prvé pravidlo: Neprerušujte test len preto, že dosiahne štatistickú významnosť. Toto je pravdepodobne najčastejšia chyba, ktorej sa dopúšťajú začínajúci optimalizátori s dobrými úmyslami.

Zvážte toto: Keď sa spustilo 1 000 testov A/A (dve rovnaké strany):

  • 771 experimentov z 1 000 dosiahlo v určitom bode 90 % významnosť.
  • 531 experimentov z 1 000 dosiahlo v určitom bode 95 % významnosť.

Zastavenie testov pri významnosti riskuje falošné pozitíva a vylučuje externé ohrozenie platnosti, ako je sezónnosť.

Vopred určte veľkosť vzorky a spustite test na celé týždne, zvyčajne aspoň dva obchodné cykly.

Neexistujú žiadne magické čísla

Na koľkých ľuďoch treba testy vyskúšať? Mnoho blogových príspevkov ponúka magické čísla ako „100 konverzií” alebo „1 000 návštevníkov” ako bod zastavenia. Matematika nie je mágia. Matematika je matematika a to, s čím máme do činenia, je o niečo zložitejšie. Andrew Anderson z Malwarebytes to vyjadril dobre:

Nikdy to nie je o počte konverzií. Ide o dostatok údajov na overenie na základe reprezentatívnych vzoriek a reprezentačné správanie.

Sto konverzií je možné len v najvzdialenejších prípadoch a s neuveriteľne vysokým rozdielom v správaní, ale iba vtedy, ak sú splnené ďalšie požiadavky, ako je správanie v priebehu času, konzistencia a normálne rozdelenie. Dokonca aj vtedy má skutočne vysokú šancu na chybu typu I, falošne pozitívnu.

Chceme reprezentatívnu vzorku. Ako to môžeme získať? Otestujte dva obchodné cykly na zmiernenie vonkajších faktorov:

  • Deň v týždni. Vaša denná návštevnosť sa môže veľmi líšiť.
  • Zdroje návštevnosti. Pokiaľ nechcete prispôsobiť zážitok pre vyhradený zdroj.
  • Plán publikovania blogových príspevkov a newsletterov.
  • Vracajúci sa návštevníci. Ľudia môžu navštíviť váš web, premýšľať o nákupe a potom sa vrátiť o 10 dní neskôr, aby si ho kúpili.
  • Vonkajšie udalosti. Výplata v polovici mesiaca môže ovplyvniť napríklad nákup.

Buďte opatrní pri malých vzorkách. Internet je plný prípadových štúdií nasiaknutých matematikou. Väčšina štúdií (ak niekedy zverejnili plné čísla) by odhalila, že vydavatelia posudzovali testovacie variácie na 100 návštevníkoch alebo náraste z 12 na 22 konverzií.

Ako interpretovať výsledky

Často uvidíte, že výsledky sa v prvých dňoch testu výrazne líšia. Iste, majú tendenciu sa zbližovať, keď test pokračuje niekoľko nasledujúcich týždňov. Tu je príklad zo stránky eshopu:

Príklad výsledkov a/b testu na stránke elektronického obchodu, ktoré sa časom vrátia k priemeru.
  • Prvých pár dní: Modrá (variácia č. 3) vyhráva oveľa – napríklad 16 USD na návštevníka oproti 12,50 USD za kontrolu. Veľa ľudí by tu (omylom) test ukončilo.
  • Po 7 dňoch: Modrá stále vyhráva a relatívny rozdiel je veľký.
  • Po 14 dňoch: Orange (#4) vyhráva!
  • Po 21 dňoch: Orange stále vyhráva!
  • Koniec: Žiadny rozdiel.

Ak by ste test vyvolali skôr ako po štyroch týždňoch, urobili by ste chybný záver.

Je tu súvisiaci problém: Efekt novosti. Novosť vašich zmien (napr. väčšie modré tlačidlo) prináša viac pozornosti variácii. Časom výťah zmizne, pretože zmena už nie je nová.

Je to jedna z mnohých zložitostí súvisiacich s A/B testovaním.

Môžete spustiť viacero A/B testov súčasne?

Chcete urýchliť svoj testovací program a spustiť viac testov – testovanie vo vysokom tempe. Môžete však spustiť viac ako jeden A/B test súčasne? Zvýši to váš potenciál rastu alebo znečistí vaše údaje?

Niektorí odborníci tvrdia, že by ste nemali robiť viacero testov súčasne. Niektorí hovoria, že je to v poriadku. Vo väčšine prípadov budete v poriadku vykonávať viacero simultánnych testov; extrémne interakcie sú nepravdepodobné.

Pokiaľ netestujete skutočne dôležité veci (napr. niečo, čo má vplyv na váš obchodný model, budúcnosť spoločnosti), výhody testovacieho objemu pravdepodobne prevážia šum vo vašich údajoch a občasné falošné pozitíva.

Ak existuje vysoké riziko interakcie medzi viacerými testami, znížte počet simultánnych testov a/alebo nechajte testy bežať dlhšie, aby sa zvýšila presnosť.

Ako nastaviť A/B testy

Keď budete mať prioritný zoznam testovacích nápadov, je čas vytvoriť hypotézu a spustiť experiment. Hypotéza definuje, prečo si myslíte, že nastáva problém. Navyše dobrá hypotéza:

  • Je testovateľný. Je to merateľné, takže sa to dá otestovať.
  • Rieši problém s konverziou. Split-testovanie rieši problémy s konverziou.
  • Poskytuje prehľad o trhu. Vďaka dobre formulovanej hypotéze vám výsledky rozdeleného testovania poskytnú informácie o vašich zákazníkoch, či už test „vyhrá” alebo „prehrá”.

Zaujal vás tento článok? Vďaka vám môžeme tvoriť ďalšie.

Podporte Akčné ženy, pomôžte nám ďalej budovať komunitu, ktorá prináša hodnotný obsah, networking a reálne prepojenia.

Zdroj

žiadne príspevky na zobrazenie