Od raw dat k User Journey díl 1.

Antonín Kučera, MeasureCamp Czechia 2020, Brno

Livesport.eu


Letošní MeasureCamp v Brně byl akcí, která se do historie svých konání zapíše dvěma zářezy:


  1. Díky stále poměrně přísným restrikcím byl počet účastníků velice nízký (cca 75).

  2. Obsah byl nicméně na daleko vyšší úrovni, než některé předchozí ročníky...


Jedna z nejlepších prezentací jak na MC, tak i co jsem za poslední dobu měl možnost si naživo poslechnout, měli kluci z Livesport.eu. Přišlo mi škoda, aby tak kvalitní obsah zůstal jen mezi účastníky MC, a s kluky jsem se dohodl o publikaci jejich prezentací na našem blogu formou série článků, včetně rozšíření o Tondovy a moje komentáře vybraných částí.


První ze série článků je zaměřený na byznysový koncept (přínos) řešení a projektové řízení ve vývoji datových produktů, což je mnohdy bohužel ta opomíjená část, která je nicméně pro finální výsledek naprosto kritická.


Druhá část série bude zaměřená na samotný technologický koncept, který kluci pro tvorbu svého datového a byznysového modelu v produkci využili.


Pojďme tedy začít samotnými slidy z Tondovy prezentace (doporučuji je nepřeskakovat a číst pozorně, text v článku na ně přímo navazuje):


Jak je patrné ze slidů výše, Tonda a Zdeněk nejsou žádná ořezávátka a zpracovávají denně skutečně obrovský objem dat.


Desítky miliard hitů měsíčně = desítky miliard zpracovaných řádků, což je pro referenci vyšší objem dat, než pokud byste chtěli analyzovat každou návštěvu (tj. session-level dataset, což je něco, co z klasických GA ani nejde vytáhnout) i pro ty největší weby v zemi dohromady.


Jednoduše řečeno se jedná o objem dat, který pokud chcete skutečně „dostat pod kontrolu“, musíte postupovat jako zkušený data engineer a dát si záležet na každém detailu, o kterém často „klasický GA analytik“ ani neví, že existuje. Jinak nemáte šanci uspět a investice do vás i technologií budou označeny štítkem „peníze vyhozené oknem“.


Tonda: Hlavním business cílem projektu je obligátně akvizice a retence. Tzn cílem je, aby se maximum uživatelů vracelo opakovaně na web, navštěvovali nás pravidelně v týdnu a chodili k nám pro sportovní data a výsledky zápasů. (Vize: brána do světa sportu výše).

Situaci, kdy pro analytiku nestačí pouze free Google Analytics, řešíme s Márou každý den. Jak je to možné? Jednoduše, ony totiž nestačí nikdy (pokud tedy chcete dělat skutečnou byznys analytiku).


Omezení free GA se dají rozdělit do dvou kategorií:


  1. V GA není potřebný „obrázek“ o analyzovaném byznysu, tzn. chybí zde např. informace o čisté marži, vratkách, zákaznících a mnoho dalších nepostradatelných informací, které potřebuje na denní bázi znát i malý e-shop (tedy není to nic jen pro e-commerce obry, naopak, čím jste menší, tím lepší finanční řízení Vaše firma potřebuje).

  2. GA neposkytuje dostatečné limity pro měření, tzn. po určitém množství zaslaných informací za den v podstatě přestane měřit. Zde může být menší/střední e-shop ještě v pohodě, ale pokud máte traffic v řádu stovek tisíc až milionů users měsíčně, případně doměřujete velké množství custom eventů na každou návštěvu, na omezení free GA narazíte poměrně rychle.

Kluci z Livesport.eu řešili navíc kombinaci obou výše uvedených problémů dohromady, tedy nekompletní datový (byznysový) model v GA i limity, které mají free Google Analytics.

Existuje mnoho dalších technologických řešení, pomocí kterých lze sbírat data o návštěvnících vašeho webu (např. Adobe Analytics, ve slidech výše zmíněné SnowPlow a další). Pokud sledujete dění na scéně webové analytiky, jistě vám neunikla novinka s názvem App + Web, tedy nová možnost měření Google Analytics, která jednak umožňuje efektivně propojit měření mobilní a webové aplikace, ale především je „zcela jiná“ co se týče zpracování dat (tedy pro někoho ne, již mnoho šikovných analytiků a developerů přistupovalo ke zpracování dat obdobným způsobem, jaký umožňuje GA App + Web).


Jeden z docela dobrých návodů, jak postupovat v případě implementace App + Web, naleznete na odkazu zde.

Hlavní změnou GA App + Web oproti „klasickým“ GA je „forma“, v jaké se k vám data dostanou.


Pokud máte na vizitce „Datový/webový analytik“, připravte se na svět, kde budete každý den řešit (a tedy budete mistrem) témat, jakou jsou:

  1. BDM (business data model)

  2. Data pipelines

  3. Multi-cloud architecture

  4. Cloud computing

Zároveň se neobejdete bez znalostí „datově orientovaných“ jazyků, jako je SQL, Python, R… a ideálně potřebujete zapomenout, že existuje Excel (nicméně Google Sheets můžou být velice dobrým pomocníkem jako mezikrok pro export/import dat z různých systémů a platforem. Bez diskuse je to ale skutečně zlý pán, co se komplexní datové analytiky týče).

  • Jednoduše můžete zapomenout na fakturaci 1.500 Kč / hod a více za analytiku na úrovni standardizovaných GA reportů a analýz předaných v Excelu (nebo hůře, v PDF).

  • S výmluvami typu, že si něco takového mohou dovolit pouze velké firmy, protože je to za A) drahé z pohledu technologií a za B) nejsou lidi, kteří to umí za dostupnou cenu zpracovat? Nesouhlasím, takových lidí znám osobně desítky.

  • Cena technologie, pokud jste A) zkušený a za B) máte správně definovaný BDM (tedy byznysový cíl vaší práce), není problém ani pro malé začínající e-shopy nebo jiné online projekty (malá case study zde).

Jak hezky Tonda Kučera (autor slidů v tomto článku) vypíchl výše, díky event based RAW datasetu za GA máte obrovskou volnost, jak s daty pracovat. Např. si můžete sami definovat, co je to session na webu (a stejně tak i další metriky), tedy modifikovat standardní nastavení GA více k byznysovému modelu daného projektu.


Je to dobře, nebo špatně?


V základu mají GA (myšleno ty standardní) sessions, a mnoho dalších metrik i dimenzí, samozřejmě definovaných smysluplně, nicméně cílem (možná spíše potřebou) Google bylo definovat „obecně platná pravidla“, která cca sednou na více jak 50 milionů implementací GA, které jsou po celém světě.


Customizace těchto obecných pravidel je poměrně náročná a neohrabaná (nad rámec GA UI). Navíc, pokud jste jako např. Marek Kobulský a chcete mít pořádek ve všem (na datech v bordelu se nedá dělat Data Science, leda tak „Bordel Science“), narazíte velice často na technická omezení (i těch placených GA 360), která jsou prostě zcela mimo potřeby byznysového datového modelu a musí se pak dělat buď složité opravy, a nebo vzniká omezení na úrovni kvality výstupních data pipelines/ML modelů, což nechcete (protože jste profík a na každém detailu záleží).

Vystoupení z komfortní zóny v následujících měsících a letech čeká mnoho webových analytiků a online marketérů.


Dle mého názoru si bude mnoho lidí muset utáhnout opasky:

  • Jinak jim hrozí, že se stanou nekonkurenceschopní (nezvládnou naskočit na novou vlnu digitálního světa, který je daleko více programaticky založený).

  • Budou muset velkou část svého času (který teď prodávali za hodinovou sazbu v řádu tisíců Kč) věnovat samostudiu a zároveň si také zvyknout za skutečně kvalitní materiály ke studiu platit (klidně desítky tisíc Kč měsíčně).

  • Neztotožní se se skutečností, kdy na své hodinové sazbě nemají 100% marži, ale budou muset (vyšší desítky %) z této marže investovat právě do technology fee, ať již pro své samostudium a experimenty, nebo pro přímou práci pro své klienty.

Z mých zkušeností je většina analytiku a developerů spíše introvertních (osobně se mezi introverty řadím také). Velká síla bude v týmech, které dokážou kombinovat master skill programatické práce s daty (SQL, R, Python a mnoho dalších jazyků) a lidí, kteří se dokážou dostat do hlavy konzumentů své práce, dat, výsledků ML modelů, vizualizací a dokážou správně identifikovat byznysovou příležitost a BDM obecně. Těchto týmu momentálně existuje na naší domácí scéně poměrně málo.

Detailní znalost potřeb byznysu a uživatelů vašich výstupů je naprosto klíčová pro úspěšné zavedení datového konceptu do každodenní práce lidí. Např. rozklíčovat, jakým způsobem zapracovat Data Driven Atribuci do porozumění a práce majitelů e-shopů a marketérů nám s Markem Kobulským zabralo cca 5 let práce a mnoho hodin vzdělávání stovek účastníků našich školení, kde právě díky předání našich zkušeností ostatním a diskuzí z tohoto procesu vyplývajících se nám (dle byznysových výsledků a referencí našich partnerů) skutečně podařilo přijít DDA (v konkrétních příkladech) na kloub. Malá case study zde.

Tonda: Výstupem všech předchozích činností byl Measurement Model a nějaký prvotní datový model. Snažili jsme se jít shora dolů od cílů přes KPIs až po metriky.


Přišlo nám to jako dobrý standardní postup, který na konci přinese kýžené výsledky. Datový model, nebo možná chcete-li business datový model, jsme dělali ve spolupráci s Keboola.com a je velmi podobný tomu reálnému datovému modelu, který jsme na konci použili.


Podívali jsme se na BDM výstupy z nadhledu a bylo nám jasné, že musíme jít daleko hlouběji. Jelikož jsme hodně Customer/Product Oriented, tak nám chyběl detailní pohled na produkt.


Cíle, KPIs a metriky, s kterými jsme pracovali, tak popisovaly výkon našeho produktu v hodně obecné rovině. My jsme ale chtěli vědět reálnější chování našich uživatelů v nějakém kratším období (týden), než mít jen informaci, že nám rostou návštěvy, new users, nebo že jsme měli více aktivních uživatelů tento týden než minulý. Chtěli jsme více poznat aktivní uživatele a jejich konkrétní aktivity. Přijít s metrikami, které jsou pochopitelnější pro řízení vývoje produktu - například „počet aktivních dnů v týdnu“, „počet akcí na uživatele za týden“, apod.



Na produktový pohled navážeme dalším článkem z této série v následujících dnech.


M.


©2019 Ecommerce-academy.cz, created with love by Milan, Marek & Ivča