Odemykáme potenciál AI & Machine Learning v e-commerce - jaká data používat (část 2)

Aktualizace: 5. pro 2019

Ve 2. ze série článků o AI a Machine Learningu v e-commerce se dozvíte, jak uvažovat o zdrojích dat tak, abyste vytěžili z AI modelů maximum.

Tip: Je pro vás AI a Machine Learning novinkou? V tom případě doporučujeme první článek série o AI a Machine Learningu - základní pojmy :-)

Garbage in - garbage out u AI projektů

  • 80 % - tolik času zabírá profesionálům v oblasti Data Science práce spojená s přípravou dat dle několika studií z posledních let, o čemž se můžete dočíst například v The New York Times, Harvard Business Review nebo Forbes.

Umělá inteligence není jeden konkrétní algoritmus nebo program. Většinou se jedná o soustavu matematických modelů, jejichž výstup určují informace na vstupu. V praxi se často setkáváme s představou, že čím více dat, tím lépe. To však platí pouze do určité míry.

  • Big Data neznamenají automaticky kvalitní AI model

Při strojovém učení rozhoduje, zda data pokrývají drivery business problému, který chceme vyřešit. Pokud se to povede, AI pomůže ušetřit až desítky procent nákladů díky automatizaci nebo zvýšit tržby díky lepší personalizaci. Studie McKinsey například předpokládá, že:

  • 13 bilionů USD - o tolik se do roku 2030 zvýší globální GDP díky AI

  • 20 % - o tolik se může do roku 2030 propadnout cash-flow firem, kterým se AI nepodaří integrovat

Často se setkáváme s postupem, kdy firma začne skladovat data, která jako první přijdou pod ruku, s očekáváním, že jejich přidaná hodnota se vynoří při analýze někdy v budoucnu. Nějaká data jsou lepší než žádná data nicméně, bez přesné definice business problému je analýza hledáním jehly v kupce sena.


Která data se vyplatí skladovat?


Při tvorbě AI v e-commerce nejčastěji automatizujeme tvorbu postupů a pravidel, které dříve profesionálové vytvářeli ručně. Postup, kdy se lidský expert dívá do grafů a na základě nich provádí další akce, je nahrazen matematickým modelem, který se učí a provádí akce rovnou na základě aktuálních a historických dat.

  • Vhodné zdroje dat pro strojové učení jsou nejčastěji ty, které by využil lidský expert při svém manuálním postupu.



Příklad z praxe:


Řekněme, že se e-shop FiktivniEshop rozhodl zvýšit kvalitu svých služeb prostřednictvím automatizované personalizace webu.


Zamysleme se nyní nad tím, jak probíhá pomyslný user scoring v běžné kamenné prodejně. Jaké dotazy si podvědomě může položit lidský expert (prodavač), aby poskytl právě příchozímu zákazníkovi optimální službu?

  1. Nakoupil u nás zákazník v minulosti?

  2. Je to muž nebo žena?

  3. Jaký je přibližný věk?

  4. Jedná se od pohledu o bohatšího zákazníka nebo naopak o šetřílka?

  5. Jaký má styl nakupování? Zkoumá zboží pomalu a do detailů, nebo jen rychle a povrchně?

  6. Prohlíží si pouze konkrétní typ zboží nebo brouzdá napříč různými kategoriemi?

  7. Existuje nějaký společný prvek, který spojuje veškeré zboží, které si dosud zákazník prohlédl, například barva nebo materiál?

  8. Hraje roli aktuální doba? Chodí k nám v pátek odpoledne určitý typ zákazníků? Blíží se Vánoce?

  9. Jaké jsou aktuální trendy na trhu? Má obchod naproti výprodej? Co v poslední době komentovaly celebrity?

Výsledkem těchto úvah je ontologie - definice a popis vazeb, které tvoří jádro problému. Čím lépe dokážeme popsat tyto vazby skrze data, tím lepších výsledků dosáhneme při strojovém učení. Jaké zdroje dat nám mohou pomoci pokrýt výše zmíněné informace v případě našeho e-shopu FiktivniEshop?

  • Historie transakcí - v tomto případě dostaneme odpověď na otázku 1 (nový/stávající zákazník)

  • Online události v reálném čase (např. zákazník právě rozklikl detail produktu) - tato data obsahují indície pro dotazy s číslem 5 (styl nakupování), 6 (relevantní kategorie produktů) a 7 (relevantní vlastnosti produktů).

A co demografické informace s číslem 2 (pohlaví), 3 (věk) a 4 (sociální situace)? U pohlaví to není zase takový problém, pokud známe jméno zákazníka. S ostatními je to trochu složitější. Jak je tedy obstarat?

  • Zákaznické dotazníky - jednoduché, nicméně pro zákazníka to může být otravné, navíc lze do dotazníku zalhat

  • Data zákaznické podpory - spolehlivější, ale složitější varianta. V dnešní době lze naštěstí analýzu textů a telefonátů automatizovat skrze AI disciplínu NLP (Natural Language Processing - zpracování přirozeného jazyka)

  • Data, která s demografickými údaji mohou korelovat - operační systém a prohlížeč používaného zařízení, doména e-mailu nebo lokalita. Přesně tyto data má k dispozici téměř každý e-commerce business u všech interakcí se zákazníkem. Na první pohled to nemusí být zřejmé, nicméně, stačí se trochu zamyslet. Zákazník používající nejnovější iPhone s e-mailem na googlu může mít skutečně jiné zákaznické chování a preference než zákazník používající Internet Explorer s e-mailem na Seznamu. Není to sice 100% zdroj, nicméně v kombinaci s ostatními poskytuje užitečnou kontextovou informaci

Nakonec nám zbyly otázky s číslem 8 (vlastnosti konkrétního časového období) a 9 (aktuální trendy). V těchto případech je třeba zapojit externí zdroje dat, například monitorovat konkurenci nebo extrahovat klíčová slova z aktuálních článků influencerů.


Postup popsaný výše, tedy hledání a formulace relevantních informací, se označuje pojmem feature engineering. Jde o stěžejní aktivitu každého AI projektu.


Tip: za odměnu, že jste dočetli náš článek tak daleko, máte nárok na 5% slevu na workshop „Úvod do AI pro business, markeťáky a produkťáky“. Při rezervaci stačí zadat slevový kód ai_2019


Formát dat pro umělou inteligenci


Rozbor databází a ETL nástrojů v tomto článku vynecháme. Důležitým doporučením na závěr je informace jiná:

  • Vždy je vhodné mít k dispozici raw podobu historických i aktuálních dat.



Jako raw data se označují data, která dosud neprošla žádným zpracováním, např. filtrací nebo agregací. V e-commerce máme na mysli především online události.

Pro manuální analýzu je vhodné raw data upravit, nicméně, v případě prototypování AI modelů je to trochu jinak. Čím lépe nasimulujeme průběh v reálném prostředí, tím větší máme jistotu, že v produkci dosáhneme výsledků obdobných při testování.


Dalším argumentem pro uchovávání raw dat je dříve popsaný feature engineering. Transformace je často nevratný proces. V momentě, kdy data agregujeme nebo provedeme substituci hodnot, měníme informaci, kterou data obsahují. Při hledání relevantních podkladových proměnných pro strojové učení pak nikdy nevíme, zda pracujeme se skutečnou nebo upravenou realitou.



Data již máme - co dál?


Pokud vás téma zajímá, doporučujeme navazující článek Odemykáme potenciál AI v e-commerce - řízení AI projektu (část 3) a sledovat náš web a sociální sítě :-).



Tip: Chcete načerpat inspiraci a zkušenosti od profesionála v oboru AI, ML a automatizace Ondry Kopičky? Přijďte na nový workshop "Úvod do AI pro business, markeťáky a produkťáky", který jsme pro vás připravili ve spolupráci s Powered by Insights.





©2019 Ecommerce-academy.cz, created with love by Milan, Marek & Ivča