Odemykáme potenciál AI & Machine Learning v e-commerce - etika (část 6)

Aktualizace: 5. pro 2019

V šestém článku ze série článků o AI a Machine Learningu v e-commerce se blíže zaměříme na téma etika.

  • AI diskriminuje

  • AI nadržuje

  • AI je neférová

  • AI je nedůvěryhodná

  • Můžeme se spolehnout na umělou inteligenci? Kdo je odpovědný za její rozhodování?

Podobné titulky se objevují čím dál častěji, především v oblasti lidských zdrojů, medicíně a vůbec všude, kde se ke strojovému učení využívají „people data“. V předchozím článku o umělé inteligenci jsme nakoukli do „střev“ vybraných AI modelů. Pojďme tyto postřehy zasadit do kontextu.


Tip: Je pro vás AI a Machine Learning novinkou? V tom případě doporučujeme první článek série o AI a Machine Learningu - základní pojmy :-)


Black mirror


Konfederace britského průmyslu (CBI) nedávno vydala report, ve kterém mimo jiné doporučuje firmám „dohlížet“ na rozhodnutí prováděné umělou inteligencí a provádět audit využívání dat. Politici i řídící pracovníci z řad firem si uvědomují, jak velký vliv může mít AI na fungování každodenního života.

V našich končinách můžeme jako příklad uvést GDPR, potažmo právo subjektu údajů nebýt předmětem automatizovaného rozhodování (včetně profilování), právo získat vysvětlení o učiněném rozhodnutí a právo napadnout rozhodnutí. Politický rozměr celé věci však raději nebudeme komentovat a zaměříme se na informace využitelné v každodenní praxi.


Na podzim minulého roku oběhla svět informace o tom, že Amazon stáhl svůj HR nástroj na bázi strojového učení, jelikož penalizoval životopisy obsahující výrazy se slovem „women“ (viz článek Reuters). Obdobně se také před lety spálil Google, když se provalilo, že Google Photos kategorizovalo fotku muže a ženy černé pleti jako obrázek goril (viz původní tweet). Jak je něco takového možné? -> Data.


Jak se do lesa volá...


V jistém smyslu je strojové učení pouhým nástrojem pro tvorbu matematické reprezentace tréninkových dat. Jak ve své studii uvádí AI kapacita J.J. Bryson, když při tréninku modelů pro zpracování přirozeného jazyka využijeme historická textová data, implicitně zahrneme i historické předsudky. Stejně tak pokud strojové učení probíhá na datech z mezilidské komunikace v současnosti, nikdy se nevyhneme aktuálním stereotypům a negativním trendům.

  • AI není black box, AI je black mirror

Kdo však určí, co je stále v pořádku a co je již za hranou? Lze tedy sestrojit „nezaujatou“ umělou inteligenci? Pokud se o něco takového snažíme, musíme se nejprve zamyslet:

  • Jaké stereotypy se mohou objevit v populaci, která generuje naše data?

  • Lze identifikovat předsudky v datech pro strojové učení?

  • Které datové vlastnosti (featury) jsou spojeny s diskriminací?

„Rizikové“ proměnné jsou tedy rasa, pohlaví a další „lidské“ vlastnosti. V některých oblastech jsou však klíčové, například barva a typ pleti při doporučování produktů v kosmetice. Při tvorbě tréninkových dat je nutné brát v úvahu nejen obor, ale i morální mantinely cílové skupiny, která bude zdrojem dat či „konzumentem“ výstupů.


Učíme „cenzora“


Další problém představuje pro umělou inteligenci humor, dvojsmysly, nadsázka, ironie a další konstrukce, které k rozklíčování skutečného významu vyžadují hlubší analýzu kontextových informací. Ruku na srdce, problém je to často nejen pro inteligenci umělou. Konec srandy však nastává, když řešíme moderování obsahu ve veřejném prostoru. Trable Facebooku a dalších médií hezky popisuje článek The Verge.


Podkladová data můžeme vždy připravit ručně a zaškatulkovat konkrétní konstrukce na „vhodné“ či „nevhodné“, nicméně, bez identifikace klíčových prvků, tedy co dělá humor humorem a nadsázku nadsázkou, bude naše AI pouhým „šprtem“, který si memorizuje konkrétní příklady bez schopnosti jakéhokoli zobecnění. Spíše než strojové učení připadá v úvahu „natvrdo“ sestavený pravidlový třídící systém, který podezřelý obsah pošle moderátorovi ke schválení nebo jej raději rovnou odfiltruje.


Tip: Jaká data jsou vhodná pro umělou inteligenci a strojové učení? To se dozvíte v článku série o AI a Machine Learningu - jaká data používat.



V každém případě si musíme určit, do jaké míry lze s cenzurou zajít. Fundamentální dotaz zní:

  • Je pro nás AI nástrojem pro vylepšení služeb nebo pro utvrzení se v našich vlastních domněnkách?

Na výše zmíněném příkladu se záměnou černochů za gorily si můžeme ukázat, jak se k problému postavil Google. Dva roky po ostudě nástroj Google Photos gorily a lidi černé pleti raději vůbec „neznal“ (viz článek Wired).


Všechno je relativní, všechno je subjektivní


Jak již bylo výše řečeno, s některými úlohami nemá problémy jen inteligence umělá, nýbrž i ta lidská. Jsme vůbec my, lidé, dostatečně inteligentní na to, abychom se mohli pouštět do sestavování něčeho, co za nás bude rozhodovat automaticky? Pojďme si nyní uvědomit, k čemu při našich myšlenkových pochodech dochází a jak to zohlednit při tvorbě AI.


Rorschachův test

Iluze


Ať jde o rozpoznání humoru nebo obrazu, vždy jde o subjektivní interpretaci reálného světa. Na obdobné myšlence je založen Rorschachův test. Jedná se o známou psychologickou metodu, fungující na principu projekce vlastních pocitů a myšlenek do jinak neurčité inkoustové skvrny.


S nadsázkou se dá říci, že umělá inteligence tímto testem prochází pokaždé, když ji předložíme testovací vstup. Vstupem bývá vektor několika čísel nebo zakódovaná informace, avšak bez kontextu a bez možnosti získat dodatečné indície. Výstup matematického modelu pak představuje určitou koláž trénovacích dat, které se podle zvolené metriky tomuto vstupu nejvíce podobají.

Kachna nebo zajíc?



Další dilema představuje postup rozhodování umělé inteligence v případě dvojsmyslných vstupů, a zde máme na mysli nejen obraz, ale i text, případně jiné formy.






Spojování teček


Lidský mozek při rozhodování využívá nejen historická data, ale i kontextovou informaci. Pro snadnou ilustraci použijeme rozpoznávání obrazu; které zvíře je živé?

Tip: za odměnu, že jste dočetli náš článek tak daleko, máte nárok na 5% slevu na workshop „Úvod do AI pro business, markeťáky a produkťáky“. Při rezervaci stačí zadat slevový kód ai_2019


Správná odpověď je obrázek 1. Jaké kontextové informace využije člověk pro to, aby zjistil správnou odpověď?

  • Zvíře je v pohybu: Že je zvíře v pohybu jsme zjistili díky poloze těla (znalost fyziky a anatomie medvěda) a díky stříkající vodě (analýza okolí). Máme znalost o tom, že existuje něco jako pohyb, tedy určitá schopnost měnit polohu svých částí vůči okolním objektům. Dále víme, že aby bylo něco v pohybu, musí nastat působení určité fyzikální síly a že zdrojem této síly může být buďto samotný objekt, nebo externí zdroj. Protože na obrázku žádný externí zdroj nevidíme, je pravděpodobné, že je zdrojem sám medvěd. Pokud je zdrojem sám medvěd, je pravděpodobně živý, protože neživí medvědi schopností samostatného pohybu nedisponují.

  • Stříkající voda a mokrá srst: Máme znalost o tom, že existuje něco jako voda. Detekujeme ji podle jejího čirého zbarvení. Dále víme, že na ni mohou působit určité fyzikální síly (cákání vody). Uvědomujeme si její fyzikální vlastnosti, například že se při kontaktu se srstí vsákne a dočasně změní její texturu a vzhled. Protože voda na obrázku cáká, musí zde být nějaký zdroj fyzikální síly, která cákání způsobuje. Vzhledem k poloze medvěda naznačující jeho pohyb a vzhledem k jeho mokré srsti je pravděpodobné, že zdrojem této fyzikální síly je sám medvěd. Neživí medvědi po sobě vodou necákají.

  • Zvířata jsou dvě a zápasí spolu: Máme znalost o tom, že živí medvědi mají své potřeby a návyky - bojují o potravu, chrání si teritorium. Máme znalost o tom, že existuje něco jako boj, že to zpravidla obnáší účast alespoň dvou jedinců a že se jedná o aktivitu, kterou charakterizuje pohyb s určitou polohou těla. Neživí medvědi se neperou.

Proč není medvěd na obrázku 2 živý? Odpustíme-li si cákající vodu a zápas, mohli bychom řadu vlastností z obrázku 1 namapovat i na obrázek 2. Klíčovou indícií je malý štítek s nápisem "Grizzly Bear" umístěný na zemi před medvědem. Máme znalost o tom, že existuje něco jako vycpávání a muzeum, kde jsou exponáty označeny. Živí medvědi jmenovky nevyužívají.


Co jsme to právě provedli?

  1. Dekompozice problému na jednotlivé části.

  2. Vyhodnocení každé části separátní znalostí.

  3. Syntéza mezivýsledků v konečný závěr.

Naše myšlení funguje jako fallback model, který se chytá nejlepšího možného řešení a upřesňuje výsledek s každou další indícií.


Stejným postupem můžeme přistoupit k řešení netriviálních problémů při strojovém učení, a to nejen při rozpoznávání obrazu. Ve výsledku může řešení spočívat v kombinaci několika modelů specializovaných na jednotlivé podproblémy. Úspěšnost závisí na našem umu popsat kontextovou informaci skrze dostupná data.


Tip: Jak na project management v AI? To se dozvíte v článku série o AI a Machine Learningu - řízení AI projektu.


Nástrahy AI znám - jak postupovat dál?


Pokud vás téma zajímá, doporučujeme sledovat náš web a sociální sítě. Nenechte si ujít další článek :-)



Tip: Chcete načerpat inspiraci a zkušenosti od profesionála v oboru AI, ML a automatizace Ondry Kopičky? Přijďte na školení „Úvod do AI pro business, markeťáky a produkťáky“, který jsme pro vás připravili ve spolupráci s Powered by Insights.





©2019 Ecommerce-academy.cz, created with love by Milan, Marek & Ivča