Technologie strojového učení, označovaná také jako neuronové sítě, je volně inspirována uspořádáním biologických neuronů v mozku. Jde o algoritmus dobře použitelný ke klasifikaci i generování (nejen) vizuálních dat.
Jakým způsobem lze tuto metodu využít k tvorbě nových děl? Lze její výstupy považovat za kreativní, nebo jde jen o vytváření reprodukcí dle existujícího schématu? A lze vůbec zajistit, aby byla vstupní data pro strojové učení prosta implicitních předsudků, politiky a světonázorů?
V polovině roku 1965 řešili pracovníci americké Library of Congress problém, s nímž se dosud nesetkali. Těžkou hlavu jim dělal list papíru potištěný lámanými úsečkami, abstraktní ilustrace, která jim byla zaslána s žádostí o potvrzení autorství a zařazení do knihovních sbírek. Obrázek pocházel od Michaela Nolla, počítačového vědce a inženýra Bellových laboratoří, který od počátku šedesátých let experimentoval s algoritmickou grafikou. Posuzovaná práce se nazývala Gaussian-Quadratic a vznikla pomocí Nollova programu nahraného na sálový počítač IBM 7090, jenž poté vytvářel náhodně generované geometrické souřadnice, spojoval je přímkami a následně vše tiskl na jednoduchém zařízení připomínajícím dnešní plotr. Kdo je tvůrcem takto „vyrobených“ obrazů? Představitelé instituce se nakonec shodli, že jím je samotný počítač, a sérii ilustrací odmítli zařadit mezi díla lidských autorů. Noll se však tímto rozhodnutím nedal odradit a v reakci zdůraznil, že výstup počítače byl vytvořen programem napsaným člověkem. Kongresová knihovna před tímto argumentem nakonec ustoupila, autorství připsala Nollovi a jeho práci zaevidovala.
Druhá polovina šedesátých a počátek sedmdesátých let jsou v dějinách informatiky známé jako „první léto umělé inteligence“, jako doba, kdy se vědci, inženýři i teoretici napříč obory poprvé intenzivně zajímali o kreativní potenciál výpočetní technologie. Přitažlivé přísliby elektronického mozku se nevyhnuly ani uměleckému světu, přičemž Noll nebyl zdaleka jediným Američanem tvořícím počítačové obrazy a Amerika nebyla zdaleka jedinou zemí, kde se computer art prosadil. Generované grafiky začaly v té době vznikat po celé Evropě; od Západního Německa přes Itálii, Jugoslávii až po Československo.
Tehdejší sen o kreativním stroji se však nenaplnil. Po několika letech experimentů s digitálním „myšlením“ bylo dosaženo jen mizivého pokroku, vize kybernetické budoucnosti se přestaly objevovat na titulních stránkách magazínů, zmizelo nadšení a vyschlo financování. Téma umělé inteligence se uložilo k zimnímu spánku, kde zůstalo až do oblevy a přílivu pozornosti na přelomu osmdesátých a devadesátých let. Druhá zima umělé inteligence nastala kolem roku 2000 a byla spojena s přehnanými očekáváními, která rodící se internet ještě nebyl schopen naplnit. Rozvoj globální sítě a pokračující strmý růst výkonu mikročipů však postupně otevřely nové možnosti digitální kreativity a poslední dekáda umožnila realizaci mnohých vizí, které v šedesátých letech zůstávaly pouze v teoretických úvahách. Planeta se potřetí ve své historii dostala do fáze, kdy se v informačních technologiích hledá řešení (i příčina) velké části problémů prostupujících lidskou společností, včetně těch, které přímo souvisejí s designem a uměním.
V době Michaela Nolla, stejně jako ještě v nedávné minulosti, byla většina programů navrhována jako tzv. expertní systémy, nyní někdy označované zkratkou GOFAI (Good Old-Fashioned Artificial Intelligence). Jednalo se o aplikace do velké míry komponované jako explicitní, kategorické a popisné modely světa, a jak název napovídá, jejich vnitřní mechanismy bývaly odvozeny od znalostí odborníků (například pro hraní šachů, výpočet daňového přiznání nebo dohledání knihy v katalogu). Programátoři se v tomto případě snažili pochopit rozhodovací postup lidského specialisty (šachového hráče, účetního nebo knihovníka) a poté jej kodifikovat ve zdrojovém kódu; obvykle skrze sérii podmínek typu „pokud je vstupem X, pak je výstupem Y“. Stejným způsobem vznikala i někdejší generovaná grafika. Například Nollovy Gaussian-Quadratic byly vykresleny na základě instrukcí, které zněly přibližně takto:
- Náhodně umísti bod na dolní hraně plochy.
- Náhodně umísti bod nad dříve umístěným bodem a propoj oba body linkou.
- Stejným způsobem umísťuj další body, dokud nedosáhneš horní hrany plochy.
- Při dosažení horní hrany plochy náhodně umísti bod na dolní hraně a oba body propoj.
- Toto opakuj X krát.
Tuto procedurální logiku přesně předdefinovaných instrukcí lze vysledovat až k samotným počátkům programátorské profese – už první elektronické počítače byly v podstatě vojenskými expertními systémy, a dokonce i mnohé mechanické matematické stroje 19. století šly tímto způsobem předprogramovat. Od počátku se přitom jednalo o dobře srozumitelnou a výpočetně efektivní metodu, která však u komplexnějších problémů narážela na své limity. Jinými slovy, ne všechny úkoly bylo možné transformovat do seskupení podmínek, a i v případech, kdy to nějakým způsobem šlo, nevznikaly příliš kreativní výstupy, ale spíše mechanická opakování předpřipravených postupů.
V posledních letech se však situace proměnila. Algoritmy dnes dokážou komponovat složité symfonie působící jako „zapomenutá díla“ dávno zemřelých skladatelů, tvořit poezii, psát rozhlasové povídky nebo generovat obrazy nerozeznatelné od fotografií. Programy z oblasti výpočetního designu jsou schopny navrhnout bezpočet tvarových řešení na základě vstupních parametrů, například vymodelovat protézu dle specifických tvarů těla konkrétního člověka nebo karoserii automobilu dle fyzikálních sil působících při jízdě. V roce 2015 představil Leon Gaty technologii Style Transfer přenášející malířský rukopis z vybraného díla na libovolnou fotografii: Ve své prezentaci ukázal nejprve svůj snímek nábřeží v Tübingenu a poté ten samý výjev „namalovaný“ ve stylu slavných obrazů Williama Turnera, Vincenta van Gogha, Edvarda Muncha, Pabla Picassa a Vasilije Kandinského. Na jaře 2019 použil ruský umělec Georg Kraft inteligentní algoritmy, aby automatizovaně domodeloval ztracené kusy antických bust a letos v létě aplikovali podobný mechanismus výzkumníci amsterdamského Rijksmusea, když rekonstruovali nedochované boční díly Rembrandtovy Noční hlídky. Znovu tak vytvořili postranní výjevy, které amsterdamští radní nechali v roce 1715 odříznout, když se jim slavný obraz nevešel na zeď radničního sálu.
Za mnohými z těchto prací stojí technologie strojového učení označovaná jako neuronové sítě. Jde o algoritmus velmi dobře použitelný ke klasifikaci i generování (nejen) vizuálních dat, který je volně inspirován uspořádáním biologických neuronů v mozku. Základem této matematické metody je vícevrstvá síť obsahující statisíce propojených uzlů, z nichž každý má vícero vstupů, avšak pouze jediný výstup. Jednotlivé vstupy přitom nejsou stejně důležité, ale jejich hodnota je určena váhou „naučených“ zkušeností. V základní podobě se jedná o relativně neutrální model, který sám o sobě neobsahuje žádné předdefinované postupy, ale získává své zkušenosti ze vzorových dat. Například k vytvoření neuronové sítě schopné rozpoznávat, zda se jedná o portrétní malbu, je potřeba nejdříve nashromáždit sadu alespoň stovek vzorových obrazů, označit je příznakem „toto jsou portrétní obrazy“ a poté nechat počítač samostatně nalézt abstraktní princip, který v jeho logice díla propojuje. Tím vznikne naučená neuronová síť, která bude schopna posuzovat další plátna a říkat, zda se jedná o portrét, či nikoliv.
Jakým způsobem lze tuto metodu využít k tvorbě nových děl? Jak může počítač vytvořit dosud neexistující portrét? Je-li neuronová síť schopna extrahovat klíčové vlastnosti potřebné pro klasifikaci obrazů, může využít tatáž pravidla i pro generování obrazů nových. Tato myšlenka stála v roce 2014 za vznikem generativních kontradiktorních sítí (GAN), v nichž se klasifikační proces spouští opačným směrem a využívá naučené schéma pro tvorbu nového obsahu. Z náhodného šumu se tímto způsobem vytváří výjev, který se následně klasifikuje a vyhodnocuje se jeho kvalita, tedy zda je stejně „skutečný“ jako vzorová data. Jde v podstatě o cyklický model využívající dvě „soupeřící sítě“ – generátor na jedné straně navrhuje výstup a „naučený“ diskriminátor na straně druhé posuzuje, zda jej přijme, či nikoliv. Zároveň platí, že s každým „odmítnutím“ je generátor schopen se poučit a příště předložit věrohodnější návrh.
Takto postupovali i iniciátoři portrétní série La Famille De Belamy, jejíž titulní plátno se v říjnu 2018 vydražilo v newyorské Christie’s za 400 tisíc dolarů. Edmond De Belamy, fiktivní aristokrat v tmavém kabátě a bílém límci, byl vyobrazen v typické kompozici s netypickým rozostřením a podepsán rovnicí popisující algoritmus, který jej zplodil. Členové francouzské skupiny Obvious využili databázi WikiArt a vybrali z ní 15 tisíc portrétů, z nichž vytvořili vstupní materiál pro strojové učení. Poté nechali algoritmus nezávisle pracovat až do chvíle, kdy byli s kvalitou vygenerovaných portrétů dostatečně spokojeni.
Nezáleží na tom, zda mají algoritmy generovat portréty z 19. století, antické sochy, Bachovy chorály, nebo fotorealistické obrazy kočiček. Princip je vždy stejný, nejdříve se zprocesují studijní data s dostatkem vzorových příkladů a poté už jen stačí nastavit proměnnou s požadovaným počtem výstupů. Chcete tisíc nových Van Goghových obrazů? Žádný problém, zmáčkněte tlačítko a chvilku počkejte.
Lze ale takové výstupy považovat za kreativní, nebo jde jen o vytváření monotónních reprodukcí dle existujícího schématu? Jaká umělecká díla jsou vlastně označována za nápaditá a inovativní? Co přiměje návštěvníky galerie k uznalému pokývání hlavou a recenzenty v Art Antiques k sepsání pochvalných slov? S formulací kreativity je to přibližně stejně „jednoduché“ jako s odpovědí na otázku, co je to umění. Existuje celá řada různých definic, některé o rozsahu tlusté knihy, jiné si vystačí s encyklopedickým heslem. Jedna z těch stručnějších popisuje kreativitu jako „propojení existujících idejí, z nějž vzejde idea nová“. Zastánkyní tohoto kombinatorického výkladu je mimo jiné Margaret Boden, kognitivní vědkyně a výzkumnice umělé inteligence, která zkoumala a kategorizovala jednotlivé situace, z nichž inovativní myšlenky vznikají. Zjednodušeně řečeno, Marcel Duchamp byl se svou Fontánou kreativní, protože začlenil známý předmět do neznámého kontextu, tvůrci seriálu Westworld svými robo-kovboji propojili žánr westernu a sci-fi, designéři švýcarského nože měli záblesk invence, když zkombinovali vícero nástrojů do jednoho objektu a inženýři v Nokii prožili podobný moment, když je kdysi napadlo začlenit fotoaparát do mobilního telefonu.
Propojování rozdílných významů, tvarů a reprezentací je v uměleckém prostředí zcela běžnou metodou práce. Stačí vzpomenout na popartisty, kteří přenášeli symboly konzumní společnosti do galerijních sálu, surrealisty kombinující nejrůznější bytosti a objekty do nových celků, nebo na konstruktivisty využívající náhodu k vytvoření nových kompozic. V rámci této perspektivy je poněkud fádní využívat neuronové sítě, aby z Van Goghových obrazů vygenerovaly další Van Goghovy obrazy nebo z Bachových skladeb další Bachovy skladby. Vstupní data pro strojové učení však není nutné skládat z jednoho typu. Lze s nimi manipulovat a do jejich složení přimíchávat různorodé příměsi. Řečeno slovníkem znalců whiskey, data nemusí být single-malt, mohou být blended.
Na počátku letošního roku představila společnost OpenAI nástroj DALL·E, který dokáže generovat nejrůznější obrazy dle slovního zadání. To by samo o sobě nebylo zas tak zajímavé, kdyby tyto instrukce nemohly obsahovat relativně komplikované požadavky. Do jejich programu lze například vložit větu „navrhni křeslo ve tvaru avokáda“ nebo „nakresli ilustraci fantastické bytosti spojující želvu s žirafou“ a jako odpověď získáte rozsáhlou sadu různých vizualizací. Velká většina z nich navíc dává smysl a najdou se mezi nimi i takové, které by zřejmě obstály před hodnotící komisí na výtvarné škole. Aplikace je schopná kombinovat různé motivy a nabízet neotřelé návrhy právě proto, že její vstupní data byla heterogenní a obsahovala vícero různých námětů.
Kde leží hranice této kombinační kreativity? Šlo by podobným způsobem připravit vstupní datasety i pro komplikovanější témata, například pro postmoderní umění, feministické umění nebo národní umění a poté generovat nová originální díla reprezentující esenci těchto (často problematických) kategorií? Na výstavě AI: All Idiots probíhající v těchto dnech v pražské MeetFactory je možné podobný pokus vidět. Kurátoři přehlídky, kolektiv ScreenSaverGallery, naprogramovali robota, který prošel internetové stránky domácích autorů zařazených do katalogu Artlist a automatizovaně z nich postahoval různé obrázky. Vznikla tak databáze obsahující přes půl milionu snímků představujících vše, co daní autoři publikovali na svých webech, od digitálních reprodukcí fyzických děl přes záznamy z performancí po momentky z vernisáží. Od grafického designu, přes klasickou malbu po site specific díla a multimediální instalace. Tato nesourodá sada následně posloužila jako vzor pro generativní algoritmus, který měl najít jádro českého umění a tvořit díla zachycující podstatu naší národní existence.
Smícháním všech barev na paletě nevznikne duha, ale jakási šedohnědá neurčitá hmota. Podobné je to i se vstupními daty. I kdybychom pominuli skutečnost, že význam současných uměleckých děl je z velké části tvořen kontextem, bez nějž samotná viditelná část nedává smysl, už prostá mediální pestrost musela zákonitě vést ke zmatenému výsledku. Ostatně datoví analytici a programátoři používají rčení „waste-in, waste out“, které reaguje na fakt, že jsou-li vstupní data chybná, ani sebesofistikovanější způsob jejich zpracování z nich nedokáže vytvořit hodnotné výsledky. V MeetFactory tak nenajdete odhalenou podstatu českého umění, ale jen tisíce podivně zmutovaných obrazců. Autoři experimentu si samozřejmě uvědomovali, že jejich metoda nenabídne zázračný klíč k národní identitě, a tak celou výstavu obalili patřičnou mírou nadsázky. Zdařile tím vystihli, jak zavádějící může být využívání neuronových sítí k řešení komplikovaných společenských otázek.
Autoři výstavy AI: All Idiots nejsou jediní, kdo si všimli problémů souvisejících s využíváním inteligentních algoritmů a pokusili se o jejich zviditelnění. Pokud jste na festivalu Ars Electronica 2018 vstoupili do interaktivní instalace Help Me Know the Truth od umělkyně Mary Flanagan, byli jste vyzváni k hodnocení obličejů zobrazovaných na desítkách displejů kolem vás. Na obrazovce se vždy objevil pár podobně vypadajících tváří a jednoduchá otázka typu: Kdo je přátelštější? Kliknutím na displej jste uložili svůj názor a následně se vykreslila další, lehce modifikovaná dvojice. Kdo je mučedník? Kdo je oběť? Kdo je odvážný? Kdo je velkorysý? Kdo je lídr? V tomto duchu pokračoval sled dotazů pod měnícími se anonymními portréty, až se najednou objevila vaše tvář. Třeba u otázky, kdo je terorista. Během vaší přítomnosti si vás stroj vyfotil, přidal do databáze a nyní i váš obraz fungoval jako součást systému, do nějž hosté festivalu ukládali své kulturní stereotypy. Podle nich nakonec algoritmus dokázal vytvořit obraz „dokonalého“ představitele daných předsudků.
Současné generativní algoritmy a technologie rozpoznávání obrazu představují dvě strany téže mince. Inženýři vyvíjející systémy strojového učení slibují vládám i soukromým společnostem, že budou moci z lidského vzhledu získávat nejrůznější informace. Několik firem již nabízí software, který na základě výrazu tváře pomáhá odhalovat osobnostní rysy uchazečů o zaměstnání. V Číně vláda využívá sledovací kamery identifikující etnické menšiny a pro školy vznikají monitorovací systémy, které na základě pohybů obličeje a drobné mimiky detekují děti nedávající pozor. Experimenty využívající počítačové vidění dnes míří nejrůznějším směrem, snaží se klasifikovat, jaké má daná osoba politické názory, výši IQ, sexuální orientaci nebo sklony ke kriminalitě. Za všechny uveďme alespoň práci výzkumníků Xiaolin Wua a Xi Zhanga, kteří v roce 2016 prohlásili, že vycvičili algoritmus pro identifikaci zločinců fungující na základě tvaru jejich obličeje – a to s přesností 89,5 %.
Tyto a podobné pokusy směřují společnost zpět k sociálnímu darwinismu 19. století, kdy vynález fotografie propůjčil vědeckou podobu různým formám frenologie, fyziognomie a eugeniky. Fyziognomové jako Francis Galton a Cesare Lombroso tehdy vytvářeli vzorové obrazy zločinců, studovali chodidla prostitutek, měřili lebky a sestavovali pečlivé archivy označených snímků. To vše ve snaze využít nové technologie k odhalení vizuálních signálů při klasifikaci rasy, zločinnosti a různých odchylek od tehdejších buržoazních ideálů.
Příprava vzorové databáze je kritická záležitost, která rozhoduje o způsobech, jimiž umělá inteligence rozpoznává a interpretuje svět. Označí-li její autor „avokádo“, „křeslo“, „Van Gogha“ nebo „žirafu“, obvykle se nejedná o rozporuplnou činnost. Jak ale ukazují výše zmíněné příklady, existuje také představa, že lze klasifikovat i kategorie typu „kriminálník“ nebo „terorista“, stejně jako emoce (štěstí, smutek, údiv) nebo abstraktní pojmy „svoboda“, „komunismus“ či „české umění“. V těchto případech už vzniká řada kulturních a etických otázek, ne nepodobných tomu, kdyby se autoři rozhodli vycvičit neuronovou síť s cílem tvořit „zvrhlé umění“, „buržoazní umění“ nebo „primitivní umění“. Technicky by zřejmě bylo možné sestavit dataset podle děl vystavených v rámci nacistické přehlídky Entartete Kunst nebo v afrických sbírkách některého z velkých koloniálních muzeí a vycvičený algoritmus pak využívat při produkci (nebo posuzování) dalších uměleckých děl. Uplatňování takových hodnoticích kritérií by však mělo daleko k neutrální matematické auře, která se digitálním algoritmům často přisuzuje. Jednalo by se o pravý opak, o ideologicky zabarvené výstupy, v nichž by byly zakódovány dřívější omyly.
Kate Crawford a Trevor Paglen ve studii Excavating AI tvrdí, že v trénovacím souboru vždy najdeme implicitní předsudky, politiku a světonázory a že vstupní datasety zdaleka nejsou pouhými surovinami pro algoritmy, ale politickými zásahy: „Neexistuje žádný ‚neutrální‘, ‚přirozený‘ nebo ‚apolitický‘ úhel pohledu, na němž by bylo možné postavit tréninková data. Celé shromažďování obrázků i jejich kategorizace a označování je samo o sobě formou politiky. Je plné otázek o tom, kdo může rozhodovat, co obrázky znamenají a jaký druh sociální a politické práce tyto reprezentace vykonávají.“ Práce týmu ScreenSaverGallery i instalace Mary Flanagan s tímto názorem rezonují a zdařile zpochybňují experimenty využívající neuronové sítě ke klasifikaci abstraktních kategorií či osobnostních rysů. Ptají se, jak moc jsou tyto výsledky relevantní a do jaké míry je vůbec vhodné podobné pokusy provádět.
Automatizované křížení křesla s avokádem je pozoruhodný proces, který zřejmě udělá vrásky na čele jen nábytkovým designérům obávajícím se o své pracovní uplatnění. Inženýři v Silicon Valley ale právě implementují takto konstruované technologie do programů s bezpočtem různých zaměření, které promění nejen kreativní práci, ale celou společnost. Tyto aplikace mohou působit autonomně, mohou samostatně vytvářet kreativní výstupy okouzlující publikum, ale je to stále člověk, kdo nastavuje jejich základní logiku. Od doby Michaela Nolla se sice změnila klíčová úloha vývojáře – od explicitní formulace pokynů k přípravě dat pro učící proces –, ale důležitost lidského zásahu zůstává stejná. Je akademickou otázkou, zda na tom či onom výstupu měl větší podíl tvůrce programu, nebo samotný algoritmus, a zda strojové učení je jen bezduchým opakováním naučených vzorů, či novou kreativní avantgardou. Zajímavější jsou otázky hledající limity a nedostatky těchto nových technologií a experimenty odhalující, jak tyto procesy fungují, kdo nastavil pravidla, podle nichž tvoří, a jaké hodnoty, postoje nebo předsudky tím zreprodukoval.
Lukáš Pilka, historik,teoretik umění, digitální designér, stratég a publicista




Napsat komentář