Za 36 hodin režisérem, hudebním tvůrcem a producentem.

Jak se díky AI posunout tam, kde to bylo dříve nemožné.

Tento příběh je inspirací pro všechny, kdo touží po nových způsobech vyjádření, a ukazuje, že s AI je možné dosáhnout úspěchu i tam, kde by to dříve bylo nemožné. Výsledkem je nejen umělecké dílo, ale také nové přístupy k tvorbě, které mění pravidla hry v oblasti umění a kultury.

Je rok 2021 a já se začínám učit s umělou inteligencí. Zatím nevím, co s ní nakonec budu dělat, ale pevně věřím, že to bude mít velký potenciál. Vzdálená vidina je, že mi pomůže udělat pokračovaní mé horrorové adventury s názvem Dark Disharmony, ale jak to tak u mě bývá, věci se vždycky vyvinou trochu jinak, než předpokládám.

Dark Disharmony

Prošel jsem si hromady projektů, a nakonec jsem zůstal u MidJourney pro generování grafiky, které jsem pro náš malý český národ přeložil kompletní příručku. Vždycky u mě fungovalo, že jestli se chci něco naučit musím si udělat zápisky, a tak na svém blogu d3arts.cz vydávám.

Díky mé hlavní práci, kterou je ISP ve společnostni Best-Net si mohu dovolit konečně zakoupit pořádnou grafickou kartu, abych na lokální pracovní stanici mohl rozjet Stable Diffusion a dovolit si ten luxus generovat grafiku bez cenzury a pouze za cenu propálené elektřiny. Díky nastudovaní práce se Stable Diffusion vytvářím za pomocí LoRA modelu a SDXL checkpointů svoji konzistentní AI postavu - ai modelku. Předlohy jsem pro LoRA model jsem si předgeneroval v MidJourney za pomocí obrázkových podnětů - z rrůzných úhlů. Z těchto předloh vytvářím Lenku Baier. Půvabnou blondýnku, která vyhovuje mému estetickému citu.

Lenka Baierová - naše instagramová fitness modelka

Z dalších vytvořených generací zdokonaluji svůj AI model a někdy se snížím i ke faceswapu pomocí ReActor pluginu. Lenka ožívá na sociální síti Instagram, kde mate nové sledující poměrně dráždivým obsahem, abych pak zjistil, že hrát si na influencera a psát si s bandou nadržených followerů není něco, co by mě zrovna naplňovalo. Mimochodem jedem z přátel se do mé modelky zamiloval, a tak jsem přišel o kamaráda, který nerozdýchal to, že Lenka Baier je můj výtvor. V práci s AI se dále vzdělávám a objevuji na Facebooku různé komunity.

Jedna z nich je skupina Cursed AI, kde se lidé baví bizárem, který AI umí vyplivnout. Sám vytvářím vlastní komunitu AI grafici. S rozvojem umělé inteligence různí fantasti a tvůrci clickbaitů, kteří vytváří mysteriózní fotografie z minulosti, a tak se dostáváme k jádru mé nynější tvorby a tím je prompt:

Giant *something*, Kandahar circa 1923

...kterým se skupina Cursed AI baví do té míry, až se stavá toto téma bannovaným a na čas díky těmto restrikcím se stává zapomenutým. Mě ale tato estetika nemyslitelného natolik uchvátila, že jsem pokračoval v jejím rozvíjení.

V roce 2024 spolu s Petrem Marešem a Martino Jurčekovou čistě náhodou pořádáme výstavu AI Galerii Moderního Umění v Hradci Králové – 2045: Human Expiration, kde žiju a vyměňujeme si dojmy a znalosti z AI. Tak jsem se stal součástí umělecké skupiny Homo Digitalis 3.2.1. Výstava má nečekaný úspěch a píše se o nás třeba v české verzi Wired. Petr, je kromě své spisovatelské kariéry také hudebníkem, a tak se dostávám ke generování hudby prostřednictví Udio, se kterým se mi myslím poměrně daří generovat můj oblíbený mikro-žánr a tím je synthwave, což je mix 90-kového diska a nové vlny elektronické hudby. Martina experimentuje s RunwayML pro generování videí. A tak se během volných chvílích, které mi žena poskytuje plně ponořuji do studia těchto projektů.

Human Expiration: 2045 exhibition Hradec Kralove - Wired - Petr Chroustovsky

Díky nástroji Image to Video a dobře vypracovaným promptům si nejdříve v MidJourney předgeneruji databázi obrázků, většinou si vytvořím až dvě sta generací, ze kterých pak prostřednictví RunwayML vytvářím pohyblivé obrázky. A tak se dostáváme k prvnímu singlu s názvem Secrets of Kandahar - Circa 1923. Kde s verzí Gen-2 vytvářím kompletní videoklip a umísťuji jej na svůj YouTube kanál.  

Vítejte ve fantastickém světě Kandaháru. Hudební video realizované za pomoci nástrojů umělé inteligence, kde se nemyslitelně mísí prvky dokumentárních záběrů arabské kultury s bizarně vypadající technologií, hyperkýčem, dadaismem a techno mystikou. 

Jelikož mám za sebou dvě umělecké Školy Aplikované Kybernetiky v HK, terminologie i technologie mi nedělají problém a vytvořené věci jsou už pouze záležitostí mého vlastního vkusu. Nenechte se mýlit, že všechno je jen záležitostí promtů. Dost často sahám do Photoshopu, abych pro nástroj Image to Video vytvořil ideální předlohu rovné mé představě a někdy to sakra bolí. Něž takový záběr použiji předchází mu asi kolem padesáti generací, než jsem spokojený.

Z toho důvodu jsem si spočítal, že u RunwayML se mi vyplatí jít do verze  Unlimited a tak dávám poměrně slušnou sumu na oltář AI, aby se mi dařili opravdu kvalitní výstupy. U MidJourney a Udio je to podobné, a tak jsem se rozhodl, že vytvořím kompletní album. Nicméně představte si, že byste měli vytvořit kompletní klip s normálním štábem a počítačovou grafikou a vytvořit něco podobného klasickou cestou. To jsou úplně jiná čísla.

AI je skvělá, ale nesmíte se bát do ni neinvestovat čas a peníze.

 V Udio Beta projíždím ostatní autory, a koukám na jejich prompty Text to Music a zjišťuji, že je dobré přesně specifikovat hudební nástroje, či syntetizátory, požívat kombinovaní pomocí „Synthwave& Synthpop“ - což není nikde uváděno. Užít „In style of *jméno umělce*“  a používat remixy Inpaint fází skladby, které se mi nezdají. Také je dobré použít konkrétní syntetizátory a jmenovat je jako "synthetizer OB-X, synthetizer CS-80". Rytmičtější skladby mohou mít 128 až 140 BPM, tedy počet úderů za minutu - tepovka, což je dobré jmenovat. Také je dobré specifikova náladovost skladby "playful, passionate, warm, lush, uplifting, lonely" atd. Pokud chcete ovládat zpěv použijte Custom nebo Autogenerated lyrics - "Female/Male vocalist". Opět k dobrému kusu docházím kolem osmdesáti generací, než tam to světýlko cítím. 

Díky zpětné vazbě se taky dozvídám, že existuje něco jako Tísnivé Údolí, a že některé neopodstatněné hejty a zpětné vazby jsou způsobené prostě tím, že téměř dokonalé generace vlastně lidi děsí. Což právě není můj případ naštěstí, a proto je dobré na to pamatovat a umělecky se k tomu postavit tím, že některé věci prostě přiznávám. Mimochodem tento fenomén nám pomáhá přežít, nacházet kazy ve vzoru a zkoumat nesrovnalosti, či vynalézat na základně nesrovnalostí.

Nicméně zpětná vazba mě v následujícím klipu donutila vypracovat příběh a zapojit moji AI modelku jako zpěvačku. Pomocí nástroje Lalal.ai – rozdělovače zvukových stop, oddělím z Udiem vytvořené skladby samotný zpěv. Určitou stopu, pak využiji k Lip-Sync, který RunwayML Gen3-Alpha umí a tak z generovaného videa modelky vpravím do jejich rtů zpěv.

Pomocí distribučních platforem jako je DistroKid dané skladby dostanu na všechny možné hudební paltformy jako jsou.. vezmu to popořadě:  Amazon, Anghami,  iTunes, Apple Music, MediaNet, Boomplay, Deezer, Instagram, Facebook, Adaptr, Flo,  YouTube Music iHeartRadio, Clar Música, JooBox, Kuck Media, NetEase, Qobuz, Pandora, Saavn, Spotify, Tencentu, Tridal, TikTok Music. A odnož distribuční platfomy  DistroVid – platforma pro hudební klipy zase na Vevo, iTunes Video, Apple Music, TikTok Music, Tridal a Boomplay.

Nakonec to nejzajímavější, co se distribuce týče je dostat takové dílo na nějaký festival. S tím pomůže platforma Filmfreeway.com, kde se vyplatí zaplatit si zlaté členství  a po zadání AI do vyhledávání si vybrat festival, kde s trochou štěstí vaše dílo vyberou a zaplatit za přihlášku o něco méně. Já se osobně těším na festival Czech International AI_Film Festival v Praze, které bude letos po třetí v kině Atlas. Popřejte mi štěstí.

Ať se vám to líbí, nebo ne, (r)evoluce ve filmové tvorbě je tady a je poháněna umělou inteligencí.

Jestli jste všestranný umělec, který raději pracuje sám AI se stane vaším nejlepším kolegou, který enormně zvýší vaši produktivitu a doslova zvládne vycucnout veškeré vaše nápady a inspirace. Proto si myslím, že nastává doba „malých“ šikovných lidí, kteří tak dokáží vytvořit opravdu originální a kvalitní díla v nezvykle velkém množství. Já už přidám jen poslední dílo, kterým je singl Giants a na klipu ještě pracuji. 

Jak řekl jeden můj profesor: „Nikdy nevíte, kam vás vítr zavane, a proto se učte všechno.“ A měl pravdu, protože nutná dávka obecné přehledu, dějin umění a termínů je něco, co vás oddělí od ostatních, co pracují s AI stejně jako u vytváření her potřebujete nutné znalosti pokročilé matematiky, protože AI za vás nápad nevymyslí, ale rozhodně ho pomůže vydatně realizovat a já se sní snad jednou dostanu k Dark Disharmony 2. Já už se pomalu teď stávám díky AI Meta-člověkem (kterým se zabýváme na naší výstavě), protože už teď jsem díky ní odstranil spoustu mých nedostatků jako jsou jazyková bariéra, slabé schopnosti programování i nedostatek času na kvalitní tvorbu, který rozděluju i mezi starost o svou rodinu. I tak se mi daří najít čas a posunout tuto AI artovou tvorbou o kousek dál, jak v novém klipu s názvem Saucers.


Nová vlna AI oper: Revoluce v české operní scéně

Česi používají Suno AI k vytváření oper známých českých bizárů.

V posledním roce se na české YouTube scéně objevuje fenomén, který by byl ještě nedávno považován za science fiction – opery vytvářené za pomoci umělé inteligence. V Suno AI, je totiž možné za pomocí přidání textu a podnětu ke stylu hudby generovat klasické skladby. Tento přístup přináší zcela nové zážitky a Češi se samozřejmě chytli klasických bizárů a virálních videí, jež posouvají hranice toho, co si tradičně představujeme pod pojmem opera. Jako znalci bizáru a milovníku nekorektního humoru mi nedalo, než o tomto comebacku napsat a hodit to s panem Kletbou pěkně na papír.

Bába pod kořenem

Jedním z prvních a nejvíce diskutovaných děl této nové vlny je opera Bába pod kořenem. Tento experimentální projekt využívá AI ke komponování hudby i k vytváření libret, čímž vzniká dílo, které se vymyká tradičním operním schématům. Opera vypráví příběh z bizarní reportáže TV Nova Davida Pika, který zdokumentoval a zdramatizoval banální příběh staré ženy, která se při pitce s kamarády v lese zasekla pod kořenem. Některé hlášky z reportáže zlidověly a paní Zdena si později v Praze otevřela restauraci s názvem Restaurace Kotva – U báby pod kořenem. Temné a tajemné tóny, které AI vygenerovala, perfektně podtrhují atmosféru díla, jež se pohybuje na pomezí mýtu a reality. 

Ondřeji, prosím

Dalším významným projektem je opera Ondřeji, prosím!, která kombinuje jeden s prvních českých virálů a to Drsný rozchod v Praze. Psal se rok 2012, když se světem internetu začalo šířit dnes již legendární a na tehdejší dobu poměrně drsné video, ve kterém se jistý Ondřej rozchází s blonďatou slečnou. Hystericky brečící blondýnka Kristýna ve videu zakřičí zhruba stokrát zlidovělou hlášku „Ondřeji, prosím!“. To je taky námětem této AI opery, kterou shledávám nejpovedenější. Chvála Tesařovi.

Svatba Jiřího Káry

Svatba Jiřího Káry je jednou z nejvíce provokativních a ikonických AI oper, které v Suno vznikly. Jde o satirickou operu inspirovanou životem a svatbou Jiřího Káry - svatby bezdomovců, legendární postavy českého alko undergroundu s drsnou příchutí devadesátek. Jiří Kára zažívá comeback po někalikátem zabanování a znovunahrání především díky práci facebookové skupiny Jiří Kára. Tato opera využívá AI k vytvoření hudebního doprovodu, který kombinuje hlášky ze svatby bezdomovců a klasických operních postupů. Výsledkem je neotřelé a drsné dílo, které nezapomíná ani na Stránskýho vyprcanýho. Čest všem vydlážděným.

Svarta Jump

Zcela jiný přístup pak představuje opera Svarta Jump, která je inspirována skokem otrokovického pablba a tedy vítěze olympiády v jumpování z vejšky jako prase. Video se stalo virálním myslím v roce 2021 tedy za covidu a AI v tomto projektu využívá rozsáhlé databáze lidových melodií a rytmů, které kombinuje s touto bizarní opileckou polosebevraždou.

Oprava slovenského lakatoše

Nesmíme také zapomenout na opravu lakatoše provázenou hysterickými hláškami "Ani očko nenasadíš" nebo argresivními projevy "Nebudu to dělat" až po agresivní výhružky, defeatistické fáze až po smíření slavného bezejmeného opraváře, který byl něvědomky zachycen mikrofonem mobilního telefonu kolem roku 2010, která se nesmazatelně vryla do cache českých databází se slovy "Nebudu to dělat".

Ať je to jak chce, videa se stali populární a Češi opět prokázili svůj charakterový rys smějících se bestií, kteří AI využijí především proto, aby zvětšnili dávno zapomenuté perly českých internetů. V podstatě už neexistuje nic exkluzivního, na co by AI opera nebyla. To všechno ukazuje, jak na nesmrtelnost těchto virálů, které se za nějakou dobu po smazání zase někde objeví, ale i na nepředvídané schopnosti AI s generováním hudby. Navíc je to příležitost jak mladé generaci připomenout tyto bizární klenoty a přitáhnout je zpět ke klasice.


Tísňové údolí a generovaná AI videa

Proč je někoho nesmírně těžké dívat se na umělý vizuál..

Tísňové údolí (anglicky „uncanny valley“) je fenomén, který popisuje negativní reakci člověka na umělou bytost nebo objekt, který je téměř, ale ne zcela lidský. Tento koncept poprvé představil japonský robotik Masahiro Mori v roce 1970. Podle Moriho teorie dochází ke stavu tísňového údolí tehdy, když robot, avatar nebo jiný umělý výtvor vypadá téměř jako člověk, ale stále vykazuje drobné nedokonalosti nebo zvláštnosti, které způsobují pocit nepohodlí či odporu.

Závislost lidských emocí při vnímání robota s proměnlivou mírou antropomorfismu. Osa x představuje míru antropomorfismu od zcela nehumanoidní bytosti po bytost nerozeznatelnou od člověka, osa y zachycuje míru emocí při vnímání takové bytosti lidmi. V počátku je neutrální, směrem nahoru rostou pozitivní a směrem dolů negativní emoce.

Závislost lidských emocí při vnímání robota s proměnlivou mírou antropomorfismu. Osa x představuje míru antropomorfismu od zcela nehumanoidní bytosti po bytost nerozeznatelnou od člověka, osa y zachycuje míru emocí při vnímání takové bytosti lidmi. V počátku je neutrální, směrem nahoru rostou pozitivní a směrem dolů negativní emoce.

Téměř lidští androidi nás děsí. Zjednodušený graf s průběhem od strojového robota s tísňovým údolím až téměř dokonalého zjevu a plně lidského zjevu.  

Tísnivé údolí, někdy též strašidelné údolí, je oblast na pomyslném grafu závislosti polarity lidských emocí při vnímání humanoidů (robotů, počítačem vytvořených trojrozměrných postav, detailně vymodelovaných panenek apod.) podle jejich míry podobnosti s člověkem (antropomorfismu). Míra kladných emocí při vnímání postupně lépe a lépe antropomorfizované bytosti zpočátku stoupá, ale nepředstavuje prostou funkci – od určité míry antropomorfismu klesá až k negativním emocím, aby těsně před metou dokonalé antropomorfizace opět stoupla k maximu. Interval v míře antropomorfismu, jímž obdařeného humanoida člověk vnímá odpudivě, se nazývá tísnivé údolí.

Mozek na funkční magnetické rezonanci při sledování robota, androida a člověka. Kredit: Ayse Pinar Saygin, UC San Diego. Sayginová a spol. natočili videa na nichž Repliee Q2, Japonka, která byla předobrazem podoby aktroidky a pak tentýž robot v syrové podobě bez lidského povrchu, tedy připomínající terminátora, dělají běžné pohyby, jako je mávání, přikyvování, uchopování sklenky s vodou nebo zvedání kousku papíru. Dobrovolníkům nejprve prozradili, kdo je na kterém videu, pak jim je pustili a sledovali jejich mozky funkční magnetickou rezonancí. Nedostižná matka Sheldona Coopera by jistě měla radost.

Tísňové údolí v kontextu generovaných AI videí

V posledních letech se s rozvojem umělé inteligence (AI) a pokročilých algoritmů pro generování videa stává tísňové údolí stále aktuálnějším tématem. AI dnes dokáže generovat realistická videa, která jsou na první pohled k nerozeznání od skutečnosti. Avšak když se tato videa dostanou do bodu, kdy jsou „téměř dokonalá“, ale stále obsahují drobné anomálie – například nepatrně nepřirozené pohyby, zvláštní výrazy obličeje, nebo nesoulad mezi mluveným slovem a pohyby rtů – mohou vyvolat silný pocit nepohodlí nebo dokonce strachu.

Generovaná videa mohou tísňové údolí překonat dvěma způsoby. Prvním je neustálé zdokonalování technologií, až do bodu, kdy budou tyto drobné chyby zcela odstraněny a umělé výtvory budou zcela nerozeznatelné od skutečných lidí. Druhým přístupem je úmyslné ponechání určitých znaků „umělosti“, aby diváci okamžitě rozpoznali, že se jedná o ne-lidskou tvorbu, což snižuje míru nepohodlí.

Tísňové údolí a robotika

Robotika je dalším polem, kde tísňové údolí představuje významnou výzvu. Moderní humanoidní roboti jsou navrhováni tak, aby napodobovali lidské chování, výrazy obličeje a pohyb. Když je však jejich podoba a pohyb příliš realistický, ale ne zcela přesný, mohou vyvolávat nepříjemné pocity u lidí, kteří s nimi přicházejí do styku. Tento jev může mít závažné důsledky pro aplikace, kde je důležitá interakce mezi lidmi a roboty, například v péči o seniory nebo v zákaznickém servisu.

Aby se minimalizoval efekt tísňového údolí, designéři robotů často volí stylizovaný nebo zjednodušený vzhled, který sice připomíná lidské rysy, ale je dostatečně odlišný, aby nevyvolával pocit, že jde o skutečného člověka. Tento přístup je patrný například u robotů typu „Pepper“, kteří mají záměrně zjednodušený a přátelský design.

Budoucnost a etické otázky

Jak generovaná AI videa, tak humanoidní roboti budou v budoucnosti stále častěji překonávat hranice mezi umělým a skutečným. To přináší nejen technologické, ale i etické otázky. Jaký vliv bude mít tísňové údolí na naši psychiku, a jak bychom měli přistupovat k designu těchto technologií, aby byly pro lidi co nejpřirozenější a nejpřijatelnější?

V oblasti AI generovaných videí se také objevuje otázka autenticity a důvěryhodnosti. Jakým způsobem budeme schopni rozpoznat, co je skutečné a co je generováno AI? A jak zajistíme, že tyto technologie nebudou zneužity k šíření dezinformací nebo manipulaci veřejného mínění?

V konečném důsledku je tísňové údolí nejen technickým problémem, ale i hlubokým filozofickým a etickým dilematem, které bude nadále formovat budoucnost robotiky a AI technologií. Rozpoznání a překonání tohoto fenoménu je klíčovým krokem pro vytvoření technologií, které budou sloužit lidem a současně budou respektovat naše přirozené reakce a emocionální potřeby.