Návod na vytvoření LORA modelu pro Stable Diffusion

LORA model pro Stable Diffusion pro konzistentní charaktery.

LORA (Low-Rank Adaptation) umožňuje snadné přizpůsobení modelů Stable Diffusion bez nutnosti jejich kompletního přetrénování. Tento postup šetří čas, paměť a poskytuje flexibilitu při úpravě AI modelů.

Klíčové body:

  • Výhody LORA: Menší velikost modelu (2–500 MB), rychlejší trénink a nižší nároky na hardware.
  • Požadavky na hardware: Doporučeno GPU s 24 GB VRAM, 64 GB RAM a 100 GB volného úložiště.
  • Příprava datasetu: Obrázky s rozlišením alespoň 512×512 px, konzistentní poměr stran a kvalitní úprava.
  • Tréninkové parametry: Použijte rank 4–32, learning rate 3e-5 až 8e-5 a 2–3 epochy.
  • Použití modelu: Aktivujte model v promptu Stable Diffusion pomocí syntaxe [lora:nazev_modelu:váha].

Rychlé srovnání: LORA vs. Tradiční modely

VlastnostTradiční modelLORA model
Velikost2–7 GB2–500 MB
Nároky na GPUVysokéNízké
Rychlost tréninkuPomaláRychlá

LORA modely výrazně zjednodušují práci s AI a umožňují rychlé přizpůsobení i na méně výkonném hardwaru.

Potřebné nástroje a nastavení

Požadavky na počítač

Pro trénink LORA modelu doporučujeme následující minimální a doporučené specifikace:

KomponentaMinimální požadavkyDoporučené požadavky
GPU paměť12 GB VRAM24 GB VRAM
Operační paměť32 GB RAM64 GB RAM
Úložiště50 GB volného místa100 GB volného místa
GPUNVIDIA řady RTX 20xxNVIDIA RTX 3090

 


Instalace softwaru

  • Python: Stáhněte nejnovější verzi z python.org.
  • PyTorch: Nezbytný framework pro strojové učení.
  • Kohya SS: Nástroj určený pro trénování modelů.
  • AUTOMATIC1111: Webové rozhraní pro Stable Diffusion.

Nastavení Python prostředí

Nejprve vytvořte virtuální prostředí a aktivujte ho:

python -m venv lora-env  
lora-envScriptsactivate  # Pro Windows

Poté aktualizujte pip a nainstalujte potřebné knihovny:

pip install --upgrade pip  
pip install git+https://github.com/huggingface/diffusers  
pip install accelerate wandb  
pip install -r requirements.txt

Ověřte funkčnost GPU akcelerace příkazem:

accelerate config default

Doporučení pro dataset

  • Používejte obrázky s minimálním rozlišením 512×512 pixelů .
  • Zajistěte konzistentní poměr stran u všech tréninkových obrázků.
  • Dataset by měl být vyčištěný a bez chyb.

Tento postup vytvoří pevný základ pro další kroky při tréninku. Následně se zaměřte na přípravu dat.

Sběr a zpracování dat

Kvalitní data jsou nezbytná pro efektivní trénink modelu LORA.

Výběr tréninkových obrázků

Výběr správných obrázků hraje zásadní roli. Dataset by měl obsahovat 10 až 20 obrázků, minimální počet jsou 3 .

Požadavky na obrázky:

  • Rozlišení alespoň 1024×1024 px
  • Podporované formáty: PNG, JPG
  • Konzistentní poměr stran
  • Dobrá ostrost

Pro modely zaměřené na postavy vybírejte fotografie, kde je postava jasně viditelná:

  • Samostatná, bez dalších osob
  • S různými výrazy (např. úsměv, vážný výraz)
  • V podobném věku
  • Bez výrazných doplňků jako sluneční brýle nebo silné líčení

Jakmile máte obrázky vybrané, přistupte k jejich úpravě, aby dataset měl jednotnou kvalitu.

 

Příprava obrázků

Před tréninkem je potřeba obrázky standardizovat:

1. Ořezání a úprava velikosti

  • Ořízněte obrázky na jednotný formát, například 1:1.
  • Zaměřte se na hlavu a část ramen.
  • Zmenšete velikost na 768×768 pixelů .

2. Zlepšení kvality

Kvalitu obrázků lze zvýšit pomocí následujících nástrojů:

  • Topaz pro zlepšení rozlišení
  • StableSR skript v rozhraní AUTOMATIC1111
  • Úpravy ostrosti a kontrastu

Po úpravě obrázky uspořádejte do strukturovaného systému.

Struktura souborů

Použijte tuto strukturu složek:

SložkaObsahFormát
training_imagesHlavní tréninkové obrázkyPNG
validationObrázky pro validaciPNG
metadataPopisky a metadataTXT

Pojmenování souborů:

  • Dodržujte konzistentní schéma názvů (např. model_01.png).
  • Vyhněte se formátům jako HEIC nebo WebP .
  • Přidejte unikátní klíčové slovo pro snadnou identifikaci .

Nakonec všechny soubory zkomprimujte do ZIP archivu . Nastavte přesnost tréninku na hodnotu mezi 0,3 a 0,35 .

Video návod


Průvodce tréninkem LORA modelu

Správné nastavení parametrů hraje důležitou roli při tréninku LORA modelu.

Nastavení tréninku

Pro dosažení dobrých výsledků je třeba věnovat pozornost následujícím parametrům:

ParametrDoporučená hodnotaPoznámka
Network Rank4–32Vyšší hodnoty obvykle nejsou nutné
Network Alpha1 nebo polovina rankuNapříklad při ranku 32 použijte hodnotu 16
Learning Rate3e-5 až 8e-5Začněte s 3e-5
Počet epoch2–3Obvykle postačí

Tato nastavení pomohou modelu dosáhnout lepších výsledků při jeho aplikaci ve Stable Diffusion. Pro trénink doporučujeme použít model optimalizovaný pro režim bf16/fp16, díky čemuž se sníží nároky na VRAM . Při výběru základního modelu zvažte následující:

  • Pro realistické výstupy: SD1.5, SD2.1 nebo SDXL
  • Pro anime nebo kreslený styl: NAI (animefull-final-pruned) nebo SDXL

Spuštění tréninku

  1. Příprava aktivačního tagu
    Vytvořte specifický tag, který bude reprezentovat váš koncept. Tento tag musí být uveden jako první v popisech vašeho datasetu .
  2. Nastavení složky pro trénink
    Složku s tréninkovými daty přejmenujte na formát '3_nazev', což automaticky nastaví opakování na 3.
  3. Monitorování průběhu
    Použijte Tensorboard k sledování průběhu tréninku. Tento nástroj vám pomůže identifikovat přetrénování. Pokud ukládáte checkpointy po každé epoše, průběžně testujte výsledky z různých fází tréninku.

Řešení běžných problémů

Při tréninku se mohou objevit následující problémy:

Přetrénování a nedostatečné natrénování

  • Přetrénovaný model produkuje přesycené obrazy s artefakty.
  • Nedostatečně natrénovaný model nedokáže konzistentně reprodukovat požadovaný koncept.

Únik konceptů
Pro snížení rizika úniku konceptů:

  • Používejte jedinečné aktivační tagy.
  • Nastavte počet opakování datasetu tak, aby byla zachována rovnováha.
  • Vyzkoušejte pivotní ladění pro vytvoření nového embeddingu.

Důležité: Při označování datasetu se zaměřte spíše na falešně negativní označení než na falešně pozitivní, protože ty mohou výrazně ovlivnit kvalitu modelu .

Generujte regularizační obrázky pomocí stejného modelu, VAE, rozlišení a sampleru (DDIM nebo DDPM), vždy s pevným seedem.

Po dokončení tréninku a vyřešení všech problémů přistupte k implementaci modelu ve Stable Diffusion. Následně můžete pokračovat s integrací vašeho LORA modelu do tohoto systému.

Použití LORA modelu ve Stable Diffusion

Jakmile máte svůj LORA model natrénovaný, můžete ho začít používat ve Stable Diffusion.

Načtení LORA modelu

Postup pro implementaci LORA modelu do Stable Diffusion:

  1. Stáhněte soubor LORA modelu a umístěte jej do složky stable-diffusion-webui/models/Lora .
  2. V promptu model aktivujte pomocí syntaxe [lora:nazev_modelu:váha]. Váha určuje, jak moc model ovlivní výstup (např. 1 = plný vliv, 0,5 = poloviční vliv, 0 = deaktivace).

Jakmile je model načten, můžete přejít k testování jeho nastavení a výsledků.

Testování a úprava výsledků

Pro co nejlepší výsledky je klíčové správně nastavit parametry generování. Doporučené hodnoty:

ParametrDoporučená hodnotaPoznámka
Váha LORA0,35 – 1,0Začněte na 0,35 pro LCM-LoRA
CFG škála1,0 – 7,0Pro LCM-LoRA zkuste cca 1,0
Počet kroků4 – 8Platí pro LCM-LoRA

Používejte stejný základní checkpoint jako při tréninku a upravujte váhu podle tabulky, dokud nedosáhnete požadovaných výsledků. Sledujte, zda model věrně reprodukuje zamýšlený koncept.


Tipy pro lepší výsledky

Zde je několik užitečných tipů, jak doladit generování:

  • Ujistěte se, že váš LORA model je kompatibilní s verzí Stable Diffusion, kterou používáte. Při kombinování více modelů postupujte opatrně .
  • Pokud model není viditelný, zkuste obnovit seznam modelů v rozhraní Web UI .
  • Experimentujte s aktivačními klíčovými slovy a váhou modelu, abyste dosáhli požadované kvality.

Pro stabilní výkon doporučujeme pravidelně aktualizovat Stable Diffusion Web UI na aktuální verzi a zachovat konzistentní nastavení mezi fází tréninku a generování obrázků.

Shrnutí

LORA (Low-Rank Adaptation) nabízí efektivní způsob, jak upravit Stable Diffusion bez nutnosti kompletního přetrénování modelu. Díky této technologii lze dosáhnout až 10× rychlejšího výkonu a 4× menší náročnosti na paměť .

Příklady LORA modelů

Typ LORAPříkladVyužití
StylovýCrayon Style LoRA SDXLObrázky s efektem kreseb pastelkami
KonceptuálníSticker Sheet LoRATvorba designů samolepek
ObjektovýDog Example LoRA SDXLGenerování obrázků zaměřených na psy

Pravidelná aktualizace softwaru a experimentování s parametry jsou klíčem k dosažení požadované kvality. Platformy jako Shakker AI navíc umožňují snadné trénování LORA modelů bez nutnosti lokální instalace .

Tento přehled vám poskytne základní informace pro úspěšnou aplikaci LORA modelů ve Stable Diffusion.

 


Jak nainstalovat Stable Diffusion na Windows

Chcete vytvářet obrázky na základě textového zadání přímo na vašem počítači? Stable Diffusion od Stability AI je výkonný nástroj pro generování obrázků pomocí AI, který lze snadno nainstalovat na Windows.

Co potřebujete vědět hned na začátku:

  • Co je Stable Diffusion? Jedná se o open-source nástroj pro generování obrázků pomocí textových příkazů, který funguje na běžném hardwaru.
  • Systémové požadavky:
    • Minimálně: Windows 10, NVIDIA GPU s 4 GB VRAM.
    • Doporučeno: Windows 10/11, NVIDIA GPU s 8+ GB VRAM.
  • Co budete potřebovat:
    • Python 3.10.6
    • Git
    • Aktuální ovladače grafické karty
  • Hlavní výhody:
    • Otevřený zdrojový kód
    • Možnost inpaintingu, outpaintingu a převodu mezi obrázky
    • Funguje i na průměrném hardwaru

Rychlé kroky k instalaci:

  1. Nainstalujte Python a Git, nastavte PATH.
  2. Vytvořte virtuální prostředí a nainstalujte balíčky jako torch, torchvision a transformers.
  3. Stáhněte repozitář AUTOMATIC1111 pomocí Git.
  4. Upravte soubor webui-user.bat podle vaší grafické karty.
  5. Stáhněte modely a umístěte je do správné složky.

Stable Diffusion je ideální pro kreativní projekty jako portréty, digitální umění nebo experimentování s AI. Pokračujte ve čtení a zjistíte detailní kroky, jak tento nástroj zprovoznit.

Systémové požadavky pro Windows

Hardwarové požadavky

Aby Stable Diffusion na Windows běželo hladce, doporučujeme splnit tyto hardwarové požadavky:

KomponentaMinimální požadavkyDoporučené požadavky
Operační systémWindows 10 64-bitWindows 10/11 64-bit
GPUNVIDIA s 4 GB VRAMNVIDIA s 8+ GB VRAM

Nemáte-li dedikovanou grafickou kartu NVIDIA, aplikaci lze provozovat i na procesoru. Některé výkonné procesory nabízejí dostatečný výkon . K dispozici jsou také open-source řešení, jako například OpenVINO, která umožňují efektivní využití CPU .

Softwarové předpoklady

Pro instalaci Stable Diffusion budete potřebovat:

  • Python 3.10.6 – doporučená verze pro zajištění kompatibility.
  • Git – pro stahování a aktualizaci potřebných souborů.
  • Aktuální grafické ovladače NVIDIA, pokud používáte GPU.

Při instalaci Pythonu nezapomeňte zaškrtnout možnost přidat python.exe do proměnné PATH .

Pro lepší výkon na CPU můžete v souboru stable_diffusion_engine.py přidat tento řádek:

self.core.set_property("CPU", {"INFERENCE_NUM_THREADS": 8})

Pokud váš hardware nesplňuje požadavky, můžete využít webovou verzi Stable Diffusion, která nabízí podobné funkce bez nutnosti lokální instalace a náročného hardwaru .

Příprava instalace

Než začnete s instalací Stable Diffusion, je nutné připravit Python prostředí a zajistit instalaci potřebných balíčků.

Instalace Pythonu

Pro správnou funkčnost Stable Diffusion je klíčové mít správně nainstalovaný Python. Zkontrolujte jeho přítomnost příkazem:

python --version

Pokud Python nemáte, stáhněte verzi Python 3.10.6 z oficiálních stránek na Python.org. Během instalace nezapomeňte zaškrtnout možnosti Use admin privileges a Add python.exe to PATH.

Vytvoření virtuálního prostředí

Virtuální prostředí pomáhá izolovat projekt a předcházet konfliktům mezi různými Python aplikacemi . Postup vytvoření:

  1. Spusťte příkazový řádek.
  2. Přesuňte se do složky, kde chcete prostředí vytvořit.
  3. Vytvořte virtuální prostředí příkazem:
    python -m venv sd_env
    
  4. Aktivujte prostředí:
    sd_env\Scripts\activate
    

Instalace potřebných balíčků

Nejprve aktualizujte pip:

python -m pip install --upgrade pip

Poté nainstalujte tyto balíčky:

BalíčekPopis
torchPro strojové učení a akceleraci GPU
torchvisionPro zpracování obrazu
transformersPro práci s AI modely

Tipy pro řešení problémů:

  • Pokud narazíte na chybu s torch, přidejte parametr --skip-torch-cuda-test do webui-user.bat.
  • Vyhněte se instalaci do složek s diakritikou nebo speciálními znaky.
  • Při problémech s GPU zkuste instalaci přes Microsoft Store .

Pro nejlepší výkon doporučujeme používat aktuální ovladače NVIDIA a pravidelně aktualizovat všechny balíčky.

Jakmile je prostředí připraveno, můžete přejít k samotné instalaci Stable Diffusion.

Instalační kroky

Stažení souborů

Nejdříve si stáhněte potřebné soubory pro instalaci Stable Diffusion. Otevřete příkazový řádek a spusťte následující příkazy pro klonování webového rozhraní AUTOMATIC1111:

cd %userprofile%
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

Po dokončení se ve vaší domovské složce vytvoří adresář s názvem stable-diffusion-webui.

Nastavení konfigurace

Aby vše fungovalo hladce, je potřeba upravit konfigurační soubor webui-user.bat. Klikněte na něj pravým tlačítkem a zvolte možnost Upravit. Konkrétní nastavení závisí na velikosti paměti vaší grafické karty:

Paměť GPUDoporučené parametry
12 GB+--xformers
8 GB--medvram --xformers
4 GB--lowvram --xformers

Chcete-li zvýšit rychlost generování, přidejte parametr --opt-sdp-attention. Například, pokud máte 8 GB VRAM, upravený řádek v souboru by mohl vypadat takto:

set COMMANDLINE_ARGS=--opt-sdp-attention --medvram --xformers

Instalace modelu

Nakonec stáhněte základní model Stable Diffusion podle těchto kroků:

  1. Otevřete složku %userprofile%\stable-diffusion-webui\models\Stable-diffusion.
  2. Stáhněte soubor v1-5-pruned-emaonly.ckpt nebo v1-5-pruned-emaonly.safetensors.
  3. Umístěte stažený soubor do uvedené složky.

"Použití parametru --opt-sdp-attention může zrychlit práci s modely Stable Diffusion. Pokud máte méně než 8 GB VRAM, doporučuje se zapnout také volbu --medvram pro efektivnější využití paměti při generování více obrázků." - Stable Diffusion Art

Pokud hledáte další modely, můžete navštívit platformu Civit AI. Specializované modely nalezené tam lze umístit do stejné složky jako základní model.

Pro vzdálený přístup k webovému rozhraní z jiného zařízení přidejte do konfigurace parametr --listen. Pokud narazíte na problémy s generováním (např. chyby NaN), zkuste přidat parametr --no-half.

sbb-itb-6f064b4

Používání Stable Diffusion

Stable Diffusion

Teď, když máte instalaci hotovou, je čas začít pracovat se Stable Diffusion.

Spuštění programu

Otevřete Stable Diffusion dvojklikem na soubor webui-user.bat ve složce stable-diffusion-webui. Při prvním spuštění se automaticky stáhnou a nainstalují všechny potřebné balíčky. Po dokončení tohoto procesu se v příkazovém řádku zobrazí lokální URL adresa, obvykle http://127.0.0.1:7860. Tuto adresu zadejte do webového prohlížeče, abyste se dostali k webovému rozhraní AUTOMATIC1111.

Orientace v rozhraní

Webové rozhraní Stable Diffusion je navrženo tak, aby bylo snadno pochopitelné a přehledné. V horní části najdete sekci „Rychlá nastavení“, kterou můžete přizpůsobit v části Nastavení -> Uživatelské rozhraní -> Seznam rychlých nastavení.

Rozhraní obsahuje několik klíčových prvků: výběr základního modelu, pole pro zadání promptu, nastavení parametrů generování a sekci pro zobrazení výsledků. Pořadí těchto prvků můžete změnit v Nastavení -> Uživatelské rozhraní -> Pořadí prvků UI pro záložky txt2img/img2img.

První generování obrázku

Pro vytvoření svého prvního obrázku postupujte následovně:

  • Základní nastavení
    Nastavte tyto parametry:

    • Počet kroků vzorkování: alespoň 20
    • CFG škála: 7 (vyšší hodnota znamená přesnější dodržení promptu)
    • Velikost obrázku: 512 x 512 pixelů
  • Vytvoření promptu
    Zadejte například tento prompt:

    realistická fotografie bílé kočky sedící na okenním parapetu, měkké denní světlo
    

    A přidejte negativní prompt:

    rozmazané, nízká kvalita, deformace, chybějící končetiny
    

Vyzkoušejte generování více variant stejného promptu a experimentujte s různými styly a nastaveními, dokud nedosáhnete výsledku, který vás uspokojí.

Řešení problémů a výkon

Časté problémy

Problémy s instalací Pythonu

  • Používejte výhradně Python 3.10.6. Novější verze (3.11 a vyšší) mohou způsobovat problémy s kompatibilitou.

Chyby při spuštění

  • GitHub chyby: Pokud se objeví chyba "fatal: detected dubious ownership", klonujte repozitář pomocí příkazového řádku spuštěného pod vaším uživatelským účtem .
  • Chyby knihoven a GPU:
    • Při chybě "ImportError: DLL load failed while importing cv2" znovu nainstalujte OpenCV .
    • Pokud vidíte "RuntimeError: Torch is not able to use GPU", aktualizujte ovladače NVIDIA .

Problémy s pamětí

  • Máte-li pouze 4 GB VRAM, přidejte argument --lowvram do souboru webui-user.bat.
  • Pokud narazíte na chyby NaN, zkuste použít argument --no-half .

Optimalizace rychlosti

Úpravy konfigurace

  • Do souboru webui-user.bat přidejte:
    • --xformers pro rychlejší renderování
    • Nastavte batch size na hodnotu 4
    • Vypněte funkci živého náhledu

Optimalizace pro RTX 4000

Pro grafické karty série RTX 4000 použijte následující nastavení:

--xformers
--opt-sdp-no-mem-attention --no-half-vae --opt-channelslast

Proces aktualizace

Pravidelná aktualizace softwaru pomáhá předcházet problémům a zajistit plynulý chod.

Základní aktualizace

  1. Spusťte příkaz git pull v hlavní složce projektu.
  2. Pokud se objeví chyby, použijte tyto příkazy:
git checkout -f master
git pull

Řešení problémů s aktualizací

  • Smažte složku venv a restartujte aplikaci.
  • Pokud je to nutné, odstraňte složku repositories.
  • U problémových rozšíření smažte příslušné rozšíření ze složky extensions.

"Pokud git pull zobrazuje chybu, je to obvykle způsobeno náhodnou změnou některých souborů. Můžete resetovat složku webui pomocí následujících dvou příkazů: git checkout -f master a poté znovu spustit git pull. Pamatujte, že všechny soubory budou resetovány. Budete muset znovu provést změny v webui-user.bat." - Stable Diffusion Art

Další kroky

Po vyřešení problémů a doladění výkonu je čas přejít k plánování dalších aktivit se Stable Diffusion.

Shrnutí instalace

Než začnete svůj první projekt, ujistěte se, že máte vše připraveno:

  • Python 3.10.6 je nainstalován
  • GPU nastavení bylo úspěšně ověřeno
  • Modely jsou staženy
  • Webové rozhraní funguje bez problémů

Nápady na projekty

Když už máte instalaci za sebou, zkuste se inspirovat těmito kreativními projekty:

Portréty

  • Zkuste vytvořit portréty v různých stylech
  • Naučte DreamBooth pracovat s vašimi vlastními fotografiemi
  • Kombinujte různé umělecké styly do jednoho díla

Digitální umění

  • Navrhněte fantasy postavy s detailními popisy, například „mysterious sorceress, detailed leather clothing with gemstones“
  • Tvořte pixel art v klasickém, isometrickém nebo cyberpunk stylu
  • Vytvářejte krajiny od fantasy světů až po sci-fi scenérie

Zdroje pro další vzdělávání

Chcete-li své dovednosti posunout dál, využijte tyto užitečné zdroje:

Online platformy

Praktické tipy

"Přistupujte k tvorbě promptů jako k iterativnímu procesu. Přidávejte maximálně dva klíčové výrazy najednou a generujte více obrázků pro posouzení jejich efektu." - Stable Diffusion Art

Pro co nejlepší výsledky:

  • Vytvářejte detailní a promyšlené prompty
  • Zkoušejte měnit váhu klíčových slov pomocí () a []
  • Používejte negativní prompty, abyste odstranili nežádoucí prvky


Za 36 hodin režisérem, hudebním tvůrcem a producentem.

Jak se díky AI posunout tam, kde to bylo dříve nemožné.

Tento příběh je inspirací pro všechny, kdo touží po nových způsobech vyjádření, a ukazuje, že s AI je možné dosáhnout úspěchu i tam, kde by to dříve bylo nemožné. Výsledkem je nejen umělecké dílo, ale také nové přístupy k tvorbě, které mění pravidla hry v oblasti umění a kultury.

Je rok 2021 a já se začínám učit s umělou inteligencí. Zatím nevím, co s ní nakonec budu dělat, ale pevně věřím, že to bude mít velký potenciál. Vzdálená vidina je, že mi pomůže udělat pokračovaní mé horrorové adventury s názvem Dark Disharmony, ale jak to tak u mě bývá, věci se vždycky vyvinou trochu jinak, než předpokládám.

Dark Disharmony

Prošel jsem si hromady projektů, a nakonec jsem zůstal u MidJourney pro generování grafiky, které jsem pro náš malý český národ přeložil kompletní příručku. Vždycky u mě fungovalo, že jestli se chci něco naučit musím si udělat zápisky, a tak na svém blogu d3arts.cz vydávám.

Díky mé hlavní práci, kterou je ISP ve společnostni Best-Net si mohu dovolit konečně zakoupit pořádnou grafickou kartu, abych na lokální pracovní stanici mohl rozjet Stable Diffusion a dovolit si ten luxus generovat grafiku bez cenzury a pouze za cenu propálené elektřiny. Díky nastudovaní práce se Stable Diffusion vytvářím za pomocí LoRA modelu a SDXL checkpointů svoji konzistentní AI postavu - ai modelku. Předlohy jsem pro LoRA model jsem si předgeneroval v MidJourney za pomocí obrázkových podnětů - z rrůzných úhlů. Z těchto předloh vytvářím Lenku Baier. Půvabnou blondýnku, která vyhovuje mému estetickému citu.

Lenka Baierová - naše instagramová fitness modelka

Z dalších vytvořených generací zdokonaluji svůj AI model a někdy se snížím i ke faceswapu pomocí ReActor pluginu. Lenka ožívá na sociální síti Instagram, kde mate nové sledující poměrně dráždivým obsahem, abych pak zjistil, že hrát si na influencera a psát si s bandou nadržených followerů není něco, co by mě zrovna naplňovalo. Mimochodem jedem z přátel se do mé modelky zamiloval, a tak jsem přišel o kamaráda, který nerozdýchal to, že Lenka Baier je můj výtvor. V práci s AI se dále vzdělávám a objevuji na Facebooku různé komunity.

Jedna z nich je skupina Cursed AI, kde se lidé baví bizárem, který AI umí vyplivnout. Sám vytvářím vlastní komunitu AI grafici. S rozvojem umělé inteligence různí fantasti a tvůrci clickbaitů, kteří vytváří mysteriózní fotografie z minulosti, a tak se dostáváme k jádru mé nynější tvorby a tím je prompt:

Giant *something*, Kandahar circa 1923

...kterým se skupina Cursed AI baví do té míry, až se stavá toto téma bannovaným a na čas díky těmto restrikcím se stává zapomenutým. Mě ale tato estetika nemyslitelného natolik uchvátila, že jsem pokračoval v jejím rozvíjení.

V roce 2024 spolu s Petrem Marešem a Martino Jurčekovou čistě náhodou pořádáme výstavu AI Galerii Moderního Umění v Hradci Králové – 2045: Human Expiration, kde žiju a vyměňujeme si dojmy a znalosti z AI. Tak jsem se stal součástí umělecké skupiny Homo Digitalis 3.2.1. Výstava má nečekaný úspěch a píše se o nás třeba v české verzi Wired. Petr, je kromě své spisovatelské kariéry také hudebníkem, a tak se dostávám ke generování hudby prostřednictví Udio, se kterým se mi myslím poměrně daří generovat můj oblíbený mikro-žánr a tím je synthwave, což je mix 90-kového diska a nové vlny elektronické hudby. Martina experimentuje s RunwayML pro generování videí. A tak se během volných chvílích, které mi žena poskytuje plně ponořuji do studia těchto projektů.

Human Expiration: 2045 exhibition Hradec Kralove - Wired - Petr Chroustovsky

Díky nástroji Image to Video a dobře vypracovaným promptům si nejdříve v MidJourney předgeneruji databázi obrázků, většinou si vytvořím až dvě sta generací, ze kterých pak prostřednictví RunwayML vytvářím pohyblivé obrázky. A tak se dostáváme k prvnímu singlu s názvem Secrets of Kandahar - Circa 1923. Kde s verzí Gen-2 vytvářím kompletní videoklip a umísťuji jej na svůj YouTube kanál.  

Vítejte ve fantastickém světě Kandaháru. Hudební video realizované za pomoci nástrojů umělé inteligence, kde se nemyslitelně mísí prvky dokumentárních záběrů arabské kultury s bizarně vypadající technologií, hyperkýčem, dadaismem a techno mystikou. 

Jelikož mám za sebou dvě umělecké Školy Aplikované Kybernetiky v HK, terminologie i technologie mi nedělají problém a vytvořené věci jsou už pouze záležitostí mého vlastního vkusu. Nenechte se mýlit, že všechno je jen záležitostí promtů. Dost často sahám do Photoshopu, abych pro nástroj Image to Video vytvořil ideální předlohu rovné mé představě a někdy to sakra bolí. Něž takový záběr použiji předchází mu asi kolem padesáti generací, než jsem spokojený.

Z toho důvodu jsem si spočítal, že u RunwayML se mi vyplatí jít do verze  Unlimited a tak dávám poměrně slušnou sumu na oltář AI, aby se mi dařili opravdu kvalitní výstupy. U MidJourney a Udio je to podobné, a tak jsem se rozhodl, že vytvořím kompletní album. Nicméně představte si, že byste měli vytvořit kompletní klip s normálním štábem a počítačovou grafikou a vytvořit něco podobného klasickou cestou. To jsou úplně jiná čísla.

AI je skvělá, ale nesmíte se bát do ni neinvestovat čas a peníze.

 V Udio Beta projíždím ostatní autory, a koukám na jejich prompty Text to Music a zjišťuji, že je dobré přesně specifikovat hudební nástroje, či syntetizátory, požívat kombinovaní pomocí „Synthwave& Synthpop“ - což není nikde uváděno. Užít „In style of *jméno umělce*“  a používat remixy Inpaint fází skladby, které se mi nezdají. Také je dobré použít konkrétní syntetizátory a jmenovat je jako "synthetizer OB-X, synthetizer CS-80". Rytmičtější skladby mohou mít 128 až 140 BPM, tedy počet úderů za minutu - tepovka, což je dobré jmenovat. Také je dobré specifikova náladovost skladby "playful, passionate, warm, lush, uplifting, lonely" atd. Pokud chcete ovládat zpěv použijte Custom nebo Autogenerated lyrics - "Female/Male vocalist". Opět k dobrému kusu docházím kolem osmdesáti generací, než tam to světýlko cítím. 

Díky zpětné vazbě se taky dozvídám, že existuje něco jako Tísnivé Údolí, a že některé neopodstatněné hejty a zpětné vazby jsou způsobené prostě tím, že téměř dokonalé generace vlastně lidi děsí. Což právě není můj případ naštěstí, a proto je dobré na to pamatovat a umělecky se k tomu postavit tím, že některé věci prostě přiznávám. Mimochodem tento fenomén nám pomáhá přežít, nacházet kazy ve vzoru a zkoumat nesrovnalosti, či vynalézat na základně nesrovnalostí.

Nicméně zpětná vazba mě v následujícím klipu donutila vypracovat příběh a zapojit moji AI modelku jako zpěvačku. Pomocí nástroje Lalal.ai – rozdělovače zvukových stop, oddělím z Udiem vytvořené skladby samotný zpěv. Určitou stopu, pak využiji k Lip-Sync, který RunwayML Gen3-Alpha umí a tak z generovaného videa modelky vpravím do jejich rtů zpěv.

Pomocí distribučních platforem jako je DistroKid dané skladby dostanu na všechny možné hudební paltformy jako jsou.. vezmu to popořadě:  Amazon, Anghami,  iTunes, Apple Music, MediaNet, Boomplay, Deezer, Instagram, Facebook, Adaptr, Flo,  YouTube Music iHeartRadio, Clar Música, JooBox, Kuck Media, NetEase, Qobuz, Pandora, Saavn, Spotify, Tencentu, Tridal, TikTok Music. A odnož distribuční platfomy  DistroVid – platforma pro hudební klipy zase na Vevo, iTunes Video, Apple Music, TikTok Music, Tridal a Boomplay.

Nakonec to nejzajímavější, co se distribuce týče je dostat takové dílo na nějaký festival. S tím pomůže platforma Filmfreeway.com, kde se vyplatí zaplatit si zlaté členství  a po zadání AI do vyhledávání si vybrat festival, kde s trochou štěstí vaše dílo vyberou a zaplatit za přihlášku o něco méně. Já se osobně těším na festival Czech International AI_Film Festival v Praze, které bude letos po třetí v kině Atlas. Popřejte mi štěstí.

Ať se vám to líbí, nebo ne, (r)evoluce ve filmové tvorbě je tady a je poháněna umělou inteligencí.

Jestli jste všestranný umělec, který raději pracuje sám AI se stane vaším nejlepším kolegou, který enormně zvýší vaši produktivitu a doslova zvládne vycucnout veškeré vaše nápady a inspirace. Proto si myslím, že nastává doba „malých“ šikovných lidí, kteří tak dokáží vytvořit opravdu originální a kvalitní díla v nezvykle velkém množství. Já už přidám jen poslední dílo, kterým je singl Giants a na klipu ještě pracuji. 

Jak řekl jeden můj profesor: „Nikdy nevíte, kam vás vítr zavane, a proto se učte všechno.“ A měl pravdu, protože nutná dávka obecné přehledu, dějin umění a termínů je něco, co vás oddělí od ostatních, co pracují s AI stejně jako u vytváření her potřebujete nutné znalosti pokročilé matematiky, protože AI za vás nápad nevymyslí, ale rozhodně ho pomůže vydatně realizovat a já se sní snad jednou dostanu k Dark Disharmony 2. Já už se pomalu teď stávám díky AI Meta-člověkem (kterým se zabýváme na naší výstavě), protože už teď jsem díky ní odstranil spoustu mých nedostatků jako jsou jazyková bariéra, slabé schopnosti programování i nedostatek času na kvalitní tvorbu, který rozděluju i mezi starost o svou rodinu. I tak se mi daří najít čas a posunout tuto AI artovou tvorbou o kousek dál, jak v novém klipu s názvem Saucers.