Suno v5.5 - 1.díl: Začínáme

Návod na Suno česky

# Meta tagy, [no vocals], style-of-music pole, MILO-1080 sekvencer, a syntaxe promptu - výzvy.

Co je Suno?

Suno je generativní platforma s umělou inteligencí, která na základě textového popisu vytváří kompletní skladby. Na rozdíl od DAW (digitální audio pracovní stanice - např FL studio, Ableton, Cubase), knihoven samplů nebo nástrojů založených na smyčkách generuje Suno všechny prvky skladby současně: melodii, harmonii, rytmus, instrumentaci, vokály (včetně textu), aranžmá i mix. Stačí popsat, co chcete, a Suno vytvoří hotovou skladbu.

Suno generuje kompletní skladby (zpěv, nástroje, aranžmá a mix) na základě textových zadání. Verze 5.5 produkuje zvuk ve studiové kvalitě s délkou až 8 minut na jedno generování a přidává funkce Voices, Custom Models a adaptivní předvolby My Taste. Osvojte si tři systémy (textové zadání + metatagy + Creative Sliders) a Suno se stane produkčním nástrojem, nikoli jen novinkou. Použijte vlastní režim pro ovládání, metatagy pro strukturu skladby a editor skladeb pro postupné vylepšování. Úroveň Pro (10 $/měsíc nebo 8 $/měsíc při ročním předplatném) umožňuje přístup k verzi V5.5 a komerčním právům. Kredity se nepřevádějí do dalšího období.

Rychlé menu

Co je Suno
Začínáme
Modely a verze
Ceny a kredity
Architektura promptu
Pomocník pro vylepšení promptu
Popisy žánrů a stylů
Stylování vokálů
Instrumentální režim
Přehled metatagů
Strukturální tagy
Instrumentální a vokální tagy
Pokročilé vzory metatagů
Creativní slajdry
Editor skladeb
Covery a remixy
Voices
My Taste v5.5
Generační smyčka
Suno Studio DAW
Separace stemů a export
Integrace s DAW
Míchání žánrů
Vícesekční kompozice
Řetězení promptů
Řešení problémů
Komerční licence
Autorské právo a právní souvislosti
Konkurenti a alternativy
Stav API a integrací
Rychlá referenční karta
Seznam změn
Zdroje

Hlavní body

Pro seriózní práci je nezbytný režim Custom Mode. Režim Simple Mode omezuje ovládací prvky, díky nimž je Suno produkčním nástrojem. Všechny techniky v tomto průvodci předpokládají použití režimu Custom Mode s oddělenými poli - Title fields pro styl, text a název.
Nejde o jeden, ale o tři systémy ovládání. Text zadání určuje hudební charakter. Metatagy řídí aranžmá a strukturu. Kreativní posuvníky utvářejí osobnost generovaného výstupu. Zvládnutí všech tří prvků je tím, co odlišuje použitelné výsledky od náhodných výstupů.
Metatagy jsou dovedností s největším dopadem. Struktura [Verse]/[Chorus]/[Bridge] s parametrizovanými modifikátory ([Verse: šeptaný zpěv, pouze akustická kytara]) vám poskytuje kontrolu nad jednotlivými sekcemi, která se blíží aranžmá na úrovni DAW pouze pomocí textu.
V5.5 je aktuální vlajková loď. V5.5 staví na základech produkční kvality V5 (audio ve studiové kvalitě, přirozený zpěv, skutečné oddělení nástrojů) a přidává hlasy, vlastní modely přizpůsobené vašemu stylu a adaptivní preference My Taste. Pro přístup k V5.5, hlasům a vlastním modelům je vyžadována úroveň Pro (12 $/měsíc nebo 8 $/měsíc při ročním předplatném).
Iterujte, nemodlete se. Generovací smyčka (nápad -> výběr -> vylepšení -> rozšíření -> úprava -> export) obvykle stojí 50–100 kreditů na jednu vyleštěnou skladbu. Počítejte s iteracemi, ne s dokonalostí na první pokus.
Kredity se nepřevádějí do dalšího období, ale dobité kredity neexpirují. Měsíční kredity se resetují při každém zúčtovacím cyklu. Zakoupené dobité kredity zůstávají platné po celou dobu trvání vašeho předplatného, takže je užitečné si je před intenzivními sezeními nashromáždit.

Co můžete vytvořit:

Celé skladby se zpěvem: jakýkoli žánr, jakýkoli jazyk, originální texty nebo texty generované umělou inteligencí
Instrumentální skladby: podkresová hudba, filmová hudba, ambientní skladby
Žánrové experimenty: žánrové fúze, které by jinak vyžadovaly spolupráci několika specializovaných hudebníků
Variace: vygenerujte desítky variant stejného konceptu a vyberte tu nejlepší
Produkční prvky: stopy pro použití v tradičních pracovních postupech DAW

Co Suno neumí:

Není to DAW: Nemixujete, nemasterujete ani neupravujete ručně (ačkoli Studio některé z těchto funkcí přidává)
Není to deterministické: Stejný podnět produkuje pokaždé jiné výsledky - nemá seed podobně jako Udio
Není to knihovna vzorků: Nemůžete izolovat a přesně znovu použít jednotlivé zvuky
Není to neomezené: Generování stojí kredity a kvalita se liší mezi jednotlivými pokusy

Jak si Suno vede v porovnání s tradiční hudební produkcí?

Oblast	Suno	Tradiční hudební produkce
Vstup	Textový prompt + volitelně vlastní text písně	Noty, MIDI, audio nahrávky
Výstup	Kompletní smíchaná skladba	Jednotlivé stopy, které je potřeba namíchat
Čas k prvnímu výsledku	Přibližně 30 sekund	Hodiny až dny
Potřebné hudební znalosti	Schopnost popsat požadovaný styl a výsledek	Hra na nástroj, hudební teorie, mix
Způsob iterace	Nový prompt, úprava částí skladby, nastavení sliderů	Nové nahrávání, přepracování aranže, nový mix
Maximální délka	8 minut na jedno vygenerování, s možností prodloužení	Bez omezení

Začínáme

Vytvořte si účet na suno.com. Bezplatná verze nabízí 50 kreditů denně (přibližně 10 skladeb, obvykle pět dávek po dvou skladbách).
Nejprve vyzkoušejte jednoduchý režim. Zadejte krátký popis, například „veselá indie rocková skladba o výletu autem“, a klikněte na „Vytvořit“. Suno automaticky vygeneruje text, melodii, aranžmá a vokály.
Pro větší kontrolu přepněte do režimu „Custom Mode“. Režim „Custom Mode“ rozděluje zadání do jednotlivých polí:
Styl hudby: Žánr - Genre, nálada - Mood, popis nástrojového obsazení
Text: Váš text s metatagy pro strukturu
Název: Název skladby
Poslechněte si oba výstupy. Suno vygeneruje dvě varianty pro každou skladbu. Vyberte tu, která více odpovídá vašim představám, a poté ji vylepšete.
Pomocí funkce „Extend“ můžete skladbu dále rozvíjet nad rámec původního výstupu, nebo pomocí „Song Editor“ nahradit konkrétní části.

Jak používat tohoto průvodce

Jste…	Začněte tady	Potom prozkoumejte
Úplný začátečník v Suno	Začínáme, Architektura promptu	Přehled metatagů, Popisy žánrů a stylů
Běžný uživatel, který chce lepší výsledky	Architektura promptu, Creative Sliders	Pokročilé vzory metatagů, Řešení problémů
Produkujete hudbu k vydání	Generační smyčka, Suno Studio DAW	Integrace s DAW, Komerční licence
Porovnáváte Suno s alternativami	Co je Suno?, Konkurenti a alternativy	Stav API a integrací, Autorské právo a právní souvislosti

Přehled rozhraní

Webové rozhraní Suno nabízí dva hlavní režimy tvorby:

Jednoduchý režim - Simple mode: Jedno textové pole. Popište skladbu přirozeným jazykem. Suno odvodí žánr, napíše text a vygeneruje vše ostatní. Hodí se k experimentování, ale není přesné.

Vlastní režim - Custom mode: Tři samostatná pole (Styl, Text, Název) plus kreativní posuvníky. Vlastní režim je místem, kde se odehrává seriózní práce. Pole Styl přijímá žánr a popisky produkce. Pole Text přijímá text s metatagy. Posuvníky řídí generování osobně

Začněte s režimem „Custom“. Režim „Simple“ je sice praktický, ale postrádá ovládací prvky, díky kterým je Suno užitečné pro produkční práci. Všechny postupy v tomto návodu předpokládají použití režimu „Custom“.

Užíváš si návod?

PODPOŘ MĚ NA PATREONU

Modely a verze

Suno se od svého spuštění velmi rychle vyvíjelo. Každá nová verze přinesla výrazné zlepšení kvality, ale dostupnost jednotlivých modelů se liší podle typu předplatného.

Časová osa verzí

Ver	Vydání	Hlavní vylepšení
V2	podzim 2023	První veřejný model. Krátké klipy přibližně 30 sekund, omezený rozsah žánrů, zřetelné AI artefakty.
V3	březen 2024	Prodloužení skladeb na 2 minuty. Lepší srozumitelnost vokálů. Rozšířené pokrytí žánrů.
V3.5	léto 2024	Lepší mix, méně artefaktů, přirozenější vokály.
V4	19. listopadu 2024	Výrazný kvalitativní skok. Generování až 4minutových skladeb, vícejazyčné vokály, funkce Covers, separace do 2 stemů.
V4.5	1. května 2025	Jednorázové generování až 8 minut místo 4 minut, Creative Sliders pro nastavení Weirdness a Style Influence, Prompt Enhancement Helper, přesnější práce se žánry, vylepšené vokály.
V4.5-All	konec roku 2025	Model pro bezplatnou úroveň. Kombinuje vylepšení V4.5 se širší dostupností.
V5	září 2025	Zvuk ve studiové kvalitě, vyšší kvalita masteringu, Suno Studio DAW, separace do 12 stemů, Persona Voices. Interní název: chirp-crow.
V5.5	26. března 2026	Aktuální vlajkový model. Voices s ověřením pro Pro/Premier, Custom Models až 3 na jednoho předplatitele Pro/Premier, adaptivní systém preferencí My Taste pro všechny uživatele.

Aktuální přístup k modelům

Úroveň	Přístup k modelům	Poznámky ke kvalitě
Free	V4.5-All	Dobrá kvalita, ale znatelně slabší než V5.5 v přirozenosti vokálů a čistotě mixu. Bez Voice Cloning a Custom Models. My Taste je dostupné.
Pro – 10 $ / měsíc	V5.5	Studiová kvalita. Voices, až 3 Custom Models, My Taste.
Premier – 30 $ / měsíc	V5.5 + Studio	Stejná kvalita generování jako u Pro, navíc Suno Studio DAW. Voices, až 3 Custom Models, My Taste.

Ceník a kredity

Ceny společnosti Suno se mohou změnit bez předchozího upozornění. Aktuální sazby najdete na stránkách suno.com/pricing

Porovnání tarifů

Funkce	Free	Pro – 10 $ / měsíc	Premier – 30 $ / měsíc
Roční platba	N/A	8 $ / měsíc, tedy 96 $ / rok	24 $ / měsíc, tedy 288 $ / rok
Kredity	50 denně	2 500 měsíčně	10 000 měsíčně
Model	V4.5-All	V5.5	V5.5
Zahrnuté skladby	10 denně	až 500 měsíčně	až 2 000 měsíčně
Současně generované skladby	4 ve sdílené frontě	10 v prioritní frontě	10 v prioritní frontě
Limit pro nahrání audia uvedený na cenové stránce	až 8 minut	až 30 minut	až 30 minut
Song Editor	omezeně	plný přístup	plný přístup
Covers / Remixes	ne	ano	ano
Persona Voices	ne	ano	ano
Voice Cloning	ne	ano	ano
Custom Models	ne	až 3	až 3
My Taste	ano	ano	ano
Suno Studio	ne	ne	ano
Stem Separation	2 stemy	2 stemy + 12 stemů	2 stemy + 12 stemů
Komerční použití	ne	ano	ano
Prioritní generování	ne	ano	ano
Převod kreditů do dalšího období	N/A	ne	ne
Dokoupení kreditů	ne	ano	ano

Ekonomika kreditů

Každá skladba stojí přibližně 5 kreditů. Typická akce „Vytvořit“ vygeneruje dvě varianty skladby, takže si na sadu dvou skladeb naplánujte asi 10 kreditů. 2 500 kreditů měsíčně v rámci předplatného Pro vystačí až na 500 skladeb.

Postupy pro efektivní využívání kreditů: - Používejte režim „Custom“ (Vlastní) se specifickými zadáními, abyste omezili počet zbytečných generací. - Rozšiřujte slibné skladby, místo abyste je generovali znovu od začátku. - Používejte editor skladeb k opravě jednotlivých částí, místo abyste generovali celé skladby znovu. - Šetřete kredity tím, že před generováním upřesníte zadání stylu.

Měsíční kredity se nepřevádějí do dalšího měsíce. Nevyužité kredity na konci zúčtovacího období propadají. Naplánujte si proto své generování odpovídajícím způsobem.

Bonusové denní kredity po vyčerpání měsíčního limitu. Jakmile se vaše měsíční kredity vyčerpají, placení předplatitelé obdrží 50 bonusových kreditů denně až do dalšího zúčtovacího období, což je stejný denní limit jako u bezplatné verze. Tím se zabrání úplnému zastavení generování na konci měsíce, i když se jedná o významné snížení oproti měsíčnímu limitu (50/den vs. ~83/den pro Pro, ~333/den pro Premier).

Doplňkové kredity neexpirují, dokud je vaše předplatné aktivní. K využití zakoupených doplňkových kreditů je nutné aktivní předplatné. Pokud předplatné zrušíte, doplňkové kredity se stanou nepoužitelnými, dokud se znovu nepřihlásíte k odběru. Díky této trvalosti jsou doplňkové kredity užitečné pro zásoby před intenzivními produkčními relacemi

2. Díl - prompt engineering

Stability.ai Stable Diffusion tvorba LORA modelu

Návod na vytvoření LORA modelu pro Stable Diffusion

LORA (Low-Rank Adaptation) umožňuje snadné přizpůsobení modelů Stable Diffusion bez nutnosti jejich kompletního přetrénování. Tento postup šetří čas, paměť a poskytuje flexibilitu při úpravě AI modelů.

Klíčové body:

Výhody LORA: Menší velikost modelu (2–500 MB), rychlejší trénink a nižší nároky na hardware.
Požadavky na hardware: Doporučeno GPU s 24 GB VRAM, 64 GB RAM a 100 GB volného úložiště.
Příprava datasetu: Obrázky s rozlišením alespoň 512×512 px, konzistentní poměr stran a kvalitní úprava.
Tréninkové parametry: Použijte rank 4–32, learning rate 3e-5 až 8e-5 a 2–3 epochy.
Použití modelu: Aktivujte model v promptu Stable Diffusion pomocí syntaxe [lora:nazev_modelu:váha].

Rychlé srovnání: LORA vs. Tradiční modely

Vlastnost	Tradiční model	LORA model
Velikost	2–7 GB	2–500 MB
Nároky na GPU	Vysoké	Nízké
Rychlost tréninku	Pomalá	Rychlá

LORA modely výrazně zjednodušují práci s AI a umožňují rychlé přizpůsobení i na méně výkonném hardwaru.

Potřebné nástroje a nastavení

Požadavky na počítač

Pro trénink LORA modelu doporučujeme následující minimální a doporučené specifikace:

Komponenta	Minimální požadavky	Doporučené požadavky
GPU paměť	12 GB VRAM	24 GB VRAM
Operační paměť	32 GB RAM	64 GB RAM
Úložiště	50 GB volného místa	100 GB volného místa
GPU	NVIDIA řady RTX 20xx	NVIDIA RTX 3090

Instalace softwaru

Python: Stáhněte nejnovější verzi z python.org.
PyTorch: Nezbytný framework pro strojové učení.
Kohya SS: Nástroj určený pro trénování modelů.
AUTOMATIC1111: Webové rozhraní pro Stable Diffusion.

Nastavení Python prostředí

Nejprve vytvořte virtuální prostředí a aktivujte ho:

python -m venv lora-env  
lora-env\Scripts\activate  # Pro Windows

Poté aktualizujte pip a nainstalujte potřebné knihovny:

pip install --upgrade pip  
pip install git+https://github.com/huggingface/diffusers  
pip install accelerate wandb  
pip install -r requirements.txt

Ověřte funkčnost GPU akcelerace příkazem:

accelerate config default

Doporučení pro dataset

Používejte obrázky s minimálním rozlišením 512×512 pixelů.
Zajistěte konzistentní poměr stran u všech tréninkových obrázků.
Dataset by měl být vyčištěný a bez chyb.

Tento postup vytvoří pevný základ pro další kroky při tréninku. Následně se zaměřte na přípravu dat.

Sběr a zpracování dat

Kvalitní data jsou nezbytná pro efektivní trénink modelu LORA.

Výběr tréninkových obrázků

Výběr správných obrázků hraje zásadní roli. Dataset by měl obsahovat 10 až 20 obrázků, minimální počet jsou 3.

Požadavky na obrázky:

Rozlišení alespoň 1024×1024 px
Podporované formáty: PNG, JPG
Konzistentní poměr stran
Dobrá ostrost

Pro modely zaměřené na postavy vybírejte fotografie, kde je postava jasně viditelná:

Samostatná, bez dalších osob
S různými výrazy (např. úsměv, vážný výraz)
V podobném věku
Bez výrazných doplňků jako sluneční brýle nebo silné líčení

Jakmile máte obrázky vybrané, přistupte k jejich úpravě, aby dataset měl jednotnou kvalitu.

Příprava obrázků

Před tréninkem je potřeba obrázky standardizovat:

1. Ořezání a úprava velikosti

Ořízněte obrázky na jednotný formát, například 1:1.
Zaměřte se na hlavu a část ramen.
Zmenšete velikost na 768×768 pixelů.

2. Zlepšení kvality

Kvalitu obrázků lze zvýšit pomocí následujících nástrojů:

Topaz pro zlepšení rozlišení
StableSR skript v rozhraní AUTOMATIC1111
Úpravy ostrosti a kontrastu

Po úpravě obrázky uspořádejte do strukturovaného systému.

Struktura souborů

Použijte tuto strukturu složek:

Složka	Obsah	Formát
`training_images`	Hlavní tréninkové obrázky	PNG
`validation`	Obrázky pro validaci	PNG
`metadata`	Popisky a metadata	TXT

Pojmenování souborů:

Dodržujte konzistentní schéma názvů (např. model_01.png).
Vyhněte se formátům jako HEIC nebo WebP.
Přidejte unikátní klíčové slovo pro snadnou identifikaci.

Nakonec všechny soubory zkomprimujte do ZIP archivu. Nastavte přesnost tréninku na hodnotu mezi 0,3 a 0,35.

sbb-itb-6f064b4

Průvodce tréninkem LORA modelu

Správné nastavení parametrů hraje důležitou roli při tréninku LORA modelu.

Nastavení tréninku

Pro dosažení dobrých výsledků je třeba věnovat pozornost následujícím parametrům:

Parametr	Doporučená hodnota	Poznámka
Network Rank	4–32	Vyšší hodnoty obvykle nejsou nutné
Network Alpha	1 nebo polovina ranku	Například při ranku 32 použijte hodnotu 16
Learning Rate	3e-5 až 8e-5	Začněte s 3e-5
Počet epoch	2–3	Obvykle postačí

Tato nastavení pomohou modelu dosáhnout lepších výsledků při jeho aplikaci ve Stable Diffusion. Pro trénink doporučujeme použít model optimalizovaný pro režim bf16/fp16, díky čemuž se sníží nároky na VRAM. Při výběru základního modelu zvažte následující:

Pro realistické výstupy: SD1.5, SD2.1 nebo SDXL
Pro anime nebo kreslený styl: NAI (animefull-final-pruned) nebo SDXL

Spuštění tréninku

Příprava aktivačního tagu
Vytvořte specifický tag, který bude reprezentovat váš koncept. Tento tag musí být uveden jako první v popisech vašeho datasetu.
Nastavení složky pro trénink
Složku s tréninkovými daty přejmenujte na formát '3_nazev', což automaticky nastaví opakování na 3.
Monitorování průběhu
Použijte Tensorboard k sledování průběhu tréninku. Tento nástroj vám pomůže identifikovat přetrénování. Pokud ukládáte checkpointy po každé epoše, průběžně testujte výsledky z různých fází tréninku.

Řešení běžných problémů

Při tréninku se mohou objevit následující problémy:

Přetrénování a nedostatečné natrénování

Přetrénovaný model produkuje přesycené obrazy s artefakty.
Nedostatečně natrénovaný model nedokáže konzistentně reprodukovat požadovaný koncept.

Únik konceptů
Pro snížení rizika úniku konceptů:

Používejte jedinečné aktivační tagy.
Nastavte počet opakování datasetu tak, aby byla zachována rovnováha.
Vyzkoušejte pivotní ladění pro vytvoření nového embeddingu.

Důležité: Při označování datasetu se zaměřte spíše na falešně negativní označení než na falešně pozitivní, protože ty mohou výrazně ovlivnit kvalitu modelu.

Generujte regularizační obrázky pomocí stejného modelu, VAE, rozlišení a sampleru (DDIM nebo DDPM), vždy s pevným seedem.

Po dokončení tréninku a vyřešení všech problémů přistupte k implementaci modelu ve Stable Diffusion. Následně můžete pokračovat s integrací vašeho LORA modelu do tohoto systému.

Použití LORA modelu ve Stable Diffusion

Jakmile máte svůj LORA model natrénovaný, můžete ho začít používat ve Stable Diffusion.

Načtení LORA modelu

Postup pro implementaci LORA modelu do Stable Diffusion:

Stáhněte soubor LORA modelu a umístěte jej do složky stable-diffusion-webui/models/Lora.
V promptu model aktivujte pomocí syntaxe \[lora:nazev_modelu:váha\]. Váha určuje, jak moc model ovlivní výstup (např. 1 = plný vliv, 0,5 = poloviční vliv, 0 = deaktivace).

Jakmile je model načten, můžete přejít k testování jeho nastavení a výsledků.

Testování a úprava výsledků

Pro co nejlepší výsledky je klíčové správně nastavit parametry generování. Doporučené hodnoty:

Parametr	Doporučená hodnota	Poznámka
Váha LORA	0,35 – 1,0	Začněte na 0,35 pro LCM-LoRA
CFG škála	1,0 – 7,0	Pro LCM-LoRA zkuste cca 1,0
Počet kroků	4 – 8	Platí pro LCM-LoRA

Používejte stejný základní checkpoint jako při tréninku a upravujte váhu podle tabulky, dokud nedosáhnete požadovaných výsledků. Sledujte, zda model věrně reprodukuje zamýšlený koncept.

Tipy pro lepší výsledky

Zde je několik užitečných tipů, jak doladit generování:

Ujistěte se, že váš LORA model je kompatibilní s verzí Stable Diffusion, kterou používáte. Při kombinování více modelů postupujte opatrně.
Pokud model není viditelný, zkuste obnovit seznam modelů v rozhraní Web UI.
Experimentujte s aktivačními klíčovými slovy a váhou modelu, abyste dosáhli požadované kvality.

Pro stabilní výkon doporučujeme pravidelně aktualizovat Stable Diffusion Web UI na aktuální verzi a zachovat konzistentní nastavení mezi fází tréninku a generování obrázků.

Shrnutí

LORA (Low-Rank Adaptation) nabízí efektivní způsob, jak upravit Stable Diffusion bez nutnosti kompletního přetrénování modelu. Díky této technologii lze dosáhnout až 10× rychlejšího výkonu a 4× menší náročnosti na paměť.

Klíčové kroky

Příprava dat: Zajistěte kvalitní dataset obrázků s jednotnými poměry stran, například 16:9 nebo 1:1.
Nastavení trénování: Přizpůsobte tréninková nastavení podle doporučených parametrů.
Testování a optimalizace: U LCM-LORA modelů používejte nízké hodnoty CFG (1–2) a omezte počet kroků vzorkování na 4.

Tyto kroky jsou základem pro dosažení kvalitních výsledků.

"LoRA modely jsou zásadními nástroji pro doplnění Flux AI checkpoint modelů. Umožňují Fluxu generovat obsah, na který nebyl trénován, například umělecké styly nebo konkrétní obličeje." – Stable Diffusion Art

Příklady LORA modelů

Typ LORA	Příklad	Využití
Stylový	Crayon Style LoRA SDXL	Obrázky s efektem kreseb pastelkami
Konceptuální	Sticker Sheet LoRA	Tvorba designů samolepek
Objektový	Dog Example LoRA SDXL	Generování obrázků zaměřených na psy

Pravidelná aktualizace softwaru a experimentování s parametry jsou klíčem k dosažení požadované kvality. Platformy jako Shakker AI navíc umožňují snadné trénování LORA modelů bez nutnosti lokální instalace.

Tento přehled vám poskytne základní informace pro úspěšnou aplikaci LORA modelů ve Stable Diffusion.

Runway ML - generování videa - návod česky

Příručka pro Runway - 1. Základy promtingu

RunwayML - základy práce generování videí s metodou text to video s verzí Gen3- Alpha.

Ještě něž vás uvedu do zádkladů podněcovaní a práci s umělou inteligencí pro generování filmu a videa s RunwayML, řekněme si nejdříve několik důležitých faktů a tipů. Jak si můžeme všimnout zkratky v názvu ML, což znamená strojové učení (machine learning) Runway je jedna z nejlepší platforem, která se velmi rychle vyvíjí. To znamená, že pokud nezvládla udělat nějaký záběr dnes, zkuste to zítra, možná už se to naučila. Dalším postřehem ke konzistentnosti vašich videí je možnost používat obrázkové výzvy, kde zadáte první a poslední snímek záběru a Runway vám generuje to mezi obrázky na základě vašeho textového podnětu. Tím se můžete dostat k velice konkrétním realizací vaší představy nebo scénáře.

Pro generování obrázkových podnětů stále doporučuju online platformu MidJourney - návod na blogu najdete. Stejně jako MJ, Runway nechápe gramatiku, takže s vysvětlováním pomocí gramatických oslích můstků typu na "začátku udělej něco a pak udělej tohle" příliš nepochodíte. Její NLP (Natural Language Processing) může porozumět textu na základě analýzy vstupu pro extrakci významu, klíčových slov nebo sentimentu.

Další praktickou informací, která vám ušetří dost peněz je, že na hraní tu není moc prostor. Hraní je za paywallem. Nemá smysl kupovat si kredity, protože ty vystřílíte zázračně rychle. Nekupujte si kredity. Jestli to s Runway myslíte vážně, zaplaťte si Unlimited přístup na celý rok a naučte se s ní dokonale. Garantuju vám, že nebudete mít okousané nehty od toho, jestli se generování povede (pro mě je jeden úspěšný záběr 10-20 generování) a navíc můžete používat režim Gen3-Turbo, což ušetří i spoustu času. Toť zatím vše pojďme se podívat, jak funguje promting.

K zadávání obvykle raději používám překladač Deepl, potom si přeložené zadání upraví do pro AI srozumitelnější iterace.

Rychlé menu

Gen-3 Alpha má poměrně nekonečný potenciál, abyste mohli realizovat své umělecké vize. Vytvoření silného podnětu- promptu, který zprostředkuje scénu, je klíčem ke generování videa v souladu s vaším konceptem.
Tento článek se zabývá různými ukázkovými strukturami, klíčovými slovy a tipy na podněty, které vám pomohou začít pracovat s Gen-3 Alpha. Jedná se pouze o příklady - nebojte se při uvádění svých nápadů do života experimentovat.

Struktury podnětů

Základní textový podnět

Pouze textové podněty jsou nejúčinnější, pokud se řídí jasnou strukturou, která rozděluje podrobnosti o scéně, objektu a pohybu kamery do samostatných částí. Použití následující struktury by mělo pomoci zajistit konzistentní výsledky při seznamování se s aplikací Gen-3 Alpha:

[pohyb kamery]: [vytvoření scény]. [doplňující informace].
[camera movement]: [establishing scene]. [additional details].

Při použití této struktury by vaše výzva pro ženu stojící v tropickém deštném pralese mohla vypadat takto:

Statický záběr z nízkého úhlu: Kamera je natočena pod úhlem na ženu v oranžovém oblečení, která stojí v tropickém deštném pralese s barevnou flórou. Dramatická obloha je zatažená a šedá.
Low angle static shot: The camera is angled up at a woman wearing all orange as she stands in a tropical rainforest with colorful flora. The dramatic sky is overcast and gray.

Opakování nebo posilování klíčových slov a myšlenek v různých částech podnětu může pomoci zvýšit efekt ve výstupu. Můžete například poznamenat, že kamera rychle prolétá scénami v hyper-rychlém záběru. Snažte se, aby váš podnět byl zaměřen na to, co by mělo být ve scéně. Například byste mohli vyzvat k zobrazení jasné oblohy spíše než oblohy bez mraků.

Základní výzva obrázek + text

Při použití vstupních obrázků se zaměřte spíše na popis pohybu, který byste chtěli na výstupu vidět, než na obsah obrázku. Například při použití vstupního obrázku, který obsahuje postavu, můžete zkusit následující výzvu:

Subjekt vesele pózuje, její ruce tvoří znak míru.
Subject cheerfully poses, her hands forming a peace sign.

Použití textového podnětu, který se výrazně liší od vstupního obrázku, může vést k neočekávaným výsledkům. Mějte na paměti, že složité přechody scén mohou vyžadovat více iterací k dosažení požadovaného výstupu.

Iterace je proces opakování určitého postupu nebo operace, obvykle za účelem přiblížení se k nějakému cíli nebo dosažení určitého výsledku

Ukázkové výzvy

Plynulé přechody

Nepřetržité záběry FPV v hyperrychlosti: Kamera plynule prolétá ledovcovým kaňonem do zasněné krajiny mraků.
Continuous hyperspeed FPV footage: The camera seamlessly flies through a glacial canyon to a dreamy cloudscape.

Pohyb kamery

Svítící oceán v noci s bioluminiscenčními tvory pod vodou. Kamera začíná makro záběrem svítící medúzy zblízka a poté se rozšíří a odhalí celý oceán osvětlený různými svítícími barvami pod hvězdnou oblohou. Pohyb kamery: Začněte makro záběrem medúzy a poté se jemně stáhněte dozadu a nahoru, abyste ukázali svítící oceán.
A glowing ocean at night time with bioluminescent creatures under water. The camera starts with a macro close-up of a glowing jellyfish and then expands to reveal the entire ocean lit up with various glowing colors under a starry sky. Camera Movement: Begin with a macro shot of the jellyfish, then gently pull back and up to showcase the glowing ocean.

Textové titulní karty

Titulní obrazovka s dynamickým pohybem. Scéna začíná u stěny pokryté barevnými barvami. Náhle se na zeď vylije černá barva a vytvoří slovo „Runway“. Kapající barva je detailní a texturovaná, vycentrovaná, vynikající filmové osvětlení.
A title screen with dynamic movement. The scene starts at a colorful paint-covered wall. Suddenly, black paint pours on the wall to form the word "Runway". The dripping paint is detailed and textured, centered, superb cinematic lighting.

Klíčová slova podnětů

Klíčová slova mohou být přínosná pro dosažení specifických stylů ve vašem výstupu. Zajistěte, aby klíčová slova byla v souladu s vaší celkovou výzvou, díky čemuž budou ve vašem výstupu lépe patrná.

Například zařazení klíčových slov o struktuře pleti by nebylo přínosné pro širokoúhlý záběr, kde kamera není úzce zaměřena na obličej. Širokoúhlému záběru by naopak mohly prospět další podrobnosti o prostředí.

Při zachování této soudržnosti jsou níže uvedena různá klíčová slova, se kterými můžete při přípravě podnětů experimentovat.

Úhly záběru kamery

Optika objektivu

Nízký úhel

Low angle

Vysoký úhel

High angle

Nadhled

Overhead

Pohled první osoby

FPV

RunwayML - klíčové slovo: FPV, pohled z první osoby (úhly záběru kamery)

Záběr z ruky

Hand held

Širokoúhlý

Wide angle

Detail - Z blízka

Close up

Detail - Makro

Macro cinematography

RunwayML - klíčové slovo: Makro (úhly záběru kamery)

Zezadu

Over the shoulder

Sledování objektu

Tracking

Široký záběr

Establishing wide

Perspektiva lidského oka

50mm lens

Akční kamera -selfie

SnorriCam

Dokumentární

Realistic documentary

Domácí video

Camcoder

Styl osvětlení

Rozptýlené světlo

Diffused lighting

Silueta

Silhouette

Odlesk objektivu

Lens flare

Svícení zezadu

Back lit

Nasvícení z boku

Side lit

Barevný filtr

[color] gel lighting

Benátské světlo

Venetian lighting

Rychlost pohybu

camera movement

Velmi rychlý pohyb

Dynamic motion

Zpomalený

Slow motion

Rychlý pohyb

Fast motion

Časosběr

Timelapse

RunwayML - klíčové slovo: (rychlost pohybu a času)

Typ pohybu (vzhledem k objektu)

movement type

Růst

Grows

Zjevení

Emerges

Výbuch

Explodes

Vznášení

Ascends

Vlnící se

Undulates

Deformace

Warps

Proměna

Transforms

Zvlnění

Ripples

Roztříštění

Shatters

Rozložení

Unfolds

Vír

Vortex

Styl a Estetika

Náladový

Moody

Dramatický

Cinematic

Duhový

Iridiscent

Staré domácí video, retro

Home video a VHS

RunwayML - klíčové slovo: (styl a estetika)

Poruchový

Glitchcore

RunwayML - klíčové slovo: glitch, porucha obrazu (styl a estetika)

Styly textu (font)

Tučně

Bold

Pouliční grafika

Graffiti

Neonové fluorescenční lampy

Neon

Univerzita, sport

Varsity

Výšivka

Ebroidery

Zástupné symboly

v zalomených závorkách []

Pro vytváření vlastních předvoleb, které lze snadno opakovaně použít, můžete také část výzvy umístit do závorek a nahradit text jedním kliknutím. Například:

Fotoaparát plynule prolétne [místo předmětu].
The camera seamlessly flies through a [subject location]

Po uložení jako předvolba vám to umožní 1 kliknutím nahradit oblast závorek a začít psát text, kdykoli ji znovu použijete.