Suno v5.5 - 1.díl: Začínáme

Návod na Suno česky

# Meta tagy, [no vocals], style-of-music pole, MILO-1080 sekvencer, a syntaxe promptu - výzvy. 

Co je Suno?

Suno je generativní platforma s umělou inteligencí, která na základě textového popisu vytváří kompletní skladby. Na rozdíl od DAW (digitální audio pracovní stanice - např FL studio, Ableton, Cubase), knihoven samplů nebo nástrojů založených na smyčkách generuje Suno všechny prvky skladby současně: melodii, harmonii, rytmus, instrumentaci, vokály (včetně textu), aranžmá i mix. Stačí popsat, co chcete, a Suno vytvoří hotovou skladbu.

Suno generuje kompletní skladby (zpěv, nástroje, aranžmá a mix) na základě textových zadání. Verze 5.5 produkuje zvuk ve studiové kvalitě s délkou až 8 minut na jedno generování a přidává funkce Voices, Custom Models a adaptivní předvolby My Taste. Osvojte si tři systémy (textové zadání + metatagy + Creative Sliders) a Suno se stane produkčním nástrojem, nikoli jen novinkou. Použijte vlastní režim pro ovládání, metatagy pro strukturu skladby a editor skladeb pro postupné vylepšování. Úroveň Pro (10 $/měsíc nebo 8 $/měsíc při ročním předplatném) umožňuje přístup k verzi V5.5 a komerčním právům. Kredity se nepřevádějí do dalšího období.

Rychlé menu
  1. Co je Suno
  2. Začínáme
  3. Modely a verze
  4. Ceny a kredity
  5. Architektura promptu
  6. Pomocník pro vylepšení promptu
  7. Popisy žánrů a stylů
  8. Stylování vokálů
  9. Instrumentální režim
  10. Přehled metatagů
  11. Strukturální tagy
  12. Instrumentální a vokální tagy
  13. Pokročilé vzory metatagů
  14. Creativní slajdry
  15. Editor skladeb
  16. Covery a remixy
  17. Voices
  18. My Taste v5.5
  19. Generační smyčka
  20. Suno Studio DAW
  21. Separace stemů a export
  22. Integrace s DAW
  23. Míchání žánrů
  24. Vícesekční kompozice
  25. Řetězení promptů
  26. Řešení problémů
  27. Komerční licence
  28. Autorské právo a právní souvislosti
  29. Konkurenti a alternativy
  30. Stav API a integrací
  31. Rychlá referenční karta
  32. Seznam změn
  33. Zdroje

Hlavní body

  • Pro seriózní práci je nezbytný režim Custom Mode. Režim Simple Mode omezuje ovládací prvky, díky nimž je Suno produkčním nástrojem. Všechny techniky v tomto průvodci předpokládají použití režimu Custom Mode s oddělenými poli - Title fields pro styl, text a název.
  • Nejde o jeden, ale o tři systémy ovládání. Text zadání určuje hudební charakter. Metatagy řídí aranžmá a strukturu. Kreativní posuvníky utvářejí osobnost generovaného výstupu. Zvládnutí všech tří prvků je tím, co odlišuje použitelné výsledky od náhodných výstupů.
  • Metatagy jsou dovedností s největším dopadem. Struktura [Verse]/[Chorus]/[Bridge] s parametrizovanými modifikátory ([Verse: šeptaný zpěv, pouze akustická kytara]) vám poskytuje kontrolu nad jednotlivými sekcemi, která se blíží aranžmá na úrovni DAW pouze pomocí textu.
  • V5.5 je aktuální vlajková loď. V5.5 staví na základech produkční kvality V5 (audio ve studiové kvalitě, přirozený zpěv, skutečné oddělení nástrojů) a přidává hlasy, vlastní modely přizpůsobené vašemu stylu a adaptivní preference My Taste. Pro přístup k V5.5, hlasům a vlastním modelům je vyžadována úroveň Pro (12 $/měsíc nebo 8 $/měsíc při ročním předplatném).
  • Iterujte, nemodlete se. Generovací smyčka (nápad -> výběr -> vylepšení -> rozšíření -> úprava -> export) obvykle stojí 50–100 kreditů na jednu vyleštěnou skladbu. Počítejte s iteracemi, ne s dokonalostí na první pokus.
  • Kredity se nepřevádějí do dalšího období, ale dobité kredity neexpirují. Měsíční kredity se resetují při každém zúčtovacím cyklu. Zakoupené dobité kredity zůstávají platné po celou dobu trvání vašeho předplatného, takže je užitečné si je před intenzivními sezeními nashromáždit.

Co můžete vytvořit:

  • Celé skladby se zpěvem: jakýkoli žánr, jakýkoli jazyk, originální texty nebo texty generované umělou inteligencí
  • Instrumentální skladby: podkresová hudba, filmová hudba, ambientní skladby
  • Žánrové experimenty: žánrové fúze, které by jinak vyžadovaly spolupráci několika specializovaných hudebníků
  • Variace: vygenerujte desítky variant stejného konceptu a vyberte tu nejlepší
  • Produkční prvky: stopy pro použití v tradičních pracovních postupech DAW

Co Suno neumí:

  • Není to DAW: Nemixujete, nemasterujete ani neupravujete ručně (ačkoli Studio některé z těchto funkcí přidává)
  • Není to deterministické: Stejný podnět produkuje pokaždé jiné výsledky - nemá seed podobně jako Udio
  • Není to knihovna vzorků: Nemůžete izolovat a přesně znovu použít jednotlivé zvuky
  • Není to neomezené: Generování stojí kredity a kvalita se liší mezi jednotlivými pokusy

Jak si Suno vede v porovnání s tradiční hudební produkcí?

OblastSunoTradiční hudební produkce
VstupTextový prompt + volitelně vlastní text písněNoty, MIDI, audio nahrávky
VýstupKompletní smíchaná skladbaJednotlivé stopy, které je potřeba namíchat
Čas k prvnímu výsledkuPřibližně 30 sekundHodiny až dny
Potřebné hudební znalostiSchopnost popsat požadovaný styl a výsledekHra na nástroj, hudební teorie, mix
Způsob iteraceNový prompt, úprava částí skladby, nastavení sliderůNové nahrávání, přepracování aranže, nový mix
Maximální délka8 minut na jedno vygenerování, s možností prodlouženíBez omezení

Začínáme

  • Vytvořte si účet na suno.com. Bezplatná verze nabízí 50 kreditů denně (přibližně 10 skladeb, obvykle pět dávek po dvou skladbách).
  • Nejprve vyzkoušejte jednoduchý režim. Zadejte krátký popis, například „veselá indie rocková skladba o výletu autem“, a klikněte na „Vytvořit“. Suno automaticky vygeneruje text, melodii, aranžmá a vokály.
  • Pro větší kontrolu přepněte do režimu „Custom Mode“. Režim „Custom Mode“ rozděluje zadání do jednotlivých polí:
  • Styl hudby: Žánr - Genre, nálada - Mood, popis nástrojového obsazení
  • Text: Váš text s metatagy pro strukturu
  • Název: Název skladby
  • Poslechněte si oba výstupy. Suno vygeneruje dvě varianty pro každou skladbu. Vyberte tu, která více odpovídá vašim představám, a poté ji vylepšete.
  • Pomocí funkce „Extend“ můžete skladbu dále rozvíjet nad rámec původního výstupu, nebo pomocí „Song Editor“ nahradit konkrétní části.

Jak používat tohoto průvodce

Jste…Začněte tadyPotom prozkoumejte
Úplný začátečník v SunoZačínáme, Architektura promptuPřehled metatagů, Popisy žánrů a stylů
Běžný uživatel, který chce lepší výsledkyArchitektura promptu, Creative SlidersPokročilé vzory metatagů, Řešení problémů
Produkujete hudbu k vydáníGenerační smyčka, Suno Studio DAWIntegrace s DAW, Komerční licence
Porovnáváte Suno s alternativamiCo je Suno?, Konkurenti a alternativyStav API a integrací, Autorské právo a právní souvislosti

Přehled rozhraní

Webové rozhraní Suno nabízí dva hlavní režimy tvorby:

Jednoduchý režim - Simple mode: Jedno textové pole. Popište skladbu přirozeným jazykem. Suno odvodí žánr, napíše text a vygeneruje vše ostatní. Hodí se k experimentování, ale není přesné.

Vlastní režim - Custom mode: Tři samostatná pole (Styl, Text, Název) plus kreativní posuvníky. Vlastní režim je místem, kde se odehrává seriózní práce. Pole Styl přijímá žánr a popisky produkce. Pole Text přijímá text s metatagy. Posuvníky řídí generování osobně

Začněte s režimem „Custom“. Režim „Simple“ je sice praktický, ale postrádá ovládací prvky, díky kterým je Suno užitečné pro produkční práci. Všechny postupy v tomto návodu předpokládají použití režimu „Custom“.


Užíváš si návod?

PODPOŘ MĚ NA PATREONU

Modely a verze

Suno se od svého spuštění velmi rychle vyvíjelo. Každá nová verze přinesla výrazné zlepšení kvality, ale dostupnost jednotlivých modelů se liší podle typu předplatného.

Časová osa verzí

VerVydáníHlavní vylepšení
V2podzim 2023První veřejný model. Krátké klipy přibližně 30 sekund, omezený rozsah žánrů, zřetelné AI artefakty.
V3březen 2024Prodloužení skladeb na 2 minuty. Lepší srozumitelnost vokálů. Rozšířené pokrytí žánrů.
V3.5léto 2024Lepší mix, méně artefaktů, přirozenější vokály.
V419. listopadu 2024Výrazný kvalitativní skok. Generování až 4minutových skladeb, vícejazyčné vokály, funkce Covers, separace do 2 stemů.
V4.51. května 2025Jednorázové generování až 8 minut místo 4 minut, Creative Sliders pro nastavení Weirdness a Style Influence, Prompt Enhancement Helper, přesnější práce se žánry, vylepšené vokály.
V4.5-Allkonec roku 2025Model pro bezplatnou úroveň. Kombinuje vylepšení V4.5 se širší dostupností.
V5září 2025Zvuk ve studiové kvalitě, vyšší kvalita masteringu, Suno Studio DAW, separace do 12 stemů, Persona Voices. Interní název: chirp-crow.
V5.526. března 2026Aktuální vlajkový model. Voices s ověřením pro Pro/Premier, Custom Models až 3 na jednoho předplatitele Pro/Premier, adaptivní systém preferencí My Taste pro všechny uživatele.

Aktuální přístup k modelům

ÚroveňPřístup k modelůmPoznámky ke kvalitě
FreeV4.5-AllDobrá kvalita, ale znatelně slabší než V5.5 v přirozenosti vokálů a čistotě mixu. Bez Voice Cloning a Custom Models. My Taste je dostupné.
Pro – 10 $ / měsícV5.5Studiová kvalita. Voices, až 3 Custom Models, My Taste.
Premier – 30 $ / měsícV5.5 + StudioStejná kvalita generování jako u Pro, navíc Suno Studio DAW. Voices, až 3 Custom Models, My Taste.

Ceník a kredity

Ceny společnosti Suno se mohou změnit bez předchozího upozornění. Aktuální sazby najdete na stránkách suno.com/pricing

Porovnání tarifů

FunkceFreePro – 10 $ / měsícPremier – 30 $ / měsíc
Roční platbaN/A8 $ / měsíc, tedy 96 $ / rok24 $ / měsíc, tedy 288 $ / rok
Kredity50 denně2 500 měsíčně10 000 měsíčně
ModelV4.5-AllV5.5V5.5
Zahrnuté skladby10 denněaž 500 měsíčněaž 2 000 měsíčně
Současně generované skladby4 ve sdílené frontě10 v prioritní frontě10 v prioritní frontě
Limit pro nahrání audia uvedený na cenové stránceaž 8 minutaž 30 minutaž 30 minut
Song Editoromezeněplný přístupplný přístup
Covers / Remixesneanoano
Persona Voicesneanoano
Voice Cloningneanoano
Custom Modelsneaž 3až 3
My Tasteanoanoano
Suno Studioneneano
Stem Separation2 stemy2 stemy + 12 stemů2 stemy + 12 stemů
Komerční použitíneanoano
Prioritní generováníneanoano
Převod kreditů do dalšího obdobíN/Anene
Dokoupení kreditůneanoano

Ekonomika kreditů

Každá skladba stojí přibližně 5 kreditů. Typická akce „Vytvořit“ vygeneruje dvě varianty skladby, takže si na sadu dvou skladeb naplánujte asi 10 kreditů. 2 500 kreditů měsíčně v rámci předplatného Pro vystačí až na 500 skladeb.

Postupy pro efektivní využívání kreditů: - Používejte režim „Custom“ (Vlastní) se specifickými zadáními, abyste omezili počet zbytečných generací. - Rozšiřujte slibné skladby, místo abyste je generovali znovu od začátku. - Používejte editor skladeb k opravě jednotlivých částí, místo abyste generovali celé skladby znovu. - Šetřete kredity tím, že před generováním upřesníte zadání stylu.

Měsíční kredity se nepřevádějí do dalšího měsíce. Nevyužité kredity na konci zúčtovacího období propadají. Naplánujte si proto své generování odpovídajícím způsobem.

Bonusové denní kredity po vyčerpání měsíčního limitu. Jakmile se vaše měsíční kredity vyčerpají, placení předplatitelé obdrží 50 bonusových kreditů denně až do dalšího zúčtovacího období, což je stejný denní limit jako u bezplatné verze. Tím se zabrání úplnému zastavení generování na konci měsíce, i když se jedná o významné snížení oproti měsíčnímu limitu (50/den vs. ~83/den pro Pro, ~333/den pro Premier).

Doplňkové kredity neexpirují, dokud je vaše předplatné aktivní. K využití zakoupených doplňkových kreditů je nutné aktivní předplatné. Pokud předplatné zrušíte, doplňkové kredity se stanou nepoužitelnými, dokud se znovu nepřihlásíte k odběru. Díky této trvalosti jsou doplňkové kredity užitečné pro zásoby před intenzivními produkčními relacemi

2. Díl - prompt engineering

Návod na vytvoření LORA modelu pro Stable Diffusion

LORA (Low-Rank Adaptation) umožňuje snadné přizpůsobení modelů Stable Diffusion bez nutnosti jejich kompletního přetrénování. Tento postup šetří čas, paměť a poskytuje flexibilitu při úpravě AI modelů.

Klíčové body:

  • Výhody LORA: Menší velikost modelu (2–500 MB), rychlejší trénink a nižší nároky na hardware.
  • Požadavky na hardware: Doporučeno GPU s 24 GB VRAM, 64 GB RAM a 100 GB volného úložiště.
  • Příprava datasetu: Obrázky s rozlišením alespoň 512×512 px, konzistentní poměr stran a kvalitní úprava.
  • Tréninkové parametry: Použijte rank 4–32, learning rate 3e-5 až 8e-5 a 2–3 epochy.
  • Použití modelu: Aktivujte model v promptu Stable Diffusion pomocí syntaxe [lora:nazev_modelu:váha].

Rychlé srovnání: LORA vs. Tradiční modely

VlastnostTradiční modelLORA model
Velikost2–7 GB2–500 MB
Nároky na GPUVysokéNízké
Rychlost tréninkuPomaláRychlá

LORA modely výrazně zjednodušují práci s AI a umožňují rychlé přizpůsobení i na méně výkonném hardwaru.

Potřebné nástroje a nastavení

Požadavky na počítač

Pro trénink LORA modelu doporučujeme následující minimální a doporučené specifikace:

KomponentaMinimální požadavkyDoporučené požadavky
GPU paměť12 GB VRAM24 GB VRAM
Operační paměť32 GB RAM64 GB RAM
Úložiště50 GB volného místa100 GB volného místa
GPUNVIDIA řady RTX 20xxNVIDIA RTX 3090

Instalace softwaru

  • Python: Stáhněte nejnovější verzi z python.org.
  • PyTorch: Nezbytný framework pro strojové učení.
  • Kohya SS: Nástroj určený pro trénování modelů.
  • AUTOMATIC1111: Webové rozhraní pro Stable Diffusion.

Nastavení Python prostředí

Nejprve vytvořte virtuální prostředí a aktivujte ho:

python -m venv lora-env  
lora-env\Scripts\activate  # Pro Windows

Poté aktualizujte pip a nainstalujte potřebné knihovny:

pip install --upgrade pip  
pip install git+https://github.com/huggingface/diffusers  
pip install accelerate wandb  
pip install -r requirements.txt

Ověřte funkčnost GPU akcelerace příkazem:

accelerate config default

Doporučení pro dataset

  • Používejte obrázky s minimálním rozlišením 512×512 pixelů.
  • Zajistěte konzistentní poměr stran u všech tréninkových obrázků.
  • Dataset by měl být vyčištěný a bez chyb.

Tento postup vytvoří pevný základ pro další kroky při tréninku. Následně se zaměřte na přípravu dat.

Sběr a zpracování dat

Kvalitní data jsou nezbytná pro efektivní trénink modelu LORA.

Výběr tréninkových obrázků

Výběr správných obrázků hraje zásadní roli. Dataset by měl obsahovat 10 až 20 obrázků, minimální počet jsou 3.

Požadavky na obrázky:

  • Rozlišení alespoň 1024×1024 px
  • Podporované formáty: PNG, JPG
  • Konzistentní poměr stran
  • Dobrá ostrost

Pro modely zaměřené na postavy vybírejte fotografie, kde je postava jasně viditelná:

  • Samostatná, bez dalších osob
  • S různými výrazy (např. úsměv, vážný výraz)
  • V podobném věku
  • Bez výrazných doplňků jako sluneční brýle nebo silné líčení

Jakmile máte obrázky vybrané, přistupte k jejich úpravě, aby dataset měl jednotnou kvalitu.

Příprava obrázků

Před tréninkem je potřeba obrázky standardizovat:

1. Ořezání a úprava velikosti

  • Ořízněte obrázky na jednotný formát, například 1:1.
  • Zaměřte se na hlavu a část ramen.
  • Zmenšete velikost na 768×768 pixelů.

2. Zlepšení kvality

Kvalitu obrázků lze zvýšit pomocí následujících nástrojů:

  • Topaz pro zlepšení rozlišení
  • StableSR skript v rozhraní AUTOMATIC1111
  • Úpravy ostrosti a kontrastu

Po úpravě obrázky uspořádejte do strukturovaného systému.

Struktura souborů

Použijte tuto strukturu složek:

SložkaObsahFormát
training_imagesHlavní tréninkové obrázkyPNG
validationObrázky pro validaciPNG
metadataPopisky a metadataTXT

Pojmenování souborů:

  • Dodržujte konzistentní schéma názvů (např. model_01.png).
  • Vyhněte se formátům jako HEIC nebo WebP.
  • Přidejte unikátní klíčové slovo pro snadnou identifikaci.

Nakonec všechny soubory zkomprimujte do ZIP archivu. Nastavte přesnost tréninku na hodnotu mezi 0,3 a 0,35.

sbb-itb-6f064b4

Průvodce tréninkem LORA modelu

Správné nastavení parametrů hraje důležitou roli při tréninku LORA modelu.

Nastavení tréninku

Pro dosažení dobrých výsledků je třeba věnovat pozornost následujícím parametrům:

ParametrDoporučená hodnotaPoznámka
Network Rank4–32Vyšší hodnoty obvykle nejsou nutné
Network Alpha1 nebo polovina rankuNapříklad při ranku 32 použijte hodnotu 16
Learning Rate3e-5 až 8e-5Začněte s 3e-5
Počet epoch2–3Obvykle postačí

Tato nastavení pomohou modelu dosáhnout lepších výsledků při jeho aplikaci ve Stable Diffusion. Pro trénink doporučujeme použít model optimalizovaný pro režim bf16/fp16, díky čemuž se sníží nároky na VRAM. Při výběru základního modelu zvažte následující:

  • Pro realistické výstupy: SD1.5, SD2.1 nebo SDXL
  • Pro anime nebo kreslený styl: NAI (animefull-final-pruned) nebo SDXL

Spuštění tréninku

  1. Příprava aktivačního tagu
    Vytvořte specifický tag, který bude reprezentovat váš koncept. Tento tag musí být uveden jako první v popisech vašeho datasetu.
  2. Nastavení složky pro trénink
    Složku s tréninkovými daty přejmenujte na formát '3_nazev', což automaticky nastaví opakování na 3.
  3. Monitorování průběhu
    Použijte Tensorboard k sledování průběhu tréninku. Tento nástroj vám pomůže identifikovat přetrénování. Pokud ukládáte checkpointy po každé epoše, průběžně testujte výsledky z různých fází tréninku.

Řešení běžných problémů

Při tréninku se mohou objevit následující problémy:

Přetrénování a nedostatečné natrénování

  • Přetrénovaný model produkuje přesycené obrazy s artefakty.
  • Nedostatečně natrénovaný model nedokáže konzistentně reprodukovat požadovaný koncept.

Únik konceptů
Pro snížení rizika úniku konceptů:

  • Používejte jedinečné aktivační tagy.
  • Nastavte počet opakování datasetu tak, aby byla zachována rovnováha.
  • Vyzkoušejte pivotní ladění pro vytvoření nového embeddingu.

Důležité: Při označování datasetu se zaměřte spíše na falešně negativní označení než na falešně pozitivní, protože ty mohou výrazně ovlivnit kvalitu modelu.

Generujte regularizační obrázky pomocí stejného modelu, VAE, rozlišení a sampleru (DDIM nebo DDPM), vždy s pevným seedem.

Po dokončení tréninku a vyřešení všech problémů přistupte k implementaci modelu ve Stable Diffusion. Následně můžete pokračovat s integrací vašeho LORA modelu do tohoto systému.

Použití LORA modelu ve Stable Diffusion

Jakmile máte svůj LORA model natrénovaný, můžete ho začít používat ve Stable Diffusion.

Načtení LORA modelu

Postup pro implementaci LORA modelu do Stable Diffusion:

  1. Stáhněte soubor LORA modelu a umístěte jej do složky stable-diffusion-webui/models/Lora.
  2. V promptu model aktivujte pomocí syntaxe \[lora:nazev_modelu:váha\]. Váha určuje, jak moc model ovlivní výstup (např. 1 = plný vliv, 0,5 = poloviční vliv, 0 = deaktivace).

Jakmile je model načten, můžete přejít k testování jeho nastavení a výsledků.

Testování a úprava výsledků

Pro co nejlepší výsledky je klíčové správně nastavit parametry generování. Doporučené hodnoty:

ParametrDoporučená hodnotaPoznámka
Váha LORA0,35 – 1,0Začněte na 0,35 pro LCM-LoRA
CFG škála1,0 – 7,0Pro LCM-LoRA zkuste cca 1,0
Počet kroků4 – 8Platí pro LCM-LoRA

Používejte stejný základní checkpoint jako při tréninku a upravujte váhu podle tabulky, dokud nedosáhnete požadovaných výsledků. Sledujte, zda model věrně reprodukuje zamýšlený koncept.

Tipy pro lepší výsledky

Zde je několik užitečných tipů, jak doladit generování:

  • Ujistěte se, že váš LORA model je kompatibilní s verzí Stable Diffusion, kterou používáte. Při kombinování více modelů postupujte opatrně.
  • Pokud model není viditelný, zkuste obnovit seznam modelů v rozhraní Web UI.
  • Experimentujte s aktivačními klíčovými slovy a váhou modelu, abyste dosáhli požadované kvality.

Pro stabilní výkon doporučujeme pravidelně aktualizovat Stable Diffusion Web UI na aktuální verzi a zachovat konzistentní nastavení mezi fází tréninku a generování obrázků.

Shrnutí

LORA (Low-Rank Adaptation) nabízí efektivní způsob, jak upravit Stable Diffusion bez nutnosti kompletního přetrénování modelu. Díky této technologii lze dosáhnout až 10× rychlejšího výkonu a 4× menší náročnosti na paměť.

Klíčové kroky

  • Příprava dat: Zajistěte kvalitní dataset obrázků s jednotnými poměry stran, například 16:9 nebo 1:1.
  • Nastavení trénování: Přizpůsobte tréninková nastavení podle doporučených parametrů.
  • Testování a optimalizace: U LCM-LORA modelů používejte nízké hodnoty CFG (1–2) a omezte počet kroků vzorkování na 4.

Tyto kroky jsou základem pro dosažení kvalitních výsledků.

"LoRA modely jsou zásadními nástroji pro doplnění Flux AI checkpoint modelů. Umožňují Fluxu generovat obsah, na který nebyl trénován, například umělecké styly nebo konkrétní obličeje." – Stable Diffusion Art

Příklady LORA modelů

Typ LORAPříkladVyužití
StylovýCrayon Style LoRA SDXLObrázky s efektem kreseb pastelkami
KonceptuálníSticker Sheet LoRATvorba designů samolepek
ObjektovýDog Example LoRA SDXLGenerování obrázků zaměřených na psy

Pravidelná aktualizace softwaru a experimentování s parametry jsou klíčem k dosažení požadované kvality. Platformy jako Shakker AI navíc umožňují snadné trénování LORA modelů bez nutnosti lokální instalace.

Tento přehled vám poskytne základní informace pro úspěšnou aplikaci LORA modelů ve Stable Diffusion.

Related posts


Příručka pro Runway - 1. Základy promtingu

RunwayML - základy práce generování videí s metodou text to video s verzí Gen3- Alpha. 

Ještě něž vás uvedu do zádkladů podněcovaní a práci s umělou inteligencí pro generování filmu a videa s RunwayML, řekněme si nejdříve několik důležitých faktů a tipů. Jak si můžeme všimnout zkratky v názvu ML, což znamená strojové učení (machine learning) Runway je jedna z nejlepší platforem, která se velmi rychle vyvíjí. To znamená, že pokud nezvládla udělat nějaký záběr dnes, zkuste to zítra, možná už se to naučila. Dalším postřehem ke konzistentnosti vašich videí je možnost používat obrázkové výzvy, kde zadáte první a poslední snímek záběru a Runway vám generuje to mezi obrázky na základě vašeho textového podnětu. Tím se můžete dostat k velice konkrétním realizací vaší představy nebo scénáře.

Pro generování obrázkových podnětů stále doporučuju online platformu MidJourney - návod na blogu najdete. Stejně jako MJ, Runway nechápe gramatiku, takže s vysvětlováním pomocí gramatických oslích můstků typu na "začátku udělej něco a pak udělej tohle" příliš nepochodíte. Její NLP (Natural Language Processing) může porozumět textu na základě analýzy vstupu pro extrakci významu, klíčových slov nebo sentimentu.

Další praktickou informací, která vám ušetří dost peněz je, že na hraní tu není moc prostor. Hraní je za paywallem. Nemá smysl kupovat si kredity, protože ty vystřílíte zázračně rychle. Nekupujte si kredity. Jestli to s Runway myslíte vážně, zaplaťte si Unlimited přístup na celý rok a naučte se s ní dokonale. Garantuju vám, že nebudete mít okousané nehty od toho, jestli se generování povede (pro mě je jeden úspěšný záběr 10-20 generování) a navíc můžete používat režim Gen3-Turbo, což ušetří i spoustu času. Toť zatím vše pojďme se podívat, jak funguje promting. 

K zadávání obvykle raději používám překladač Deepl, potom si přeložené zadání upraví do pro AI srozumitelnější iterace.

Gen-3 Alpha má poměrně nekonečný potenciál, abyste mohli realizovat své umělecké vize. Vytvoření silného podnětu- promptu, který zprostředkuje scénu, je klíčem ke generování videa v souladu s vaším konceptem.
Tento článek se zabývá různými ukázkovými strukturami, klíčovými slovy a tipy na podněty, které vám pomohou začít pracovat s Gen-3 Alpha. Jedná se pouze o příklady - nebojte se při uvádění svých nápadů do života experimentovat.

Struktury podnětů

Základní textový podnět

Pouze textové podněty jsou nejúčinnější, pokud se řídí jasnou strukturou, která rozděluje podrobnosti o scéně, objektu a pohybu kamery do samostatných částí. Použití následující struktury by mělo pomoci zajistit konzistentní výsledky při seznamování se s aplikací Gen-3 Alpha:

[pohyb kamery]: [vytvoření scény]. [doplňující informace].
[camera movement]: [establishing scene]. [additional details].

Při použití této struktury by vaše výzva pro ženu stojící v tropickém deštném pralese mohla vypadat takto:

Statický záběr z nízkého úhlu: Kamera je natočena pod úhlem na ženu v oranžovém oblečení, která stojí v tropickém deštném pralese s barevnou flórou. Dramatická obloha je zatažená a šedá.
Low angle static shot: The camera is angled up at a woman wearing all orange as she stands in a tropical rainforest with colorful flora. The dramatic sky is overcast and gray.

Opakování nebo posilování klíčových slov a myšlenek v různých částech podnětu může pomoci zvýšit efekt ve výstupu. Můžete například poznamenat, že kamera rychle prolétá scénami v hyper-rychlém záběru. Snažte se, aby váš podnět byl zaměřen na to, co by mělo být ve scéně. Například byste mohli vyzvat k zobrazení jasné oblohy spíše než oblohy bez mraků.

Základní výzva obrázek + text

Při použití vstupních obrázků se zaměřte spíše na popis pohybu, který byste chtěli na výstupu vidět, než na obsah obrázku. Například při použití vstupního obrázku, který obsahuje postavu, můžete zkusit následující výzvu:

Subjekt vesele pózuje, její ruce tvoří znak míru.
Subject cheerfully poses, her hands forming a peace sign.

Použití textového podnětu, který se výrazně liší od vstupního obrázku, může vést k neočekávaným výsledkům. Mějte na paměti, že složité přechody scén mohou vyžadovat více iterací k dosažení požadovaného výstupu. 

Iterace je proces opakování určitého postupu nebo operace, obvykle za účelem přiblížení se k nějakému cíli nebo dosažení určitého výsledku

Ukázkové výzvy

Plynulé přechody

Nepřetržité záběry FPV v hyperrychlosti: Kamera plynule prolétá ledovcovým kaňonem do zasněné krajiny mraků.
Continuous hyperspeed FPV footage: The camera seamlessly flies through a glacial canyon to a dreamy cloudscape.

Pohyb kamery

Svítící oceán v noci s bioluminiscenčními tvory pod vodou. Kamera začíná makro záběrem svítící medúzy zblízka a poté se rozšíří a odhalí celý oceán osvětlený různými svítícími barvami pod hvězdnou oblohou. Pohyb kamery: Začněte makro záběrem medúzy a poté se jemně stáhněte dozadu a nahoru, abyste ukázali svítící oceán.
A glowing ocean at night time with bioluminescent creatures under water. The camera starts with a macro close-up of a glowing jellyfish and then expands to reveal the entire ocean lit up with various glowing colors under a starry sky. Camera Movement: Begin with a macro shot of the jellyfish, then gently pull back and up to showcase the glowing ocean.

Textové titulní karty

Titulní obrazovka s dynamickým pohybem. Scéna začíná u stěny pokryté barevnými barvami. Náhle se na zeď vylije černá barva a vytvoří slovo „Runway“. Kapající barva je detailní a texturovaná, vycentrovaná, vynikající filmové osvětlení.
A title screen with dynamic movement. The scene starts at a colorful paint-covered wall. Suddenly, black paint pours on the wall to form the word "Runway". The dripping paint is detailed and textured, centered, superb cinematic lighting.

 

Klíčová slova podnětů

Klíčová slova mohou být přínosná pro dosažení specifických stylů ve vašem výstupu. Zajistěte, aby klíčová slova byla v souladu s vaší celkovou výzvou, díky čemuž budou ve vašem výstupu lépe patrná.

Například zařazení klíčových slov o struktuře pleti by nebylo přínosné pro širokoúhlý záběr, kde kamera není úzce zaměřena na obličej. Širokoúhlému záběru by naopak mohly prospět další podrobnosti o prostředí.

Při zachování této soudržnosti jsou níže uvedena různá klíčová slova, se kterými můžete při přípravě podnětů experimentovat.

Úhly záběru kamery

Optika objektivu

Nízký úhel

Low angle

RunwayML - klíčové slovo: low angle, nízký úhel (úhly záběru kamery)

Vysoký úhel

High angle

RunwayML - klíčové slovo: high angle, vysoký úhel (úhly záběru kamery)

Nadhled

Overhead

RunwayML - klíčové slovo: overhead, nadhled (úhly záběru kamery)

Pohled první osoby

FPV

RunwayML - klíčové slovo: FPV, pohled z první osoby (úhly záběru kamery)

Záběr z ruky

Hand held

RunwayML - klíčové slovo: hand held, z ruky (úhly záběru kamery)

Širokoúhlý

Wide angle

RunwayML - klíčové slovo: Širokoúhlý, Wide angle (úhly záběru kamery)

Detail - Z blízka

Close up

RunwayML - klíčové slovo: close up, detail, zblízka (úhly záběru kamery)

Detail - Makro

Macro cinematography

RunwayML - klíčové slovo: Makro (úhly záběru kamery)

Zezadu

Over the shoulder

RunwayML - klíčové slovo: zezadu, over the shoulders (úhly záběru kamery)

Sledování objektu

Tracking

RunwayML - klíčové slovo: Sledování objektu, Tracking (úhly záběru kamery)

Široký záběr

Establishing wide

RunwayML - klíčové slovo: Široký záběr, Establishing wide (úhly záběru kamery)

Perspektiva lidského oka

50mm lens

RunwayML - klíčové slovo: 50 mm lens (úhly záběru kamery)

Akční kamera -selfie

SnorriCam

RunwayML - klíčové slovo: akční kamera, snorricam, gopro (úhly záběru kamery)

Dokumentární

Realistic documentary

RunwayML - klíčové slovo: Dokumentární, Realistic documentary, (úhly záběru kamery)

Domácí video

Camcoder

RunwayML - klíčové slovo: DV kamera, camcoder, (úhly záběru kamery)

Styl osvětlení

Rozptýlené světlo

Diffused lighting

 

RunwayML - klíčové slovo: (osvětlení)

Silueta

Silhouette

RunwayML - klíčové slovo: silueta, Silhouette (osvětlení)

Odlesk objektivu

Lens flare

RunwayML - klíčové slovo: Odlesk objektivu, Lens flare (osvětlení)

Svícení zezadu

Back lit

RunwayML - klíčové slovo: Svícení zezadu, Back lit (osvětlení)

Nasvícení z boku

Side lit

RunwayML - klíčové slovo: Nasvícení z boku, Side lit (osvětlení)

Barevný filtr

[color] gel lighting

RunwayML - klíčové slovo: Barevný filtr, [color] gel ighting (osvětlení)

Benátské světlo

Venetian lighting

RunwayML - klíčové slovo: benátské světlo, venetian light (osvětlení)

Rychlost pohybu

camera movement

Velmi rychlý pohyb 

Dynamic motion

 

RunwayML - klíčové slovo: dynamic motion, dynamický (rychlost pohybu a času)

Zpomalený

Slow motion

RunwayML - klíčové slovo: slow motion, zpomalený (rychlost pohybu a času)

Rychlý pohyb

Fast motion

RunwayML - klíčové slovo: Fast motion (rychlost pohybu a času)

Časosběr

Timelapse

RunwayML - klíčové slovo: (rychlost pohybu a času)

Typ pohybu (vzhledem k objektu)

movement type

Růst

Grows

 

RunwayML - klíčové slovo: Zjevení, Emerges (typ pohybu)

Zjevení

Emerges

RunwayML - klíčové slovo: Zjevení, objevení, Emerges (typ pohybu)

Výbuch

Explodes

RunwayML - klíčové slovo: Výbuch, Explodes (typ pohybu)

Vznášení

Ascends

RunwayML - klíčové slovo: Vznášení ,Ascends, létání (typ pohybu)

Vlnící se

Undulates

RunwayML - klíčové slovo: vlnící se, undulates (typ pohybu)

Deformace

Warps

RunwayML - klíčové slovo: Deformace, Warps (typ pohybu)

Proměna

Transforms

RunwayML - klíčové slovo: Proměna, Transforms (typ pohybu)

Zvlnění

Ripples

RunwayML - klíčové slovo: Zvlnění, Ripples (typ pohybu)

Roztříštění

Shatters

RunwayML - klíčové slovo: Roztříštění, Shatters (typ pohybu)

Rozložení

Unfolds

RunwayML - klíčové slovo: Rozložení, Unfolds (typ pohybu)

Vír

Vortex

RunwayML - klíčové slovo: Vortex, Vír (typ pohybu)

Styl a Estetika

Náladový

Moody

 

RunwayML - klíčové slovo: Náladový, Moody (styl a estetika)

Dramatický

Cinematic

RunwayML - klíčové slovo: Dramatický, Cinematic (styl a estetika)

Duhový

Iridiscent

RunwayML - klíčové slovo: duhový, Iridiscent (styl a estetika)

Staré domácí video, retro

Home video a VHS

RunwayML - klíčové slovo: (styl a estetika)

Poruchový

Glitchcore

RunwayML - klíčové slovo: glitch, porucha obrazu (styl a estetika)

Styly textu (font)

Tučně

Bold

 

RunwayML - klíčové slovo: Tučně, Bold (font)

Pouliční grafika

Graffiti

RunwayML - klíčové slovo: Pouliční grafika, Graffiti (font)

Neonové fluorescenční lampy

Neon

RunwayML - klíčové slovo: Neonové fluorescenční lampy, Neon (font)

Univerzita, sport

Varsity

RunwayML - klíčové slovo: Univerzita, sport, varsity (font)

Výšivka

Ebroidery

RunwayML - klíčové slovo: Výšivka, Ebroidery (font)

Zástupné symboly

v zalomených závorkách []

Pro vytváření vlastních předvoleb, které lze snadno opakovaně použít, můžete také část výzvy umístit do závorek a nahradit text jedním kliknutím. Například:

Fotoaparát plynule prolétne [místo předmětu].
The camera seamlessly flies through a [subject location]

Po uložení jako předvolba vám to umožní 1 kliknutím nahradit oblast závorek a začít psát text, kdykoli ji znovu použijete.