Suno v5.5 - 4 .díl: Eitor, Cover, Remix, Voices

4. Návod na Suno česky

# Metatagy, [no vocals], style-of-music pole, MILO-1080 sekvencer  

Editor, cover, remix, voices a My Taste. 

V minulém díle jsme si ukázali, jak funguje zadávání nebo promptování včetně stylování vokálů. Editor skladeb v Sunu umožňuje upravovat hotové generace bez nutnosti vytvářet celou skladbu znovu. Pomocí funkcí jako Inpainting, Extend, Crop nebo Fade lze opravit slabé části, rozšířit track, vytvořit cover/remix nebo pracovat s Voices, Persona Voices, Voice Cloning a Custom Models. Text také ukazuje praktický produkční workflow od prvního promptu až po export hotové skladby.

Rychlé menu
  1. Co je Suno
  2. Začínáme
  3. Modely a verze
  4. Ceny a kredity
  5. Architektura promptu
  6. Pomocník pro vylepšení promptu
  7. Popisy žánrů a stylů
  8. Stylování vokálů
  9. Instrumentální režim
  10. Přehled metatagů
  11. Strukturální tagy
  12. Instrumentální a vokální tagy
  13. Pokročilé vzory metatagů
  14. Creativní slajdry
  15. Editor skladeb
  16. Covery a remixy
  17. Voices
  18. My Taste v5.5
  19. Generační smyčka
  20. Suno Studio DAW
  21. Separace stemů a export
  22. Integrace s DAW
  23. Míchání žánrů
  24. Vícesekční kompozice
  25. Řetězení promptů
  26. Řešení problémů
  27. Komerční licence
  28. Autorské právo a právní souvislosti
  29. Konkurenti a alternativy
  30. Stav API a integrací
  31. Rychlá referenční karta
  32. Seznam změn
  33. Zdroje

Editor (Pro verze)

Editor skladeb umožňuje úpravy po vygenerování skladby, aniž by bylo nutné vytvářet ji znovu. Editor skladeb řeší problém typu „90 % je perfektní, ale jedna část je špatně“

Povolené oparace

OperaceCo děláKdy ji použít
InpaintingNahradí konkrétní časový úsek novým obsahemSloka je slabá, ale chorus je perfektní
ExtendPokračuje ve skladbě za její aktuální konecSkladba končí příliš brzy nebo potřebuje další sekci
CropZkrátí skladbu na kratší délkuOdstranění ticha na konci nebo nechtěných částí
Fade In/OutPoužije postupné zesílení nebo zeslabení hlasitosti na začátku či konciProfesionálnější začátek nebo zakončení skladby
Replace SectionZnovu vygeneruje vybranou sekci podle nových instrukcíBridge nefunguje tonálně nebo aranžérsky

Postup pro doplňování (Inpaiting)

  1. Vyberte časový úsek, který chcete nahradit (přetažením na zvukové křivce)
  2. Volitelně zadejte nový text písně/metatagy pro nahrazovanou část
  3. Vygenerovat: Suno vytvoří nový obsah, který ladí s okolním zvukem
  4. Poslechněte si a porovnejte. Potvrďte nebo vygenerujte znovu.

Doplňování je iterativní proces. Jen málokdy se stane, že by první nahrazená část dokonale ladila s okolním kontextem. Počítejte s 2–5 pokusy, abyste dosáhli plynulého přechodu do okolního materiálu.

  1. Klikněte na „Rozšířit“ u libovolného existujícího výstupu
  2. Volitelně zadejte text písně nebo metatagy pro pokračování
  3. Suno vygeneruje přibližně 30–60 sekund nového zvukového záznamu, který navazuje na konec původního výstupu
  4. Každé rozšíření představuje samostatný výstup (spotřebovává kredity)

Osvědčený postup: Na začátek pokynu pro rozšíření vložte strukturální metatag (např. [Chorus] nebo [Outro]), který určí, co má rozšíření vygenerovat.

Cover verze a remixy

Uživatelé s tarifem Pro a Premier mohou vytvářet cover verze a remixy stávajících skladeb ze Suna.

Covers

Nahrajte nebo vyberte existující skladbu ze Suna jako vzor a poté použijte nový styl:

Style: Acoustic folk cover, fingerpicked guitar, soft female vocals, intimate production

Tato coververze zachovává melodii i text, přináší však nové aranžmá a produkci.

Remixes

Remixy vycházejí ze stávající skladby a upravují ji radikálněji než coververze:

Style: EDM remix, heavy bass, 128 BPM, drop-focused, festival energy

Add Vocals / Add Instrumentals

Dva specializované režimy, které vrství nový obsah na existující audio:

  • Add Vocals: Nahraješ instrumentální track a Suno přes něj vygeneruje vokály.
  • Add Instrumentals: Nahraješ vokální track a Suno za něj vygeneruje instrumentaci.

Oba režimy integrují Suno do tradičních produkčních workflow: nahraješ reálné vokály a necháš Suno vygenerovat backing track, nebo naopak.

 


Voices 

Systém  Voices  (Pro/Premier, v5.5) umožňuje vytvářet a opakovaně používat konzistentní vokální charaktery napříč generacemi. Místo toho, abys doufal, že každá generace přiřadí podobný hlas, hlas si definuješ a následně na něj odkazuješ.  Voices  navazuje na dřívější práci s  Personas ; aktuální help center Suna uvádí, že menu  Create  nyní používá  Voices , zatímco  Style Personas  zůstávají uvnitř menu  Voices .

Vytvoření Persona Voice 

  1. Vygeneruj skladbu s vokály, které se ti líbí.
  2. Klikni na třítečkové menu u dané generace a vyber  Create Persona .
  3. Pojmenuj personu popisně, například „Warm Alto Folk“, „Raspy Baritone Rock“, „Ethereal Soprano“.
  4. Persona se uloží do knihovny tvého účtu.

Tipy pro vytváření efektivních personas: 

  • Generuj skladbu přímo za účelem vytvoření persony, ne jako vedlejší výsledek jiné skladby. Použij jasný, žánrově vhodný  Style prompt  s výraznými vokály.
  • Nevytvářej personas ze skladeb s výrazným vocal processingem, jako je auto-tune nebo distortion. Persona zachytí zpracovaný zvuk, ne samotný základní hlas.
  •  Vytvářej spíš žánrově specifické personas než jeden „univerzální“ hlas. Persona vytvořená z indie folk tracku může na trap beat dávat nepředvídatelné výsledky.

Používání Persona Voices 

V  Custom Mode  vyber uloženou personu z rozbalovací nabídky  Persona  ještě před generováním. Persona se použije na všechny generace v dané session, dokud ji nezměníš.

Chování persony:  Persona zachovává  timbre  — tedy vokální barvu, rezonanci — a základní delivery style (například breathy, raspy nebo smooth). Nezachovává přesné melodické vzorce, frázování ani rytmickou delivery. Ty vycházejí ze  Style promptu  a metatagů. Použití persony napříč různými tempy a tóninami funguje dobře. Použití napříč výrazně odlišnými žánry, například jazz persona v death metalu, vede k nekonzistentním výsledkům.

Správa personas

  • Limit úložiště: Suno umožňuje uložit více personas. Přesný limit není veřejně dokumentovaný, ale uživatelé hlásí 20+ personas bez problémů.
  • Naming convention: Používej popisné názvy, které zahrnují kvalitu vokálu a žánrový kontext. Jinak zapomeneš, co byla která „Voice 3“.
  • Smazání: Personas lze smazat z knihovny. Smazání je nevratné.
  • Vázané na účet: Personas nelze sdílet mezi účty ani exportovat.

Limitace

  • Persona Voices zachycují timbre a základní delivery style, ne přesnou vokální techniku.

  • Výsledky se liší, pokud personu použiješ výrazně mimo její původní žánr.

  • Persona Voices jsou vázané na konkrétní účet a nelze je sdílet.

  • Aktualizace z prosince 2025 zlepšila konzistenci personas napříč generacemi, ale perfektní reprodukce stále není zaručená.

 


Voice Cloning (V5.5)

Verze V5.5 představila Voices, které předplatitelům Pro a Premier umožňují klonovat vlastní hlas pro použití v generacích. Na rozdíl od Persona Voices, které extrahují timbre z vygenerované skladby, ověřený Voice zachycuje charakteristiky skutečného lidského hlasu.

Jak to funguje:

  1. Nahraješ nebo uploaduješ vokální sample.

  2. Projdeš ověřovacím procesem, který porovná mluvenou frázi s tvým uploadovaným nebo živě nahraným vokálním samplem.

  3. Naklonovaný hlas bude dostupný jako volitelný hlas v Custom Mode.

Klíčové rozdíly oproti Persona Voices:

AspektPersona VoicesVoice Cloning
SourceVygenerovaná skladba ze SunaNahrávka skutečného lidského hlasu
VerificationŽádnéVyžaduje ověření identity
FidelityZachycuje timbre a základní deliveryVyšší věrnost reprodukce zdrojového hlasu
AvailabilityPro/PremierPro/Premier, pouze v5.5; omezeno věkem/lokalitou

Ověření a sdílení: Suno vyžaduje ověření, aby zabránilo neautorizovanému klonování hlasů jiných lidí. Musíš potvrdit, že jsi vlastníkem hlasu, který se klonuje, nebo že máš výslovné povolení jej použít. Se svým Voice můžeš tvořit pouze ty, ale skladby, ve kterých se tvůj Voice objeví, mohou ostatní uživatelé coverovat nebo remixovat, pokud skladbu publikuješ nebo nasdílíš a v možnostech publikování povolíš remixing.

Custom Models (V5.5)

Custom Models umožňují předplatitelům Pro a Premier personalizovat V5.5 podle jejich konkrétního hudebního stylu. Místo toho, aby pokaždé začínali z obecného modelu Suna, je Custom Model vyladěný podle jejich kreativních preferencí.

Jak Custom Models fungují:
  1. Nahraješ alespoň šest skladeb ze svého katalogu nebo tracků vytvořených mimo Suno, které reprezentují požadovaný styl.

  2. Trénovací materiál udržuj stylisticky konzistentní. Míchání náhodných žánrů v jednom modelu učení znepřehlední; držení se jedné linie, například full orchestral, future bass nebo indie folk, dá modelu jasnější směr.

  3. Pojmenuješ Custom Model a Suno na základě těchto výběrů natrénuje personalizovanou verzi V5.5.

  4. Custom Model použiješ pro budoucí generace, které převezmou tvůj stylový fingerprint.

Limity: Až 3 Custom Models na jednoho předplatitele Pro nebo Premier. To umožňuje udržovat oddělené modely pro různé projekty nebo žánry, například jeden pro indie folk, jeden pro electronic a jeden pro hip-hop.

Co Custom Models zachycují: Žánrové tendence, aranžérské patterny, produkční estetiku a stylistické preference z vybraných trénovacích skladeb. Nememorují ani nereprodukují konkrétní melodie nebo lyrics z trénovacího materiálu.


My Taste (V5.5)

My Taste je funkce ve V5.5 dostupná všem uživatelům, včetně free tieru, která postupně přizpůsobuje chování generování v Sunu individuálním preferencím.

Jak to funguje: Jak generuješ, lajkuješ a interaguješ se skladbami, Suno si vytváří preference profile. My Taste je ve výchozím nastavení zapnuté, ale lze ho zobrazit, upravit nebo vypnout z menu avatara. Ikona kouzelné hůlky v pravém horním rohu boxu Styles je hlavní trigger: se zapnutým Style Augmentation vygeneruje style text přizpůsobený tvému taste profile. My Taste ovlivňuje výchozí nastavení generování, jemné biasy směrem k žánrům, production styles, vocal qualities a strukturálním patternům, které jsi dlouhodobě preferoval.

Co My Taste ovlivňuje:

  • Výchozí žánrové a stylové tendence, pokud jsou prompty nedostatečně specifikované

  • Preference produkční estetiky, například lo-fi vs. polished, sparse vs. dense

  • Biasy ve vocal style

  • Arrangement a strukturální patterny

Co My Taste nenahrazuje:

  • Explicitní deskriptory v poli Style stále přepisují preference My Taste

  • Creative Sliders stále fungují nezávisle

  • Persona Voices a Voice Cloning nejsou ovlivněny

Praktický dopad: My Taste snižuje problém „cold start“, kdy noví uživatelé dostávají generické výsledky. Postupem času i jednoduchý prompt jako „upbeat rock song“ vytvoří výsledky, které lépe odpovídají konkrétní podobě rocku, kterou preferuješ, podle tvé historie generování.

 


Generation Loop

Generativní smyčka Efektivní používání Suna stojí na iterativním workflow, ne na přístupu s jedním promptem.

Produkční cyklus

  1. IDEACE
    ↓ Vygeneruj 5–10 variací s různými Style descriptors
    ↓ (Cena: ~25–50 kreditů)

  2. SELEKCE
    ↓ Vyber 1–2 nejlepší výsledky
    ↓ Urči, co funguje a co ne

  3. REFINEMENT - VYLEPŠENÍ
    ↓ Uprav Style descriptors podle toho, co jsi slyšel
    ↓ Zpřesni lyrics a metatagy
    ↓ Regeneruj s přesnějšími prompty
    ↓ (Cena: ~15–30 kreditů na jedno kolo)

  4. EXTENSION - ROZŠÍŘENÍ
    ↓ Rozšiř nejlepší track na plnou délku
    ↓ Přidej chybějící sekce (bridge, outro)
    ↓ (Cena: ~5–15 kreditů)

  5. EDITING - ÚPRAVY
    ↓ Použij Song Editor k opravě slabých sekcí
    ↓ Podle potřeby použij inpaint, crop a fade
    ↓ (Cena: ~5–20 kreditů)

  6. EXPORT - VÝSTUP
    ↓ Stáhni finální audio (MP3/WAV)
    ↓ Volitelně exportuj stems pro práci v DAW

Typická cena za vypilovaný track: 50–100 kreditů (zhruba 10–20 vygenerovaných skladeb, obvykle 5–10 dvouskladbových Create batches plus úpravy).

Walkthrough: jedna skladba od konceptu po export

Tady je kompletní produkční cyklus pro jeden track, ukazující konkrétní prompty a rozhodnutí v každé fázi:

  1. Koncept: „Moody indie folk song about insomnia.“

  2. První Create batch (10 kreditů, 2 variace):

Style: Indie folk, slow tempo, acoustic guitar fingerpicking, soft female vocals, intimate lo-fi recording

Lyrics:

[Verse 1]

The ceiling holds no answers
Just shadows and the clock
Every hour stretches longer
When the world has gone to dark

[Chorus]

Sleep won't come, sleep won't come
I'm counting every sound

[Verse 2]

The neighbors' lights went out at ten
The street grew still by twelve
Now it's somewhere past forever
And I'm talking to myself

[Chorus]

Sleep won't come, sleep won't come
I'm counting every sound

[Outro: fade out, humming]

  1. Selection: Variace B má správný vokální tón, ale melodie chorusu je na danou náladu příliš veselá. Variace A má lepší chorus, ale slabý kytarový tón.

  2. Refinement (10 kreditů): Regenerace s upraveným polem Style: změněno „lo-fi recording“ na „warm analog recording“ a přidáno „sparse arrangement“. Lyrics zůstaly stejné. Nová Variace A má hřejivost z prvního kola a tlumenější chorus.

  3. Extension (5 kreditů): Skladba končí ve 2:30. Prodlouženo pomocí [Bridge: piano only, vulnerable vocals] + nové lyrics + [Chorus] + [Outro: fade out, ambient reprise]. Bridge přirozeně zavádí piano.

  4. Editing (10 kreditů): Přechod z verse 2 do chorusu je příliš náhlý. Pomocí Song Editoru byl použit inpaint na 4sekundové okno v tomto místě. Druhý pokus inpaintingu už navazuje plynule.

  5. Export: Stažen WAV pro mastering v Logic Pro. Celková cena: 35 kreditů, zhruba 7 song-level generací nebo úprav.

Klíčový poznatek: většina kreditů padla na první dvě kola — nalezení správného zvuku — ne na poslední tři, která už jen dolaďovala dobrý take. Front-loading přesnosti promptu ušetřil nejméně 30 kreditů oproti přístupu s vágním promptem a následným iterováním.

Tipy pro credit-efficient workflow

Věnuj čas promptu, ne generacím. Dobře připravený Style + Lyrics prompt přinese lepší první výsledky než rychlá iterace s vágními prompty.

Generuj v batches. Při zkoumání konceptu vygeneruj 4–6 variací najednou a teprve potom vyber nejlepší směr pro refinement.

Používej Song Editor místo regenerace. Pokud je 80 % tracku dobrých, uprav zbývajících 20 % místo regenerování celé skladby.

Ukládej si úspěšné Style prompty. Když některá kombinace deskriptorů funguje dobře, ulož si ji pro další použití.

Style: Indie folk, slow tempo, acoustic guitar fingerpicking, soft female vocals, intimate lo-fi recording, melancholic
Lyrics:
[Verse 1]
The ceiling holds no answers
Just shadows and the clock
Every hour stretches longer
When the world has gone to dark

[Chorus]
Sleep won't come, sleep won't come
I'm counting every sound

[Verse 2]
The neighbors' lights went out at ten
The street grew still by twelve
Now it's somewhere past forever
And I'm talking to myself

[Chorus]
Sleep won't come, sleep won't come
I'm counting every sound

[Outro: fade out, humming]

Líbil se vám článek? 
Podpořte mě na Patreonu

Jak nainstalovat Stable Diffusion na Windows

Chcete vytvářet obrázky na základě textového zadání přímo na vašem počítači? Stable Diffusion od Stability AI je výkonný nástroj pro generování obrázků pomocí AI, který lze snadno nainstalovat na Windows.

Co potřebujete vědět hned na začátku:

  • Co je Stable Diffusion? Jedná se o open-source nástroj pro generování obrázků pomocí textových příkazů, který funguje na běžném hardwaru.
  • Systémové požadavky:
    • Minimálně: Windows 10, NVIDIA GPU s 4 GB VRAM.
    • Doporučeno: Windows 10/11, NVIDIA GPU s 8+ GB VRAM.
  • Co budete potřebovat:
    • Python 3.10.6
    • Git
    • Aktuální ovladače grafické karty
  • Hlavní výhody:
    • Otevřený zdrojový kód
    • Možnost inpaintingu, outpaintingu a převodu mezi obrázky
    • Funguje i na průměrném hardwaru

Rychlé kroky k instalaci:

  1. Nainstalujte Python a Git, nastavte PATH.
  2. Vytvořte virtuální prostředí a nainstalujte balíčky jako torch, torchvision a transformers.
  3. Stáhněte repozitář AUTOMATIC1111 pomocí Git.
  4. Upravte soubor webui-user.bat podle vaší grafické karty.
  5. Stáhněte modely a umístěte je do správné složky.

Stable Diffusion je ideální pro kreativní projekty jako portréty, digitální umění nebo experimentování s AI. Pokračujte ve čtení a zjistíte detailní kroky, jak tento nástroj zprovoznit.

Systémové požadavky pro Windows

Hardwarové požadavky

Aby Stable Diffusion na Windows běželo hladce, doporučujeme splnit tyto hardwarové požadavky:

KomponentaMinimální požadavkyDoporučené požadavky
Operační systémWindows 10 64-bitWindows 10/11 64-bit
GPUNVIDIA s 4 GB VRAMNVIDIA s 8+ GB VRAM

Nemáte-li dedikovanou grafickou kartu NVIDIA, aplikaci lze provozovat i na procesoru. Některé výkonné procesory nabízejí dostatečný výkon. K dispozici jsou také open-source řešení, jako například OpenVINO, která umožňují efektivní využití CPU.

Softwarové předpoklady

Pro instalaci Stable Diffusion budete potřebovat:

  • Python 3.10.6 – doporučená verze pro zajištění kompatibility.
  • Git – pro stahování a aktualizaci potřebných souborů.
  • Aktuální grafické ovladače NVIDIA, pokud používáte GPU.

Při instalaci Pythonu nezapomeňte zaškrtnout možnost přidat python.exe do proměnné PATH.

Pro lepší výkon na CPU můžete v souboru stable_diffusion_engine.py přidat tento řádek:

self.core.set_property("CPU", {"INFERENCE_NUM_THREADS": 8})

Pokud váš hardware nesplňuje požadavky, můžete využít webovou verzi Stable Diffusion, která nabízí podobné funkce bez nutnosti lokální instalace a náročného hardwaru.

Příprava instalace

Než začnete s instalací Stable Diffusion, je nutné připravit Python prostředí a zajistit instalaci potřebných balíčků.

Instalace Pythonu

Pro správnou funkčnost Stable Diffusion je klíčové mít správně nainstalovaný Python. Zkontrolujte jeho přítomnost příkazem:

python --version

Pokud Python nemáte, stáhněte verzi Python 3.10.6 z oficiálních stránek na Python.org. Během instalace nezapomeňte zaškrtnout možnosti Use admin privileges a Add python.exe to PATH.

Vytvoření virtuálního prostředí

Virtuální prostředí pomáhá izolovat projekt a předcházet konfliktům mezi různými Python aplikacemi. Postup vytvoření:

  1. Spusťte příkazový řádek.
  2. Přesuňte se do složky, kde chcete prostředí vytvořit.
  3. Vytvořte virtuální prostředí příkazem:

    python -m venv sd_env
    
  4. Aktivujte prostředí:

    sd_env\Scripts\activate
    

Instalace potřebných balíčků

Nejprve aktualizujte pip:

python -m pip install --upgrade pip

Poté nainstalujte tyto balíčky:

BalíčekPopis
torchPro strojové učení a akceleraci GPU
torchvisionPro zpracování obrazu
transformersPro práci s AI modely

Tipy pro řešení problémů:

  • Pokud narazíte na chybu s torch, přidejte parametr --skip-torch-cuda-test do webui-user.bat.
  • Vyhněte se instalaci do složek s diakritikou nebo speciálními znaky.
  • Při problémech s GPU zkuste instalaci přes Microsoft Store.

Pro nejlepší výkon doporučujeme používat aktuální ovladače NVIDIA a pravidelně aktualizovat všechny balíčky.

Jakmile je prostředí připraveno, můžete přejít k samotné instalaci Stable Diffusion.

Instalační kroky

Stažení souborů

Nejdříve si stáhněte potřebné soubory pro instalaci Stable Diffusion. Otevřete příkazový řádek a spusťte následující příkazy pro klonování webového rozhraní AUTOMATIC1111:

cd %userprofile%
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

Po dokončení se ve vaší domovské složce vytvoří adresář s názvem stable-diffusion-webui.

Nastavení konfigurace

Aby vše fungovalo hladce, je potřeba upravit konfigurační soubor webui-user.bat. Klikněte na něj pravým tlačítkem a zvolte možnost Upravit. Konkrétní nastavení závisí na velikosti paměti vaší grafické karty:

Paměť GPUDoporučené parametry
12 GB+--xformers
8 GB--medvram --xformers
4 GB--lowvram --xformers

Chcete-li zvýšit rychlost generování, přidejte parametr --opt-sdp-attention. Například, pokud máte 8 GB VRAM, upravený řádek v souboru by mohl vypadat takto:

set COMMANDLINE_ARGS=--opt-sdp-attention --medvram --xformers

Instalace modelu

Nakonec stáhněte základní model Stable Diffusion podle těchto kroků:

  1. Otevřete složku %userprofile%\stable-diffusion-webui\models\Stable-diffusion.
  2. Stáhněte soubor v1-5-pruned-emaonly.ckpt nebo v1-5-pruned-emaonly.safetensors.
  3. Umístěte stažený soubor do uvedené složky.

"Použití parametru --opt-sdp-attention může zrychlit práci s modely Stable Diffusion. Pokud máte méně než 8 GB VRAM, doporučuje se zapnout také volbu --medvram pro efektivnější využití paměti při generování více obrázků." - Stable Diffusion Art

Pokud hledáte další modely, můžete navštívit platformu Civit AI. Specializované modely nalezené tam lze umístit do stejné složky jako základní model.

Pro vzdálený přístup k webovému rozhraní z jiného zařízení přidejte do konfigurace parametr --listen. Pokud narazíte na problémy s generováním (např. chyby NaN), zkuste přidat parametr --no-half.

sbb-itb-6f064b4

Používání Stable Diffusion

Stable Diffusion

Teď, když máte instalaci hotovou, je čas začít pracovat se Stable Diffusion.

Spuštění programu

Otevřete Stable Diffusion dvojklikem na soubor webui-user.bat ve složce stable-diffusion-webui. Při prvním spuštění se automaticky stáhnou a nainstalují všechny potřebné balíčky. Po dokončení tohoto procesu se v příkazovém řádku zobrazí lokální URL adresa, obvykle http://127.0.0.1:7860. Tuto adresu zadejte do webového prohlížeče, abyste se dostali k webovému rozhraní AUTOMATIC1111.

Orientace v rozhraní

Webové rozhraní Stable Diffusion je navrženo tak, aby bylo snadno pochopitelné a přehledné. V horní části najdete sekci „Rychlá nastavení“, kterou můžete přizpůsobit v části Nastavení -> Uživatelské rozhraní -> Seznam rychlých nastavení.

Rozhraní obsahuje několik klíčových prvků: výběr základního modelu, pole pro zadání promptu, nastavení parametrů generování a sekci pro zobrazení výsledků. Pořadí těchto prvků můžete změnit v Nastavení -> Uživatelské rozhraní -> Pořadí prvků UI pro záložky txt2img/img2img.

První generování obrázku

Pro vytvoření svého prvního obrázku postupujte následovně:

  • Základní nastavení
    Nastavte tyto parametry:

    • Počet kroků vzorkování: alespoň 20
    • CFG škála: 7 (vyšší hodnota znamená přesnější dodržení promptu)
    • Velikost obrázku: 512 x 512 pixelů
  • Vytvoření promptu
    Zadejte například tento prompt:

    realistická fotografie bílé kočky sedící na okenním parapetu, měkké denní světlo
    

    A přidejte negativní prompt:

    rozmazané, nízká kvalita, deformace, chybějící končetiny
    

Vyzkoušejte generování více variant stejného promptu a experimentujte s různými styly a nastaveními, dokud nedosáhnete výsledku, který vás uspokojí.

Řešení problémů a výkon

Časté problémy

Problémy s instalací Pythonu

  • Používejte výhradně Python 3.10.6. Novější verze (3.11 a vyšší) mohou způsobovat problémy s kompatibilitou.

Chyby při spuštění

  • GitHub chyby: Pokud se objeví chyba "fatal: detected dubious ownership", klonujte repozitář pomocí příkazového řádku spuštěného pod vaším uživatelským účtem.
  • Chyby knihoven a GPU:
    • Při chybě "ImportError: DLL load failed while importing cv2" znovu nainstalujte OpenCV.
    • Pokud vidíte "RuntimeError: Torch is not able to use GPU", aktualizujte ovladače NVIDIA.

Problémy s pamětí

  • Máte-li pouze 4 GB VRAM, přidejte argument --lowvram do souboru webui-user.bat.
  • Pokud narazíte na chyby NaN, zkuste použít argument --no-half.

Optimalizace rychlosti

Úpravy konfigurace

  • Do souboru webui-user.bat přidejte:
    • --xformers pro rychlejší renderování
    • Nastavte batch size na hodnotu 4
    • Vypněte funkci živého náhledu

Optimalizace pro RTX 4000

Pro grafické karty série RTX 4000 použijte následující nastavení:

--xformers
--opt-sdp-no-mem-attention --no-half-vae --opt-channelslast

Proces aktualizace

Pravidelná aktualizace softwaru pomáhá předcházet problémům a zajistit plynulý chod.

Základní aktualizace

  1. Spusťte příkaz git pull v hlavní složce projektu.
  2. Pokud se objeví chyby, použijte tyto příkazy:
git checkout -f master
git pull

Řešení problémů s aktualizací

  • Smažte složku venv a restartujte aplikaci.
  • Pokud je to nutné, odstraňte složku repositories.
  • U problémových rozšíření smažte příslušné rozšíření ze složky extensions.

"Pokud git pull zobrazuje chybu, je to obvykle způsobeno náhodnou změnou některých souborů. Můžete resetovat složku webui pomocí následujících dvou příkazů: git checkout -f master a poté znovu spustit git pull. Pamatujte, že všechny soubory budou resetovány. Budete muset znovu provést změny v webui-user.bat." - Stable Diffusion Art

Další kroky

Po vyřešení problémů a doladění výkonu je čas přejít k plánování dalších aktivit se Stable Diffusion.

Shrnutí instalace

Než začnete svůj první projekt, ujistěte se, že máte vše připraveno:

  • Python 3.10.6 je nainstalován
  • GPU nastavení bylo úspěšně ověřeno
  • Modely jsou staženy
  • Webové rozhraní funguje bez problémů

Nápady na projekty

Když už máte instalaci za sebou, zkuste se inspirovat těmito kreativními projekty:

Portréty

  • Zkuste vytvořit portréty v různých stylech
  • Naučte DreamBooth pracovat s vašimi vlastními fotografiemi
  • Kombinujte různé umělecké styly do jednoho díla

Digitální umění

  • Navrhněte fantasy postavy s detailními popisy, například „mysterious sorceress, detailed leather clothing with gemstones“
  • Tvořte pixel art v klasickém, isometrickém nebo cyberpunk stylu
  • Vytvářejte krajiny od fantasy světů až po sci-fi scenérie

Zdroje pro další vzdělávání

Chcete-li své dovednosti posunout dál, využijte tyto užitečné zdroje:

Online platformy

Praktické tipy

"Přistupujte k tvorbě promptů jako k iterativnímu procesu. Přidávejte maximálně dva klíčové výrazy najednou a generujte více obrázků pro posouzení jejich efektu." - Stable Diffusion Art

Pro co nejlepší výsledky:

  • Vytvářejte detailní a promyšlené prompty
  • Zkoušejte měnit váhu klíčových slov pomocí () a []
  • Používejte negativní prompty, abyste odstranili nežádoucí prvky

Related posts


Jak vytvářet hudbu pomocí Udio?

Návod na generování AI hudby pomocí Udio Beta

Obsah návodu

Automatické dokončování
Navrhované značky
Tipy pro zadávání podnětů
Vlastní texty a instrumentální skladby
Manuální režim
Extend - Rozšíření stop
Remixování skladeb
Inpainting - Přetvoření části
Pokročilé funkce
Autorská práva

Základy

Vytváření skladeb pomocí aplikace Udio je snadné. Stačí zadat popis toho, co chcete vytvořit, do pole pro výzvu a kliknout na tlačítko Vytvořit - Create. Například zadejte "a jazz song about New York" (jazzová skladba o New Yorku).

UDIO - AI generování hudby - návod česky - základy a automatické generování textu

„píseň o letním dešti“ (a song about summer rain) je volná část a ‚jazz‘, ‚mellow‘, ‚warm‘ jsou tagy. Všimněte si, že různé části výzvy jsou od sebe odděleny čárkami (,), středníky (;) nebo tečkami (.). Výzva může obsahovat libovolný počet volných částí a značek v libovolném pořadí.

Kromě toho může výzva obsahovat odkaz na styl umělce, což usnadňuje popis hudby, kterou chcete vytvořit. Například výše uvedenou výzvu můžete rozšířit na:

"a song about summer rain, jazz, mellow, warm, in the style of Billie Holiday"
„píseň o letním dešti, jazzová, jemná, teplá, ve stylu Billie Holiday“.

Všimněte si, že Udio negeneruje skladby pomocí hlasů umělců a pod kapotou je odkaz na styl nahrazen sadou příslušných značek. Abyste si mohli s výzvou pomoci, najdete pod textovým vstupem dva typy navrhovaných značek, na které můžete kliknout a přidat je do výzvy.

 

Auto-completions - Automatické dokončování:

UDIO - AI generování hudby - návod česky - automatické dokončování

Jedná se o navrhované doplňky tagů pro aktuální slovo.

Pozor! Můžete přesunout kurzor na libovolnou část výzvy, čímž se odpovídajícím způsobem změní doplnění.

Navrhované značky (šedé pozadí):

UDIO - AI generování hudby - návod česky - podněty a výzvy

Navrhované značky, které doplňují aktuální sadu značek, seřazené podle relevance. Navržené značky jsou příjemným nástrojem pro průzkum, který vás může přivést k zajímavým kombinacím, zejména pokud jste ochotni je procházet.

Bez ohledu na to, jak podrobné jsou textové podněty, nemohou plně definovat skutečnou hudební skladbu - stejný text popisuje nekonečné množství možných zvukových stop. Proto chcete-li se přiblížit hudební představě, kterou máte v hlavě, možná budete chtít vytvořit více klipů se stejnými nápovědami (a dalšími nastaveními). Udio ve výchozím nastavení vytváří dva výstupy pro každý vstup, který modelu poskytnete. Ale ani to často nestačí, proto se stav pole s nápovědou po klepnutí na tlačítko Vytvořit neresetuje. To usnadňuje řazení dalších generací do fronty s úpravami nebo bez nich.

Pokud se vám nechce pokračovat v práci na stejné výzvě, klikněte na tlačítko Resetovat - okno výzvy se vrátí do výchozího prázdného stavu. Dobrá příležitost vyzkoušet něco jiného a nového!

Tipy pro zadávání podnětů

Nenechte se odradit, pokud Udio nevytvoří přesně to, co jste chtěli, na první pokus. Stiskněte tlačítko Vytvořit - je pravděpodobné, že jedna z výsledných skladeb bude úžasná.

Některé méně obvyklé kombinace značek může být o něco těžší zprovoznit. Pokud nepomůže převzorkování, můžete prozkoumat jiné způsoby míchání stylů - pomocí rozšíření stopy nebo remixování.

Vlastní texty a instrumentální hudba

Ve výchozím nastavení Udio automaticky vybírá vhodné texty pro vaši výzvu (včetně tvorby instrumentálních skladeb, kde to dává smysl). Pokud chcete použít vlastní texty, vyberte v části textů v poli výzvy možnost Vlastní režim a vložte svůj text do textového vstupu takto:

UDIO - AI generování hudby - návod česky - text a instruměntální hudba bez zpěvu

Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industrys standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book.

Chcete-li své výtvory ozvláštnit, zkuste přidat speciální popisky, například [Verse], [Chorus], [Hook], [Guitar Solo] nebo [Drop]. Pomocí závorek můžete také určit doprovodné vokály.

Texty nemusí být v angličtině. Některé z jazyků, které Udio rozpoznává, jsou: Udio rozeznává čínštinu, japonštinu, ruštinu, polštinu, němčinu, francouzštinu a italštinu. Vyzkoušejte to - je to zábava!

Pokud si všimnete, že model špatně vyslovuje nějaké slovo, můžete ho rozdělit na jednodušší hlásky. Dalším problémem, na který můžete narazit, je, že model klade důraz na špatnou slabiku. To lze zmírnit zdůrazněním správné slabiky přímo v textu (např. v ruštině zkuste místo бето́номешалка napsat бетономешалка).

Mějte na paměti, že Udio vytváří 30 sekundové zvukové klipy, takže množství textu by mělo odpovídat délce trvání - pro většinu žánrů asi 6 řádků, pro pomalejší písně méně a pro rychlejší více. Popřípadě můžete použít placenou verzi udio-130, která vytváří dvouminutové písně.

Chcete-li vynutit, aby skladba byla instrumentální, vyberte možnost Instrumentální režim. Upozorňujeme, že tento režim není stoprocentně spolehlivý a občas se mohou objevit zvuky připomínající hlas.

Do výzvy můžete přidat značky instrumentace. Zkuste například přidat „akustická kytara“, „housle“, „flétna“ nebo „syntezátor“  (“acoustic guitar”, “violin”, “flute”, “synthesizer”) (nebo všechny - uvidíte, co se stane). Automatické dokončování je dobrý způsob, jak zjistit, zda Udio rozumí určitému nástroji.

Manuální režim

Ve výchozím nastavení projde vaše výzva po kliknutí na tlačítko Vytvořit výrazným následným zpracováním. To se provádí jednak proto, aby se výzva obohatila o relevantnější údaje, a také proto, aby se převedla do podoby, která je pro základní model srozumitelnější. Díky tomu můžete bez námahy dosáhnout dobrých výsledků, aniž byste se museli starat o drobnosti nízkoúrovňových výzev.

V některých případech však můžete chtít mít větší kontrolu nad tím, co se do modelu dostane, nebo nemusíte být plně spokojeni s tím, jak Udio vaši výzvu přepíše. V tomto případě se hodí ruční režim. Můžete jej zapnout klepnutím na přepínač Ruční režim v poli výzvy.

V ručním režimu jsou všechny potřebné přepisy vypnuty a výzva se do modelu dostane z velké části nezměněná. To znamená, že musíte být při tvorbě popisu skladby pečlivější - povoleny jsou pouze značky a žádný volný text. I v ručním režimu můžete samozřejmě zkusit napsat prakticky cokoli, ale je pravděpodobné, že Udio nebude schopno vaši výzvu správně interpretovat. S ohledem na tuto skutečnost můžete začít experimentovat s některými složitými kombinacemi značek pomocí automatického dokončování a návrhů značek pod hlavním vstupem výzvy. Udělejte si tuto výzvu skutečně vlastní!

Do výzvy můžete přidat značky instrumentace. Zkuste například přidat “acoustic guitar”, “violin”, “flute”, “synthesizer” (nebo všechny - uvidíte, co se stane). Automatické dokončování je dobrý způsob, jak zjistit, zda Udio rozumí určitému nástroji.

Zkuste míchat různé nebo dokonce zdánlivě neslučitelné žánry („eurodance“ a „black metal“ - proč ne?). Buďte trpěliví a připravte se na to, že budete muset několikrát kliknout na tlačítko Vytvořit, aby tato kombinace konečně fungovala.

Někdy můžete zvýšit vliv určité značky tím, že ji ve výzvě několikrát zopakujete.

Všimněte si, že v ručním režimu není ve výzvě žádný volný text, model tedy nemá možnost zjistit téma textu skladby, takže se pokusí vykouzlit nějaké téma na základě zadaných značek. To často vede k poměrně obecným textům, takže při práci v ručním režimu je vhodné prozatím zůstat u vlastních textů.

Rozšíření stop

Udio generuje hudbu po 32s sekcích. Můžete tak poměrně rychle projít několik možností a rozhodnout se, kterou z nich se vyplatí prodloužit. Do režimu Rozšíření se dostanete buď kliknutím na tlačítko Extend na stránce skladby, nebo výběrem možnosti Extend track v kontextové nabídce (kliknutím pravým tlačítkem myši na skladbu nebo kliknutím na ikonu .... V tomto režimu se změní vzhled okna výzvy a zpřístupní se další ovládací prvky:

UDIO - AI generování hudby - návod česky - rozšiřování - extend

Jedním z nových prvků, kterých si můžete všimnout, je oblast zobrazující původní klip, který právě prodlužujete:

Originální prompt u Extend Track

Kromě toho, že vám tato oblast usnadní přehled o tom, na čem pracujete, můžete také zkopírovat výzvu použitou k vytvoření původního klipu kliknutím na ikonu kopie napravo od stopy. Všimněte si, že ve výchozím nastavení je hlavní vstup pro výzvu předvyplněn původní výzvou. Tím je zajištěno, že rozšíření, které se chystáte vytvořit, bude stylem odpovídat originálu. Přesto můžete výzvu změnit na cokoli a někdy to vede k velmi zajímavým výsledkům. Například můžete chtít rozvinout skladbu z mírné akustické kytarové linky na řvoucí kytarové sólo doprovázené těžkými zkreslenými power-akordy - toho lze snadno dosáhnout použitím různých žánrů a značek instrumentace pro různé části skladby.

Režim rozšíření - Extension mode můžete kdykoli opustit a vrátit se do běžného režimu vytváření kliknutím na tlačítko Vytvořit nový - Create New.

Pokud se vám úpravy výzvy kdykoli znelíbí, můžete se pomocí funkce kopírování vrátit k původní výzvě.

Nejjednodušší pracovní postup pro vytvoření 1,5minutové samostatné skladby je následující:

  • Vygenerujte střední (hlavní) část pomocí běžného režimu tvorby. To je „maso“ vaší skladby, nejzajímavější část.
  • Vstupte do režimu rozšíření pro právě vytvořenou část.
  • V oblasti Umístění rozšíření vyberte možnost Přidat intro a klikněte na tlačítko Rozšířit. Tím vytvoříte náběh na hlavní část. Výsledná dvousekční skladba má nyní délku 1 minuty.
  • Vstupte do režimu Rozšíření pro 1minutovou stopu.
  • Vyberte možnost Add Outro a klikněte na tlačítko Extend. To je vše - nyní jste vytvořili hudební skladbu, která má správný začátek a závěr. A je jen vaše!

 

Můžete rozšířit skladby původně vytvořené jinými uživateli.

Remixování skladeb

Další skvělou funkcí služby Udio je remixování. Remix je jemná nebo nepříliš jemná obměna existujícího klipu. Chcete-li jej vytvořit, vyberte nejprve vhodnou skladbu (prozatím můžete remixovat pouze třicátnické skladby) a klikněte na tlačítko Remix buď na stránce skladby, nebo v kontextové nabídce.

Oproti standardnímu režimu tvorby je v okně s výzvou jedna nová oblast:

UDIO - AI generování hudby - návod česky - Remixování a variace

Levá strana je totožná s oblastí původního klipu v režimu Rozšíření a posuvník v pravé části umožňuje ovládat sílu efektu remixování (Variance). V nejslabším bodě, kdy je posuvník zcela vlevo, remixování nemění původní zvuk. Jakmile jej posunete doprava (kliknutím na tlačítko Remix po nastavení polohy posuvníku), efekt se stane zřetelnějším - určité aspekty klipu se začnou měnit. Nízké hodnoty síly většinou ovlivňují jemné detaily, zatímco celková struktura a harmonie originálu zůstává nedotčena. Můžete si například všimnout, že se jemně mění barvy nástrojů a hlasů nebo se mírně mění vzor bicích nástrojů. Vyšší hodnoty síly přinášejí výraznější změny, přičemž nejpravější poloha posuvníku přináší výsledky, které se původnímu klipu téměř nepodobají.

Ve výchozím nastavení je podobně jako v režimu Rozšíření počáteční text výzvy převzat z původní skladby. To je užitečné, pokud chcete, aby byl remix v podobném stylu jako originál. Skutečně zajímavým se však remixování stává, když se pokusíte výzvu buď upravit, nebo napsat zcela novou. Tímto způsobem můžete například přidat nový nástroj nebo se odvázat a vytvořit zcela nový žánrový crossover. Možnosti jsou neomezené.

Kromě změny výzvy můžete stejně jako v jiných režimech tvorby měnit také text. Aby to však dobře fungovalo, možná budete muset použít poměrně vysokou hodnotu Variance, zejména pokud text výrazně změníte.

Remixování je užitečné pro opravu drobných chyb ve výslovnosti.

Zkuste vytvořit několik remixů pro stejnou hodnotu odchylky. Každý z nich se bude od sebe lišit, ale bude mít zhruba stejnou míru podobnosti s originálem.

Inpainting

Při vytváření skladby se někdy vyskytnou drobné chyby, které chcete opravit, nebo lokální úpravy, které byste rádi provedli při zachování celkové hudební struktury. V tomto případě je užitečná funkce inpainting. K funkci inpainting můžete přistupovat prostřednictvím stránky skladby nebo kontextové nabídky.

Inpainting je v současné době k dispozici pouze pro placené předplatitele.

Jakmile vyberete stopu pro inpainting, zobrazí se v okně s výzvou nová část, která obsahuje dva průběhy. Spodní průběh představuje celou stopu a okno zobrazuje aktuální pracovní oblast pro inpainting. Horní průběh zobrazuje tuto zvětšenou pracovní oblast.

UDIO - AI generování hudby - návod česky - Inpaiting - Přepsání

V rámci pracovní oblasti můžete přidat až čtyři oblasti inpaintingu. Tyto oblasti inpaintingu jsou úseky, pro které bude zvuk přegenerován, přičemž vše ostatní v pracovní oblasti a zbytku stopy zůstane stejné.

Při inpaintingu mohou hrát důležitou roli úpravy textů. Například můžete chtít použít inpainting pro jemné úpravy vokálů. Toho dosáhnete tak, že texty písní, které odpovídají celkové pracovní oblasti, ohraničíte třemi hvězdičkami na obou stranách. V rámci těchto textů můžete provádět změny, ale měli byste také zajistit, aby oblasti pro inpainting odpovídaly upraveným textům.

Pozor! Texty, které odpovídají pracovní oblasti, musíte stále opatřit třemi hvězdičkami, i když inpaintujete pouze instrumentální oblasti.

Uveďme si příklad. Nejprve klikněte na tlačítko „Inpaint“ na stránce stopy. Tím se otevře okno s uživatelským rozhraním pro inpainting UI.

Poté vyberte pracovní oblast přetažením okna na dolní křivce (pracovní oblast označená pomocí oranžových šipek níže). Poté upravte oblast inpaintingu v horním průběhu tak, aby pokrývala úsek, který chcete přebarvit (označen pomocí žluté šipky níže). Můžete přidat až čtyři takové oblasti inpaintingu.

V tomto případě řekněme, že chcete upravit jednu vokální linku. Upravte okno inpaintingu tak, aby pokrývalo úsek, který obsahuje právě tuto vokální linku. Poté uzavřete text celé pracovní oblasti pomocí tří hvězdiček, včetně řádku, který má být změněn. Tato shoda je vyznačena pomocí oranžových a žlutých šipek níže. Nakonec řádek upravte a klikněte na tlačítko „Create“.

UDIO - AI generování hudby - návod česky - Inpaint - přepsání

Pokročilé funkce

Pokud v okně výzvy přepnete rozevírací nabídku Pokročilé funkce, zobrazí se několik dalších možností:

  • Můžete nastavit náhodný seed, aby bylo možné klipy reprodukovat (v ručním režimu - Manual mode). Použití stejného seedu při změně výzvy nebo textu může někdy pomoci zachovat určité vlastnosti klipu, aniž by se tyto vlastnosti musely výslovně vyžadovat.
  • Můžete nastavit sílu výzvy nebo textu a ovlivnit tak, jak moc tyto vstupy ovlivní výstup. Vyšší síla podnětu zlepšuje dodržování, ale může vést k méně přirozenému zvuku hudby. Nižší síla textu může vést k přirozenějšímu zpěvu, ale někdy může být text ignorován.
  • Pomocí položky Čas začátku klipu lze řídit, kde má generovaný klip začínat v kontextu celé skladby. Například 0 % odpovídá začátku, 50 % středu a 90 % klipu z konce skladby. To je užitečné zejména v kombinaci s funkcí prodloužení, ale také to znamená, že můžete vždy začít skladbu například od intra.
  • Posuvník kvality generování umožňuje vyměnit kvalitu za rychlost generování a naopak. To vám může umožnit prozkoumávat rychleji, aniž byste obětovali příliš mnoho kvality, takže doufáme, že to vyzkoušíte.
Udio-130 advenced features seed

Seed-Sada: U verze Udio-130 umožňuje uživateli použít při generování hudebních klipů stejnou náhodnou sadu (0-∞), čímž se generované klipy opakují. Použití stejného čísla sady umožňuje zachovat určité specifické vlastnosti při každém generování, i když se změní tag-značka nebo text písně. Můžete použít sadu již vygenerované sady, zkopírovat sadu tlačítkem copy, kolečkem repeat nastavit hodnu -1 (náhodné číslo), nebo zkusit štěstí kostkami - číslo závisí na olajkovaných písních.

Autorská práva

Často se můžeme setkat s otázkou jak je to s autorskými právy u generované AI hudby. I když můžeme narazit na polemiku o tom, že autorská práva platí v každé zemi jinak, odpověď je zcela prostá. Syntetický obsah na internetu je zatím a díky bohu divoký západ. Nicméně Udio samo říká v originální příručce, že píseň je jen vaše a tím pádem se vzdává jakéhokoliv autorství. Je dobré podotknout, že je slušností a nikoliv nutností, poznamenat autorství třeba slovy "Created by Petr Chroustovsky & Udio". Pro nás Evropany zatím také platí povinnost označovat syntetický obsah štítkem AI na sociálních sítích dle Nařízení 2024/1689.

Autorska prava
Článek: Za 36 hodin režisérem, hudebním tvůrcem a producentem