Midjourney Aktualizace 2025 – V7: Časová osa & video, 3D funkce

Novinky, které nás čekají tento rok v MidJourney 

Už je to nějaká doba, co jsem sdílel novinky o MidJourney – čekal jsem na skutečně zásadní aktualizace, které stojí za váš čas. A teď to přichází – rok 2025 začíná pořádným nášupem. MidJourney se neustále vyvíjí s novými funkcemi a vylepšeními. V lednu jsme se dočkali velkých změn, včetně možnosti míchání moodboardů a vylepšené funkce „describe“ na webu. Koncem února se očekává vydání verze 7, která přinese zásadní pokrok v oblasti videa a 3D obsahu. Zde je kompletní přehled nejnovějších aktualizací a nadcházejících funkcí.

Míchání Moodboardů

MidJourney nyní umožňuje kombinovat více moodboardů do jednoho výstupu, čímž dosáhnete přesnějších a konzistentnějších vizuálů. Navíc lze moodboardy kombinovat se stylovými referencemi pro ještě kreativnější výsledky.

  • Pro vícenásobné směsi Stačí přidat kód moodboardu do parametru profilu.
  • Každý moodboard má stejnou váhu při tvorbě výsledného obrazu.
  • Style Weight (SW) Do budoucna se plánuje možnost nastavit váhu jednotlivých moodboardů pro lepší kontrolu stylu.

Příklad: Srovnání jednoho moodboardu vs. kombinace více moodboardů vs. hybridní stylové reference.

Příklad: Podívejte se na tyto směsi - jednoduchá náladová tabule vs. chaos na více tabulích vs. hybridy referenčních stylů.

Funkce „Describe“ je nyní dostupná na webovém rozhraní.

Funkce „describe“, která převádí obrázky na text, byla dříve dostupná pouze na Discordu pomocí příkazu /describe. Nyní ji můžete využít přímo na webových stránkách Midjourney!

Jak na to:

  • Klikněte pravým tlačítkem na obrázek nebo jej přetáhněte do pole „imagine“.
  • Okamžitě dostanete nový sada návrhů promptů pro další generování.

Funkce „describe“ nenabízí přesné kopie, protože výsledky závisí na náhodných sadách, verzích modelu a obecných klíčových slovech.

Tip: Kombinujte „describe“ s obrazovou referencí pro ještě ostřejší a přesnější výstupy.

Funkce Midjourney Describe je sice výchozím bodem, ale není to nástroj pro kopírování a vkládání. Proměnné, jako jsou náhodná semena, verze modelu a neurčitá klíčová slova (např. „atmosférický“), ponechávají prostor pro interpretaci.


Časová osa vydání V7

Původně měla verze 7 vyjít dříve, ale kvůli technickým problémům byla odložena asi o týden. Nové očekávané vydání: polovina až konec února 2025.

Nové funkce ve V7:

Vyšší kvalita obrázků a lepší interpretace promptů
Lepší koherence detailů, zejména u složitých prvků, jako jsou ruce držící předměty (sbohem, uncanny ruce! )
Silnější podpora vícero jazyků pro lepší pochopení promptů 🌍
Character Consistency 2.0 (funguje i s ne-Midjourney referencemi!)
Personalizované profily a moodboardy budou kompatibilní s V7
Nový systém stylových referencí – podpora obrazových referencí při spuštění (detaily o kódech SRF zatím nejsou známy).

Proč trvá V7 tak dlouho?

Midjourney provádí zásadní změny v backendu, které usnadní budoucí aktualizace. Po vydání V7 tým plánuje 6–8 velkých aktualizací v průběhu roku 2025.


Velké novinky: Video a 3D obsah 

Video funkce přicházejí brzy

Midjourney pracuje na experimentálním video modelu ve spolupráci s partnery:

  • Nejdříve se spustí jeden nebo dva partnerské modely, které budou upraveny pomocí Midjourney procesingu.
  • Tento přístup pomůže zjistit preference uživatelů před vytvořením vlastního video modelu.
  • První video funkce by mohly být spuštěny už během příštího měsíce!

3D funkce na cestě

Midjourney plánuje přechod do 3D světa:

  • První verze umožní konvertovat 2D obrázky na 3D.
  • Uživatelé budou moci měnit úhly kamery a upravovat scény před finálním vykreslením.
  • Tato funkce bude fungovat jak pro objekty, tak pro celé scény, čímž se otevírají nové kreativní možnosti.

Další klíčové aktualizace

Batch Size 8 – větší gridy obrázků

  • Možnost generování až 8 obrázků najednou v jednom gridu.
  • Nepůjde jen o duplikaci promptů, ale o iterativní generování s lepšími výsledky.
  • Tato funkce bude závislá na aktualizaci UI webu a může být dostupná před nebo po vydání V7.

Překlad článku od Christie C. na Medium.com


Jak na mix kódů sref, personalizaci a vlastní stylistiku v MidJourney

Jak na mix kódů sref a personalizace v MidJourney

Po vydání aplikace Midjourney Personalization and Style Reference máte větší kontrolu nad stylem a estetikou. Právě dnes přidali další pokročilé možnosti. Midjourney umožňuje kombinovat kódy --sref a --p a vytvářet tak novou estetiku! Můžete také upravit váhu stylu a používat kódy s odkazem na styl. Podívejme se, jak na to. Případně zapátrejte v mojí aktualiziované referenční příručce.

Prolínání kódů style

Co je to kód --sref

Namísto použití obrázku jako odkazu na styl můžete použít číslo spolu s parametrem --sref. Každý kód "sref" představuje konkrétní styl.

  • Použití: Za textovou výzvu napište --sref a číselný seed
  • Podnět: --sref 123

Dříve bylo možné použít vždy pouze jeden kód sref, který ovlivňoval estetiku obrázku, jako je tomu níže.

Zde jsou tři způsoby, jak prozkoumat nové vizuály.

Nyní můžete kombinovat více kódů --sref dohromady. Smícháním dvou kódů sref můžete spojit estetiku dvou stylů a vytvořit novou estetiku.

  • Formát: podnět --sref 123 456

Níže jsou zobrazeny tři různé obrázky s použitím jediného kódu sref a kombinací dvou dohromady.

Zde jsou další příklady prolínání stylů.

Nedávno jsem objevil zdroj, který sestavil seznam "Sref kódů", určitě se podívejte na tuto úžasnou webovou stránku midjourneysref.com

Druhý typ prolnutí referenčního obrázku stylu a kódů sref

Můžete také smíchat adresy URL referenčních obrázků stylu a náhodné kódy sref dohromady, jak je uvedeno níže.

Formát: podnět --sref 123 url

Zde je výsledek

Míchání typu tři: Směšování kódů a důležitosti (weight --iw)

Můžete použít váhu : : individualních stylů.

Co je podnět Weights

Pokud je dvojitá dvojtečka :: použita k rozdělení výzvy na různé části, můžete bezprostředně za dvojitou dvojtečku přidat číslo, které přiřadí dané části výzvy relativní důležitost.

Pro "odkazy na styl - Style references" můžeme použít důležitost přidáním čísla za adresu URL, abychom určili relativní důležitost referenčního obrázku.

Pro úpravu stylů můžete přiřadit relativní váhy, například: --sref 123::2 456::1

Výsedky příkladu

Směšování personalizačních kódů

Personalizace modelu umožňuje uživatelům vyladit model umělé inteligence podle svých uměleckých stylů a preferencí.

  • Přizpůsobení: Výběr uživatelských preferencí ve srovnání s výchozím modelem Midjourney
  • Použití: Přidejte --p do podnětu nebo povolte personalizaci v nastavení.

Nyní můžete také kombinovat více personalizačních kódů modelu dohromady, například --p ab12ad3 cd34gl.

Na rozdíl od kódu sref neurčuje personalizace styl, ale je spíše pocitem.

Stejně jako u kódu sref můžete styl ovlivnit také pomocí vah, například takto 
--p ab12ad3::2 cd34gl::1

Prolnutí personalizačních a sref kódů

Můžete také kombinovat více personalizačních kódů a sref kódů dohromady. O personalizaci najdete informace v našem předchozím článku Personalizace pro MidJourney V6 je tady! a také refernční příručce.

  • Textový podnět --sref 123 456 --p codeA codeB

Zde je příklad s kódem sref a bez něj

Překlad článku od Christie C. na Medium.com 


Tísňové údolí a generovaná AI videa

Proč je někoho nesmírně těžké dívat se na umělý vizuál..

Tísňové údolí (anglicky „uncanny valley“) je fenomén, který popisuje negativní reakci člověka na umělou bytost nebo objekt, který je téměř, ale ne zcela lidský. Tento koncept poprvé představil japonský robotik Masahiro Mori v roce 1970. Podle Moriho teorie dochází ke stavu tísňového údolí tehdy, když robot, avatar nebo jiný umělý výtvor vypadá téměř jako člověk, ale stále vykazuje drobné nedokonalosti nebo zvláštnosti, které způsobují pocit nepohodlí či odporu.

Závislost lidských emocí při vnímání robota s proměnlivou mírou antropomorfismu. Osa x představuje míru antropomorfismu od zcela nehumanoidní bytosti po bytost nerozeznatelnou od člověka, osa y zachycuje míru emocí při vnímání takové bytosti lidmi. V počátku je neutrální, směrem nahoru rostou pozitivní a směrem dolů negativní emoce.

Závislost lidských emocí při vnímání robota s proměnlivou mírou antropomorfismu. Osa x představuje míru antropomorfismu od zcela nehumanoidní bytosti po bytost nerozeznatelnou od člověka, osa y zachycuje míru emocí při vnímání takové bytosti lidmi. V počátku je neutrální, směrem nahoru rostou pozitivní a směrem dolů negativní emoce.

Téměř lidští androidi nás děsí. Zjednodušený graf s průběhem od strojového robota s tísňovým údolím až téměř dokonalého zjevu a plně lidského zjevu.  

Tísnivé údolí, někdy též strašidelné údolí, je oblast na pomyslném grafu závislosti polarity lidských emocí při vnímání humanoidů (robotů, počítačem vytvořených trojrozměrných postav, detailně vymodelovaných panenek apod.) podle jejich míry podobnosti s člověkem (antropomorfismu). Míra kladných emocí při vnímání postupně lépe a lépe antropomorfizované bytosti zpočátku stoupá, ale nepředstavuje prostou funkci – od určité míry antropomorfismu klesá až k negativním emocím, aby těsně před metou dokonalé antropomorfizace opět stoupla k maximu. Interval v míře antropomorfismu, jímž obdařeného humanoida člověk vnímá odpudivě, se nazývá tísnivé údolí.

Mozek na funkční magnetické rezonanci při sledování robota, androida a člověka. Kredit: Ayse Pinar Saygin, UC San Diego. Sayginová a spol. natočili videa na nichž Repliee Q2, Japonka, která byla předobrazem podoby aktroidky a pak tentýž robot v syrové podobě bez lidského povrchu, tedy připomínající terminátora, dělají běžné pohyby, jako je mávání, přikyvování, uchopování sklenky s vodou nebo zvedání kousku papíru. Dobrovolníkům nejprve prozradili, kdo je na kterém videu, pak jim je pustili a sledovali jejich mozky funkční magnetickou rezonancí. Nedostižná matka Sheldona Coopera by jistě měla radost.

Tísňové údolí v kontextu generovaných AI videí

V posledních letech se s rozvojem umělé inteligence (AI) a pokročilých algoritmů pro generování videa stává tísňové údolí stále aktuálnějším tématem. AI dnes dokáže generovat realistická videa, která jsou na první pohled k nerozeznání od skutečnosti. Avšak když se tato videa dostanou do bodu, kdy jsou „téměř dokonalá“, ale stále obsahují drobné anomálie – například nepatrně nepřirozené pohyby, zvláštní výrazy obličeje, nebo nesoulad mezi mluveným slovem a pohyby rtů – mohou vyvolat silný pocit nepohodlí nebo dokonce strachu.

Generovaná videa mohou tísňové údolí překonat dvěma způsoby. Prvním je neustálé zdokonalování technologií, až do bodu, kdy budou tyto drobné chyby zcela odstraněny a umělé výtvory budou zcela nerozeznatelné od skutečných lidí. Druhým přístupem je úmyslné ponechání určitých znaků „umělosti“, aby diváci okamžitě rozpoznali, že se jedná o ne-lidskou tvorbu, což snižuje míru nepohodlí.

Tísňové údolí a robotika

Robotika je dalším polem, kde tísňové údolí představuje významnou výzvu. Moderní humanoidní roboti jsou navrhováni tak, aby napodobovali lidské chování, výrazy obličeje a pohyb. Když je však jejich podoba a pohyb příliš realistický, ale ne zcela přesný, mohou vyvolávat nepříjemné pocity u lidí, kteří s nimi přicházejí do styku. Tento jev může mít závažné důsledky pro aplikace, kde je důležitá interakce mezi lidmi a roboty, například v péči o seniory nebo v zákaznickém servisu.

Aby se minimalizoval efekt tísňového údolí, designéři robotů často volí stylizovaný nebo zjednodušený vzhled, který sice připomíná lidské rysy, ale je dostatečně odlišný, aby nevyvolával pocit, že jde o skutečného člověka. Tento přístup je patrný například u robotů typu „Pepper“, kteří mají záměrně zjednodušený a přátelský design.

Budoucnost a etické otázky

Jak generovaná AI videa, tak humanoidní roboti budou v budoucnosti stále častěji překonávat hranice mezi umělým a skutečným. To přináší nejen technologické, ale i etické otázky. Jaký vliv bude mít tísňové údolí na naši psychiku, a jak bychom měli přistupovat k designu těchto technologií, aby byly pro lidi co nejpřirozenější a nejpřijatelnější?

V oblasti AI generovaných videí se také objevuje otázka autenticity a důvěryhodnosti. Jakým způsobem budeme schopni rozpoznat, co je skutečné a co je generováno AI? A jak zajistíme, že tyto technologie nebudou zneužity k šíření dezinformací nebo manipulaci veřejného mínění?

V konečném důsledku je tísňové údolí nejen technickým problémem, ale i hlubokým filozofickým a etickým dilematem, které bude nadále formovat budoucnost robotiky a AI technologií. Rozpoznání a překonání tohoto fenoménu je klíčovým krokem pro vytvoření technologií, které budou sloužit lidem a současně budou respektovat naše přirozené reakce a emocionální potřeby.