Stable diffusion 3: Co je nového a jak ji stáhnout?

Pokud patříte k příznivcům open source řešení, a také k lehce pokročilejším uživatelům, pravděpodobně znáte generativní modely Stable Diffusion od Stability.ai, které stojí jako zajímavá alternativa generativní AI typu text2image vedle komerčních nástrojů jakoje Midjourney nebo Dall-e.

Výhodou Stable diffusion (předchozí verze 1,1.5, 2 nebo XL) je, že v podstatě každý si může nainstalovat tento nástroj na generování obrázků na svůj počítač, a pracovat s ním tak zcela zdarma (tedy abych byl přesný,  jen za cenu elektřiny, kterou budete napájet váš počítač :) ).

Další výhodou je, že v komunitě existuje celá řada modifikací základního modelu a přetrénování, které vám umožní generovat si třeba postavičky Marvel komiksů nebo scény ze stavebnice LEGO. Musím říci, že je to skvělá věc jak pálit další drahocený čas u počítač .

Jak si rozběhnout Stable diffusion na svém hardware zkusíme popsat v příští sadě novinek za dva týdny.

Zdroj: prompthero.com

Teď zpět k modelu Stable Diffusion 3:

Společnost Stability AI nedávno představila Stable Diffusion 3, nejnovější model své řady modelů pro generování text2image, která oproti svým předchůdcům přináší významná vylepšení.

Tento nový model, který byl vydán v únoru 2024, nejen vylepšuje technologii, ale také přináší spektrum modelů s parametry od 800 Milionů do 8 Miliard, přizpůsobených různým potřebám uživatelů.

K vylepšením detailněji:

Stable Diffusion 3 představuje podstatný skok oproti dřívějším verzím, jako je Stable Diffusion 1.5 a model SDXL. Jedním z nejvýznamnějších vylepšení je schopnost generovat čitelný text přímo v obrázcích. Dřívější modely s tímto měly problém, ale Stable Diffusion 3 tento problém řeší a zajišťuje, že text je čitelný a zároveň kontextově přesný. Toto vylepšení má význam zejména pro aplikace vyžadující vložený text do obrázků, jako je grafický design a reklama.

Kromě toho byl model optimalizován pro lepší dodržování uživatelských promptů, čímž se snížil rozdíl v přesnosti práce s prompty ve srovnání s jinými předními modely, jako je Dall-E.

Z interního testování společnosti Stability AI vyplývá, že Stable Diffusion 3 se srovnal na laťku svých konkurentů nebo je v tomto dokonce, což z něj činí spolehlivý nástroj pro tvůrce, kteří potřebují přesné překlady svých pokynů do obrázků. Samozřejmě, tvrzení jakýchkoli společností o výkonnosti svých řešení je potřeba brát s rezervou, a čas ukáže kde je realita.

Technické specifikace a výkon:

Rozmanitost velikostí modelů umožňuje aplikaci Stable Diffusion 3 přizpůsobit se široké škále hardwarových specifikací. Například největší model této řady, který obsahuje 8 miliard parametrů, dokáže při spuštění na grafickém procesoru RTX 4090 s 24 GB VRAM vygenerovat obrázek ve vysokém rozlišení 1024x1024 za pouhých 34 sekund. To svědčí o výrazném zvýšení efektivity a rychlosti zpracování, což vychází vstříc profesionálním uživatelům, kteří vyžadují rychlé generování obrazu. Je však důležité poznamenat, že k dispozici jsou i menší modely pro uživatele s méně výkonným hardwarem, což zajišťuje, že Stable Diffusion 3 zůstává přístupný širokému publiku.

Pozn.:

Osobně mám rozběhlé Stable diffusion (starší verzi Stable diffusion XL generující standardně na rozlišení 1024x1024 nebo modifikacích o stejném celkovém počtu pixelů) na Apple hardwaru – MacBook Pro s M3 Pro, 18Gb sdílené RAM a Neural engine). Vygenerování obrázku mi trvá kolem 1 - 1,5  minuty, v závislosti na nastavení. Apple tedy ani se svou technologií Neural engine není ani na dostřel srovnatelnému HW s Nvidia Kartou. Nicméně Stable diffusion mohou používat i Applisté. Zajímavý benchmark srovnání Nvidia a Mac M procesorů např. zde https://www.youtube.com/watch?v=cB07h-odLTY

Pojetí autorského práva:

Společnost Stability AI poskytla umělcům možnost odmítnout zahrnutí jejich děl do tréninkových datových sad, čímž řeší etické obavy týkající se používání uměleckého obsahu bez souhlasu.

Přístup k modelu a předplatné:

Stability AI se snaží najít rovnováhu mezi ziskovostí a otevřeností. Členství Stability AI nabízí tři úrovně: bezplatnou pro osobní a výzkumné použití, předplatné za 20 dolarů měsíčně pro „tvůrce, vývojáře a startupy s ročními příjmy nižšími než 1 milion“ a pak enterprise plán. Všechny tři nabízejí včasný přístup k novým, ale komerčně je mohou využívat pouze členové dvou placených úrovní.

Přečti si taky