Pokud patříte k příznivcům open source řešení, a také k lehce pokročilejším uživatelům, pravděpodobně znáte generativní modely Stable Diffusion od Stability.ai, které stojí jako zajímavá alternativa generativní AI typu text2image vedle komerčních nástrojů jakoje Midjourney nebo Dall-e.
Výhodou Stable diffusion (předchozí verze 1,1.5, 2 nebo XL) je, že v podstatě každý si může nainstalovat tento nástroj na generování obrázků na svůj počítač, a pracovat s ním tak zcela zdarma (tedy abych byl přesný, jen za cenu elektřiny, kterou budete napájet váš počítač :) ).
Další výhodou je, že v komunitě existuje celá řada modifikací základního modelu a přetrénování, které vám umožní generovat si třeba postavičky Marvel komiksů nebo scény ze stavebnice LEGO. Musím říci, že je to skvělá věc jak pálit další drahocený čas u počítač .
Jak si rozběhnout Stable diffusion na svém hardware zkusíme popsat v příští sadě novinek za dva týdny.
Společnost Stability AI nedávno představila Stable Diffusion 3, nejnovější model své řady modelů pro generování text2image, která oproti svým předchůdcům přináší významná vylepšení.
Tento nový model, který byl vydán v únoru 2024, nejen vylepšuje technologii, ale také přináší spektrum modelů s parametry od 800 Milionů do 8 Miliard, přizpůsobených různým potřebám uživatelů.
Stable Diffusion 3 představuje podstatný skok oproti dřívějším verzím, jako je Stable Diffusion 1.5 a model SDXL. Jedním z nejvýznamnějších vylepšení je schopnost generovat čitelný text přímo v obrázcích. Dřívější modely s tímto měly problém, ale Stable Diffusion 3 tento problém řeší a zajišťuje, že text je čitelný a zároveň kontextově přesný. Toto vylepšení má význam zejména pro aplikace vyžadující vložený text do obrázků, jako je grafický design a reklama.
Kromě toho byl model optimalizován pro lepší dodržování uživatelských promptů, čímž se snížil rozdíl v přesnosti práce s prompty ve srovnání s jinými předními modely, jako je Dall-E.
Z interního testování společnosti Stability AI vyplývá, že Stable Diffusion 3 se srovnal na laťku svých konkurentů nebo je v tomto dokonce, což z něj činí spolehlivý nástroj pro tvůrce, kteří potřebují přesné překlady svých pokynů do obrázků. Samozřejmě, tvrzení jakýchkoli společností o výkonnosti svých řešení je potřeba brát s rezervou, a čas ukáže kde je realita.
Rozmanitost velikostí modelů umožňuje aplikaci Stable Diffusion 3 přizpůsobit se široké škále hardwarových specifikací. Například největší model této řady, který obsahuje 8 miliard parametrů, dokáže při spuštění na grafickém procesoru RTX 4090 s 24 GB VRAM vygenerovat obrázek ve vysokém rozlišení 1024x1024 za pouhých 34 sekund. To svědčí o výrazném zvýšení efektivity a rychlosti zpracování, což vychází vstříc profesionálním uživatelům, kteří vyžadují rychlé generování obrazu. Je však důležité poznamenat, že k dispozici jsou i menší modely pro uživatele s méně výkonným hardwarem, což zajišťuje, že Stable Diffusion 3 zůstává přístupný širokému publiku.
Pozn.:
Osobně mám rozběhlé Stable diffusion (starší verzi Stable diffusion XL generující standardně na rozlišení 1024x1024 nebo modifikacích o stejném celkovém počtu pixelů) na Apple hardwaru – MacBook Pro s M3 Pro, 18Gb sdílené RAM a Neural engine). Vygenerování obrázku mi trvá kolem 1 - 1,5 minuty, v závislosti na nastavení. Apple tedy ani se svou technologií Neural engine není ani na dostřel srovnatelnému HW s Nvidia Kartou. Nicméně Stable diffusion mohou používat i Applisté. Zajímavý benchmark srovnání Nvidia a Mac M procesorů např. zde https://www.youtube.com/watch?v=cB07h-odLTY
Společnost Stability AI poskytla umělcům možnost odmítnout zahrnutí jejich děl do tréninkových datových sad, čímž řeší etické obavy týkající se používání uměleckého obsahu bez souhlasu.
Stability AI se snaží najít rovnováhu mezi ziskovostí a otevřeností. Členství Stability AI nabízí tři úrovně: bezplatnou pro osobní a výzkumné použití, předplatné za 20 dolarů měsíčně pro „tvůrce, vývojáře a startupy s ročními příjmy nižšími než 1 milion“ a pak enterprise plán. Všechny tři nabízejí včasný přístup k novým, ale komerčně je mohou využívat pouze členové dvou placených úrovní.