Před dvěma týdny OpenAI představila třetí velký upgrade svého oblíbeného modelu GPT-4, ale tentokrát je plně "omni" (proto to "o"), což znamená, že zvládne téměř vše: text, zvuk, obrázky a dokonce i video.
Pojďme si novinky krátce představit.
Co nového přináší GPT-4o? Stručně řečeno: je rychlejší, chytřejší a všestrannější. Na rozdíl od svých předchůdců, kteří se spoléhali na samostatné modely pro různé úlohy, GPT-4o integruje vše do jednoho. Představte si, že s počítačem mluvíte jako s kamarádem - přesně takovou bezproblémovou interakci chce GPT-4o poskytnout. Důkazem je např. referenční video přímo od OpenAI.
Jednou z význačných vlastností je jeho rychlost. Je dvakrát rychlejší než předchozí verze (GPT-4 Turbo) a také výrazně levnější. V API rozhraní je cena na 5 dolarech za milion vstupních tokenů a 15 dolarech za milion výstupních tokenů, což je polovina ceny GPT-4 Turbo. Navíc zvládne zpracovat až 10 milionů tokenů za minutu.
Možnosti využití GPT-4o jsou široké.
Ať už chcete vytvářet dynamický obsah, potřebujete pomoci s vícejazyčnými úlohami nebo jen chcete mít chytřejšího virtuálního asistenta. Níže je přehled schopností modelu GPT-4o.
GPT-4o integruje text, hlas a vidění do jediného modelu, což mu umožňuje zpracovávat a odpovídat na kombinaci různých typů dat. Model dokáže porozumět zvuku, obrázkům a textu. Dokáže také generovat odpovědi prostřednictvím zvuku, obrázků a textu.
GPT-4o má schopnosti zpracování více než 50 jazyků.
Model rozumí sentimentu uživatelů v různých modalitách textu, zvuku a videa.
GPT-4o dokáže generovat řeč s emocionálními nuancemi. Díky tomu bude efektivní pro aplikace vyžadující tonalitu v komunikaci.
Model dokáže generovat a rozumět mluvené řeči, což lze využít v systémech aktivovaných hlasem, analýze zvukového obsahu a interaktivním vyprávění příběhů.
Multimodální schopnosti modelu GPT-4o mohou podporovat překlad v reálném čase z jednoho jazyka do druhého.
Model dokáže analyzovat obrázky a videa a umožňuje uživatelům nahrávat vizuální obsah, kterému GPT-4o rozumí, dokáže ho vysvětlit a poskytnout analýzu.
Schopnosti modelu umožňují analyzovat data, která jsou obsažena v datových souborech. GPT-4o může také vytvářet např. grafy na základě analýzy datového souboru. Testoval jsem i složitější vstupy, např. více listů v sheetu apod., tam už byla už úspěšnost nižší.
Model dokáže vytvářet vizualizace a rozumí obrázkům lépe než předchozí modely. Osobně jsem ale narazil na to, že tu stále není vyřešený problém generování textu do obrazu.
Nicméně jakmile zabrousíte do vod větší kreativity, je to stále nepoužitelné.
Nutno říci, že většina difuzních modelů má ale stejný problém.
GPT-4o si dokáže pamatovat předchozí interakce a udržovat kontext i při delších konverzacích. Díky velkému kontextovému oknu podporujícímu až 128 000 tokenů dokáže GPT-4o udržet souvislost i v delších konverzacích nebo dokumentech, takže je vhodný pro podrobnou analýzu.
Model je navržen tak, aby minimalizoval generování nesprávných nebo zavádějících informací. GPT-4o údajně obsahuje vylepšené bezpečnostní protokoly, které zajišťují, že výstupy jsou pro uživatele bezpečné.
Uživatelé a organizace mohou model GPT-4o používat několika způsoby.
ChatGPT Free: Uživatelé ChatGPT Free budou mít omezený přístup k některým pokročilým funkcím včetně vidění, nahrávání souborů a analýzy dat.
ChatGPT Plus: Uživatelé placené služby OpenAI pro ChatGPT získají plný přístup ke službě GPT-4o bez omezení funkcí, která platí pro uživatele zdarma.
Přístup k rozhraní API: Vývojáři mohou ke službě GPT-4o přistupovat prostřednictvím rozhraní API (stejně jako doposud).
Desktopové aplikace: Společnost OpenAI integrovala GPT-4o do desktopových aplikací, včetně nové aplikace pro systém MacOS společnosti Apple, která byla také spuštěna 13. května.
Vlastní GPT: Organizace mohou vytvářet vlastní verze GPT-4o přizpůsobené konkrétním potřebám podniku nebo oddělení. Vlastní model lze potenciálně nabízet uživatelům prostřednictvím obchodu GPT Store společnosti OpenAI.
Služba Microsoft OpenAI: Uživatelé mohou prozkoumat možnosti GPT-4o v režimu náhledu v rámci služby Microsoft Azure OpenAI Studio, která je speciálně navržena pro zpracování multimodálních vstupů včetně textu a zraku. Tato verze umožňuje zákazníkům služby Azure OpenAI Service testovat funkce GPT-4o v kontrolovaném prostředí, přičemž se plánuje rozšíření jeho možností v budoucnu.
Pokud by vás zajímala tématika multimodálních jazykových modelů v hlubších technickém detailu, včetně toho, jak jsou trénovány, můžete se podívat na záznam z našeho prvního AI Talk, kde o tom mluví kolega Matouš Jezerský.