GPT-4o: Co přináší nový model?

Před dvěma týdny OpenAI představila třetí velký upgrade svého oblíbeného modelu GPT-4, ale tentokrát je plně "omni" (proto to "o"), což znamená, že zvládne téměř vše: text, zvuk, obrázky a dokonce i video.

Pojďme si novinky krátce představit.

Co je na GPT-4o tak skvělého?

Co nového přináší GPT-4o? Stručně řečeno: je rychlejší, chytřejší a všestrannější. Na rozdíl od svých předchůdců, kteří se spoléhali na samostatné modely pro různé úlohy, GPT-4o integruje vše do jednoho. Představte si, že s počítačem mluvíte jako s kamarádem - přesně takovou bezproblémovou interakci chce GPT-4o poskytnout. Důkazem je např. referenční video přímo od OpenAI.

Jednou z význačných vlastností je jeho rychlost. Je dvakrát rychlejší než předchozí verze (GPT-4 Turbo) a také výrazně levnější. V API rozhraní je cena na 5 dolarech za milion vstupních tokenů a 15 dolarech za milion výstupních tokenů, což je polovina ceny GPT-4 Turbo. Navíc zvládne zpracovat až 10 milionů tokenů za minutu.

Možnosti využití GPT-4o jsou široké.

Ať už chcete vytvářet dynamický obsah, potřebujete pomoci s vícejazyčnými úlohami nebo jen chcete mít chytřejšího virtuálního asistenta. Níže je přehled schopností modelu GPT-4o.

Multimodální uvažování a generování:

GPT-4o integruje text, hlas a vidění do jediného modelu, což mu umožňuje zpracovávat a odpovídat na kombinaci různých typů dat. Model dokáže porozumět zvuku, obrázkům a textu. Dokáže také generovat odpovědi prostřednictvím zvuku, obrázků a textu.

Zpracování jazyka a zvuku:

GPT-4o má schopnosti zpracování více než 50 jazyků.

Analýza sentimentu:

Model rozumí sentimentu uživatelů v různých modalitách textu, zvuku a videa.

Hlasové nuance:

GPT-4o dokáže generovat řeč s emocionálními nuancemi. Díky tomu bude efektivní pro aplikace vyžadující tonalitu v komunikaci.

Analýza obsahu zvuku:

Model dokáže generovat a rozumět mluvené řeči, což lze využít v systémech aktivovaných hlasem, analýze zvukového obsahu a interaktivním vyprávění příběhů.

Překlad v reálném čase:

Multimodální schopnosti modelu GPT-4o mohou podporovat překlad v reálném čase z jednoho jazyka do druhého.

Porozumění obrazu a vidění:

Model dokáže analyzovat obrázky a videa a umožňuje uživatelům nahrávat vizuální obsah, kterému GPT-4o rozumí, dokáže ho vysvětlit a poskytnout analýzu.

Analýza dat:

Schopnosti modelu umožňují analyzovat data, která jsou obsažena v datových souborech. GPT-4o může také vytvářet např. grafy na základě analýzy datového souboru. Testoval jsem i složitější vstupy, např. více listů v sheetu apod., tam už byla už úspěšnost nižší.

Vizuální schopnosti:

Model dokáže vytvářet vizualizace a rozumí obrázkům lépe než předchozí modely. Osobně jsem ale narazil na to, že tu stále není vyřešený problém generování textu do obrazu.

V angličtině to jde o něco lépe.

Nicméně jakmile zabrousíte do vod větší kreativity, je to stále nepoužitelné.

Nutno říci, že většina difuzních modelů má ale stejný problém.

Paměť a povědomí o souvislostech:

GPT-4o si dokáže pamatovat předchozí interakce a udržovat kontext i při delších konverzacích. Díky velkému kontextovému oknu podporujícímu až 128 000 tokenů dokáže GPT-4o udržet souvislost i v delších konverzacích nebo dokumentech, takže je vhodný pro podrobnou analýzu.

Snížení halucinací a zvýšení bezpečnosti:

Model je navržen tak, aby minimalizoval generování nesprávných nebo zavádějících informací. GPT-4o údajně obsahuje vylepšené bezpečnostní protokoly, které zajišťují, že výstupy jsou pro uživatele bezpečné.

Jak používat GPT-4o, resp. jak je licencován?

Uživatelé a organizace mohou model GPT-4o používat několika způsoby.

ChatGPT Free: Uživatelé ChatGPT Free budou mít omezený přístup k některým pokročilým funkcím včetně vidění, nahrávání souborů a analýzy dat.

ChatGPT Plus: Uživatelé placené služby OpenAI pro ChatGPT získají plný přístup ke službě GPT-4o bez omezení funkcí, která platí pro uživatele zdarma.

Přístup k rozhraní API: Vývojáři mohou ke službě GPT-4o přistupovat prostřednictvím rozhraní API (stejně jako doposud).

Desktopové aplikace: Společnost OpenAI integrovala GPT-4o do desktopových aplikací, včetně nové aplikace pro systém MacOS společnosti Apple, která byla také spuštěna 13. května.

Vlastní GPT: Organizace mohou vytvářet vlastní verze GPT-4o přizpůsobené konkrétním potřebám podniku nebo oddělení. Vlastní model lze potenciálně nabízet uživatelům prostřednictvím obchodu GPT Store společnosti OpenAI.

Služba Microsoft OpenAI: Uživatelé mohou prozkoumat možnosti GPT-4o v režimu náhledu v rámci služby Microsoft Azure OpenAI Studio, která je speciálně navržena pro zpracování multimodálních vstupů včetně textu a zraku. Tato verze umožňuje zákazníkům služby Azure OpenAI Service testovat funkce GPT-4o v kontrolovaném prostředí, přičemž se plánuje rozšíření jeho možností v budoucnu.

Pokud by vás zajímala tématika multimodálních jazykových modelů v hlubších technickém detailu, včetně toho, jak jsou trénovány, můžete se podívat na záznam z našeho prvního AI Talk, kde o tom mluví kolega Matouš Jezerský.

Přečti si taky