W zeszłym tygodniu OpenAI udostępniło GPT-4.5, swój najpotężniejszy model AI w historii. Według firmy jest on też najmądrzejszy i został zbudowany w mocno wyskalowanym procesie treningu. Oprócz zasobnej wiedzy GPT-4.5 ma większe zdolności pisania i bardziej ludzką osobowość. A co z twardymi danymi? Jak oceniają go benchmarki?
GPT-4.5 dominuje w benchmarkach. To model na sterydach
W tym tygodniu OpenAI GPT-4.5 zadebiutował w Chatbot Arena, od razu zagarniając pierwsze miejsca w większości kategorii. Uzyskał pozycję lidera w wymienionych niżej kategoriach:
- Multi-Turn
- Hard Prompts
- Coding
- Math
- Creative Writing
- Instruction Following
- Longer Query
Najnowszy model xAI Grok-3 (grok-3-preview-02-24) także zaliczył swój debiut na Arenie z 1. miejscem w kategorii Hard Prompts (English) i ex aequo 1. miejscami w kategoriach Coding, Math, Creative Writing, Instruction Following oraz Longer Query. Dynamiczny rozwój obu modeli pokazał zaostrzającą się rywalizację Groka i GPT.
To nie koniec sukcesów najnowszego modelu OpenAI. GPT-4.5 zdominował jeszcze kilka innych benchmarków, w tym zajmując 1. miejsce w Elimination Game Benchmark. Jest to turniej, który sprawdza umiejętności wnioskowania społecznego, strategii i zwodzenia dużych modeli językowych (LLMs). W teście na IQ (IQ Test Score) GPT-4.5 wypadł lepiej niż inne niewnioskujące modele. GPT-4.5 radzi sobie też doskonale na leaderboardzie Style Control. Z kolei w benchmarku SimpleQA Hallucination Rate wypadł on najsłabiej spośród wszystkich dużych modeli OpenAI.
Znamy dalsze plany OpenAI. Co z dostępnością GPT-5?
W zeszłym miesiącu Sam Altman wyjawił, że GPT-4.5 to ostatni model non-chain-of-thought OpenAI. Ponadto firma nie wypuści o3 jako samodzielnego modelu. Zamiast tego zunifikuje modele o-series i GPT-series, tworząc systemy, które będą wybierały model odpowiedni do promptu użytkownika.
CEO OpenAI potwierdził również, że użytkownicy darmowego ChatGPT będą mieli dostęp do GPT-5, ale na standardowym ustawieniu inteligencji. Subskrybenci planu ChatGPT Plus zyskają dostęp do wyższego poziomu inteligencji, a użytkownicy wersji Pro - do jeszcze wyższego. Zunifikowany model będzie obsługiwał wszystkie istniejące funkcje czatbota, w tym głos, kanwy, wyszukiwanie, Deep Research i nie tylko.
OpenAI rozwija swoje modele w wielu kierunkach, tworząc zarówno tanie, jak i kosztowne modele o różnych specjalizacjach. Jednym z celów są oczywiście wysokie noty w benchmarkach, co świadczy o wysokich zdolnościach sztucznej inteligencji w określonych dziedzinach, ale samo w sobie nie wystarcza. Przykładowo dla CEO Microsoft, czyli największego inwestora OpenAI, benchmarki nie mają znaczenia. Satya Nadella liczy na to, że AI popchnie wzrost gospodarczy o 10%. Czeka on również na na aplikację AI, której impakt byłby porównywalny z Excelem i e-mailem.