W marcu OpenAI wypuścił nowy model generowania obrazów GPT-4o, który wszedł na miejsce Dall-E 3 w ChatGPT. Wywołało to sporą sensację. Sztuczna inteligencja potrafi teraz tworzyć o wiele bardziej realistyczne i szczegółowe obrazy, a także przerabiać te istniejące w oparciu o prompty i pliki przesłane przez użytkownika. Teraz ten nowy model jest dostępny dla deweloperów aplikacji.
Gdy wprowadziliśmy generowanie obrazów do ChatGPT w zeszłym miesiącu, szybko stało się ono jedną z najpopularniejszych funkcji: ponad 130 milionów użytkowników z całego świata utworzyło ponad 700 milionów obrazów w samym tylko pierwszym tygodniu.
Dziś wprowadzamy ten natywny, multimodalny model, który napędza to doświadczenie w ChatGPT, do API za pośrednictwem gpt-image-1, umożliwiając deweloperom i firmom łatwą integrację wysokiej jakości, profesjonalnego generowania obrazów bezpośrednio z ich własnymi narzędziami i platformami. Wszechstronność tego modelu pozwala na tworzenie obrazów w różnych stylach, wierne przestrzeganie niestandardowych wytycznych, wykorzystywanie wiedzy o świecie oraz dokładne renderowanie tekstu - odblokowując niezliczone praktyczne zastosowania w wielu domenach.
Wiodące przedsiębiorstwa i startupy z branży takich jak narzędzia kreatywne, e-commerce, edukacja, oprogramowanie enterprise i gaming używają już generowania obrazów w swoich produktach i doświadczeniach.
— OpenAI
Jak wspomina wydawca, z modelu generowania obrazów GPT-4o korzysta już szereg znanych dostawców usług, takich jak Canva, GoDaddy, HubSpot, Instacart oraz invideo. OpenAI podkreśla również, że gpt-image-1 opiera się na tych samych podstawach bezpieczeństwa, co GPT-4o w ChatGPT, i tak samo jak on nie zezwala na generowanie szkodliwych czy nacechowanych przemocą treści. Dołącza on też metadane C2PA do generowanych obrazów. Firma nigdy nie trenuje modeli na danych klientów z API, a wszystkie dane wejściowe i wyjściowe podlegają zasadom dotyczącym API OpenAI.
Jeśli chodzi o cennik gpt-image-1, OpenAI podaje, że:
- Tokeny wejściowe tekstu (prompty tekstowe) kosztują 5 USD za 1M tokenów
- Tokeny wejściowe obrazu (obrazy jako dane wejściowe) kosztują 10 USD za 1M tokenów
- Tokeny wyjściowe obrazu (wygenerowane obrazy) kosztują 40 USD za 1M tokenów
W praktyce oznacza to koszt rzędu 0,02, 0,07 i 0,19 USD za wygenerowany kwadratowy obraz odpowiednio w niskiej, średniej i wysokiej jakości. Model gpt-image-1 jest już dostępny globalnie za pośrednictwem Images API, zaś obsługa Responses API zostanie dodana wkrótce. Dzięki temu deweloperzy i twórcy mogą już teraz podpiąć generator obrazów do swoich aplikacji AI.