Mark Zuckerberg uważa, że rok 2025 będzie rokiem sztucznej inteligencji, a w swoim najnowszym poście na Facebooku pisze, że Meta zamierza zainwestować 60-65 mld dolarów w AI w 2025 r. To znaczny wzrost w porównaniu z 2024 rokiem, w którym budżet wynosił ok. 38-40 mld dolarów. To nie jedyna tak duża inwestycja, a przy okazji wyłania się nowy rywal.
Duża część wspomnianej inwestycji zostanie przeznaczona na budowę centrów danych. Są one kluczowe dla zapewnienia mocy obliczeniowej, której Meta potrzebuje do tworzenia produktów AI. Zuckerberg powiedział, że inicjatywa nie dotyczy tylko zwiększania infrastruktury, ale także napędzania innowacji i utrzymania pozycji lidera technologicznego w USA. W ramach swojej strategii Meta planuje nabyć ponad 1,3 mln GPU do końca tego roku.
To nie jedyna tak duża inwestycja w tym roku. Przypomnijmy, że Microsoft, OpenAI, Oracle i SoftBank zaczynają współtworzyć Stargate Project. To największa w historii inwestycja w AI, a dokładniej – w AGI (silną sztuczną inteligencję lub superinteligencję), która ma wynosić 500 mld dolarów (w ciągu najbliższych 4 lat).
Jednocześnie wyłonił się nowy, chiński rywal amerykańskich gigantów – DeepSeek. Chińska firma wypuściła niedrogie modele DeepSeek-V3 i DeepSeek-R1, które pokonały w benchmarkach kilka innych wiodących modeli OpenAI i Meta. DeepSeek-V3 został wytrenowany przy użyciu zaledwie 2048 GPU z ponad 2,78 mln godzin GPU przy koszcie około 6 mln dolarów. To ułamek tego, czego zwykle wymagają inne wiodące modele. Dla porównania modele Llama rozwijane przez Meta, w tym Llama 3.1, kosztowały ponad 60 mln dolarów i wymagały 30,8 mln godzin GPU do wytrenowania.
Modele te zostały wydane na licencji Open Source, podobnie jak Llama, co oznacza, że każdy może je uruchomić na swoim sprzęcie. Cena za korzystanie z API wnioskowania/rozumowania DeepSeek-R1 jest również znacznie niższa niż u rywali, takich jak OpenAI. DeepSeek pobiera 0,14 USD za milion tokenów za dane wejściowe w porównaniu do 7,5 USD w przypadku OpenAI.
Dlaczego DeepSeek jest tak tani? Powodem jest jego architektura. Model ten wykorzystuje framework Mixture-of-Experts (MoE), który pozwala mu aktywować tylko część parametrów podczas przetwarzania. Producent twierdzi, że ta metoda ta gwarantuje większą wydajność i niższe wymagania obliczeniowych w porównaniu do tradycyjnych modeli. Poza tym, w przeciwieństwie do OpenAI o1, który wykorzystuje metodę supervised fine-tuning (SFT), DeepSeek korzysta z czystego reinforcement learningu (RL), dzięki któremu może autonomicznie rozwijać zaawansowane możliwości rozumowania.
Nie ulega wątpliwości, że silna sztuczna inteligencja wymaga sporych nakładów finansowych. Zwykła, generatywna sztuczna inteligencja może jednak być o wiele tańsza w rozwoju, czego przykładem jest właśnie DeepSeek. Co ciekawe, jego aplikacja zdetronizowała właśnie ChatGPT w Apple App Store, więc Amerykanie powinni mieć się na baczności!