OpenAI, Aralık ayında tanıttığı o3 AI modeli ile matematik problemlerinde bir devrim gerçekleştireceğini iddia etmişti. Şirket, FrontierMath benchmark’ında %25’in üzerinde bir başarıya ulaştığını belirtirken, bağımsız testler bu iddiaların gerçeği yansıtmadığını gösteriyor. Epoch AI’nin gerçekleştirdiği testler, o3 modelinin yalnızca %10’luk bir başarı sağladığını ortaya koyarken, OpenAI’nin test yöntemleri ve şeffaflığı da tartışmalara neden oldu.
İDDİALAR VE GERÇEKLERİN KARŞILAŞTIRMASI
OpenAI, o3 modelinin FrontierMath’ta rakiplerini geride bırakarak %25’in üzerinde bir başarı oranı elde ettiğini duyurmuştu. Ancak Epoch AI’nın bağımsız testleri, modelin bu benchmark’ta yalnızca %10 başarı gösterdiğini ortaya çıkardı. Epoch, bu farkın test koşulları ve FrontierMath’ın güncellenmiş versiyonundan kaynaklanabileceğine dikkat çekti. OpenAI ise halka sunulan o3 modelinin daha az hesaplama gücü ile, gerçek dünya uygulamalarına odaklanacak şekilde optimize edildiğini savundu.
ŞEFFAFLIK VE BENCHMARK REKABETİ
OpenAI’nin o3 modeli etrafında yaptığı açıklamalar, yapay zeka sektöründe sıkça tartışılan benchmark konularını yeniden gündeme getirdi. ARC Prize Foundation, halka sunulan o3 modelinin, test edilen daha güçlü versiyondan farklı olduğunu doğruladı. Ayrıca, Epoch’un OpenAI’den aldığı fonu geç açıklaması akademik dünyada güvenilirlik sorunlarına yol açtı. Bu tür durumlar, xAI ve Meta gibi diğer şirketlerin de yanıltıcı benchmark sonuçları nedeniyle hedef alınmasına benzer bir durum oluşturuyor.
OpenAI, o3-mini-high ve o4-mini modellerinin FrontierMath’ta o3 modelini geride bıraktığını belirtirken, yakın sürede daha güçlü bir o3-pro modelini tanıtmayı planladığını açıkladı. Tüm bu gelişmeler, AI benchmark’larının yüzeysel bir şekilde değerlendirilmemesi gerektiğini bir kez daha hatırlatıyor. Sektördeki rekabet, şirketlerin şeffaflık ve doğruluk konularında daha dikkatli olmaları gerekliliğini beraberinde getiriyor.