Tobias Hoffmann

Posted on Jun 22 • Originally published at apidog.com

Sakana Fugu Performans Kıyaslamaları: Fable 5 ile Omuz Omuza Olmak Gerçekte Ne Anlama Geliyor?

Sakana'nın Fugu kıyaslamalarını okurken ilk kural şu: bunlar bağımsız doğrulanmış performans karneleri değil, tedarikçi tarafından bildirilen eşdeğerlik ve performans iddialarıdır. Sakana'nın yayın sayfasına göre Fugu Ultra, "mühendislik, bilimsel ve akıl yürütme görevlerinde Fable 5 ve Mythos Preview gibi önde gelen modellerle omuz omuza duruyor"; Fugu ise belirli uygulamalarda Gemini 3.1 Pro, Opus 4.8 ve GPT 5.5'ten "sürekli olarak daha iyi performans gösteriyor". Ancak Fugu tek başına çalışan bir model değil, diğer tedarikçilerin öncü modellerini çağırabilen bir orkestratör olduğu için bu sonuçları Fable 5 kıyaslamaları gibi tek model zaferleri olarak okumayın.

Apidog'u bugün deneyin

Fugu aslında nedir ve kıyaslamaları neden farklı okumalısınız?

Fugu tek bir temel model değildir. Sakana'nın tanımına göre tek bir OpenAI uyumlu API arkasında sunulan çok ajanlı bir orkestrasyon sistemidir. Sistem; yetki devri, ajan iletişimi ve iş sentezinde uzmanlaşmış eğitimli bir dil modeli gibi davranır.

Pratikte bu şu anlama gelir:

Kullanıcı isteği Fugu'ya gelir.
Fugu, doğrudan yanıt verip vermeyeceğine karar verir.
Gerekirse birden fazla LLM'yi çağırır.
Hatta kendisinin özyinelemeli örneklerini de sürece dahil edebilir.
Çıktıları sentezleyerek tek bir yanıt döndürür.

Bu mimari, kıyaslama yorumunu değiştirir. Normal bir modelin puanı, o modelin kendi ağırlıklarıyla ürettiği performansı temsil eder. Fugu'nun puanı ise Fugu'nun Opus 4.8, GPT 5.5, Gemini 3.1 Pro veya başka modelleri çağırıp çıktıları birleştirmesinden kaynaklanabilir.

Bu yüzden "Fugu, Opus 4.8'i geçti" ifadesini tek model karşılaştırması gibi okumayın. Daha doğru yorum şudur: Fugu'nun orkestrasyon sistemi, bazı görevlerde tek başına çağrılan rakip uç noktalardan daha iyi sonuç üretmiş olabilir.

Daha fazla mimari bağlam için Sakana Fugu nedir açıklaması, orkestrasyon döngüsünü daha ayrıntılı ele alıyor.

Eşdeğerlik iddiası: "Fable 5 ve Mythos Preview ile omuz omuza"

Sakana'nın ilk iddiası dikkatli okunmalı: Fugu Ultra'nın Fable 5 ve Mythos Preview ile "omuz omuza" durduğu söyleniyor.

Bu bir "geçti" iddiası değildir. Bu, eşdeğerlik iddiasıdır. Sakana burada Fugu Ultra'yı lider olarak değil, öncü modellerle aynı seviyede konumlandırıyor.

Bu iddiayı değerlendirirken iki noktayı kontrol edin:

Karşılaştırılan Anthropic modeli mevcut Mythos 5 değil, Nisan ayındaki Mythos Preview'dır.
Yayın sayfasında üçüncü tarafça yeniden çalıştırılabilir ayrıntılı bir kıyaslama tablosu yoktur.

Mythos sınıfı model hakkında okuduysanız, Preview ve piyasaya sürülen sürümün farklı yapılar olduğunu bilirsiniz. Bu nedenle eşdeğerlik iddiasının hangi sürüme sabitlendiği önemlidir.

Uygulanabilir okuma biçimi:

Yanlış: Fugu Ultra, Fable 5'i geçti.
Doğru: Sakana, Fugu Ultra'nın Fable 5 ve Mythos Preview ile aynı seviyede olduğunu iddia ediyor.

Daha güçlü iddia: Belirli uygulamalarda "sürekli olarak daha iyi performans"

Sakana'nın ikinci iddiası daha agresiftir. Fugu'nun belirli uygulamalarda şu rakiplerden sürekli olarak daha iyi performans gösterdiği söylenir:

Gemini 3.1 Pro (yüksek)
Opus 4.8 (maks)
GPT 5.5 (çok yüksek)

Adı geçen uygulamalar şunlardır:

AutoResearch
Rubik Küpü
Mekanik Tasarım
Japon El Yazısı Analizi
Tek Atış Satranç
Finansal Zaman Serisi Tahmini

Bunlar standart akademik kıyaslama paketleri değil, uçtan uca uygulama görevleridir. Bu tür görevlerde orkestrasyon sistemleri avantajlı olabilir çünkü alt görevleri farklı modellere yönlendirebilir ve sonuçları birleştirebilir.

Örneğin AutoResearch gibi bir görevde Fugu şu stratejiyi kullanıyor olabilir:

1. Araştırma alt görevini bir modele ver.
2. Analiz alt görevini başka bir modele ver.
3. Doğrulama veya eleştiri için üçüncü bir model çağır.
4. Son yanıtı sentezle.

Bu gerçek bir yetenektir. Ancak bu, tek bir Sakana modelinin Opus 4.8'den daha iyi akıl yürüttüğünü kanıtlamaz. Fugu, Opus'u çağırıp onun çıktısını diğer modellerle birleştirmiş olabilir.

Bu yüzden kıyaslamaları şu şekilde sınıflandırın:

İfade	Nasıl okunmalı?
Fugu Ultra, Fable 5 ile omuz omuza	Eşdeğerlik iddiası
Fugu, Opus 4.8'i belirli uygulamalarda geçti	Orkestrasyon sistemi karşılaştırması
Fugu, Fable 5'i geçti	Sakana'nın iddia etmediği yorum

Bu sayılar neden henüz bağımsız doğrulanamıyor?

Henüz bağımsız tekrarlama yok. 22.06.2026 itibarıyla Fugu kıyaslama rakamları Sakana'nın kendi kurulumunda, Sakana'nın seçtiği rakip yapılandırmalarla ölçülmüş tedarikçi iddialarıdır. Görev bazında üçüncü taraf puan tablosu, yayımlanmış değerlendirme aracı veya bağımsız yeniden çalıştırma yoktur. Bu nedenle sonuçları ölçüm değil, iddia olarak ele alın.

Bu durum yalnızca Sakana'ya özgü değildir. Lansman günündeki birçok model için benzer bir belirsizlik vardır. Fugu'daki fark, orkestrasyon mimarisinin yeniden üretimi daha zor hale getirmesidir.

Tek bir modeli yeniden test etmek için genellikle şunlar yeterlidir:

model + test seti + aynı parametreler

Fugu için ise daha fazlası gerekir:

Fugu erişimi
+ çağırdığı temel modellere erişim
+ aynı model sürümleri
+ aynı çaba ayarları
+ aynı orkestrasyon topolojisi
+ aynı yönlendirme davranışı

Fugu göreve göre ajan topolojisini değiştirebildiğinden aynı istemin iki çalıştırması aynı dahili modeli veya aynı ajan ekibini kullanmayabilir. Bu kullanıcı açısından özellik, kıyaslama açısından değişkenlik kaynağıdır.

Bu nedenle ikincil kaynaklarda dolaşan "Fugu şu puanı aldı" türü sayılara dikkatli yaklaşın. Bazıları yanlış rakip sürümlerini, örneğin Mythos Preview yerine mevcut Mythos'u kullanıyor olabilir. Aynı nedenle Fugu Ultra, Fable 5 ve Mythos karşılaştırması da nitel kalır.

İddiaların arkasındaki araştırma kayıtları

Sakana'nın pazarlaması, atıf yapılabilir araştırma çalışmalarına dayanır. Ancak bu çalışmalar doğrudan Fugu ürün teknik veri sayfası olarak okunmamalıdır.

İki ilgili ICLR 2026 çalışması öne çıkıyor:

Trinity: Gelişmiş Bir LLM Koordinatörü

arXiv:2512.04695
Conductor: Doğal Dilde Ajanları Organize Etmeyi Öğrenmek

arXiv:2512.04388

Trinity, Türevsiz Evrim ile optimize edilmiş ve Düşünür, Çalışan, Doğrulayıcı rollerini kullanan 20.000'den az parametreli bir koordinatördür. Gradyan inişiyle eğitilmiş büyük bir model değildir.

Conductor ise ajanlar arasındaki iletişim yapısını öğrenen, takviyeli öğrenme ile eğitilmiş 7B parametreli bir modeldir. Makale, daha düşük maliyetle Mixture-of-Agents yaklaşımını geçtiğini iddia eder.

Bu iki çalışmayı karıştırmayın:

Çalışma	Yaklaşım	Ölçek	Not
Trinity	Türevsiz Evrim	<20K parametre	Koordinatör
Conductor	Takviyeli öğrenme	7B parametre	Ajan iletişim modeli

Önemli uyarı: 7B rakamını doğrudan piyasaya sürülen Fugu ürününe eşlemek üçüncü taraf çıkarımıdır. Resmi sürümde ürün parametre sayısı verilmemiştir.

Teknik durum özeti

Aşağıdaki tablo, kanıtlanmış bilgiler ile doğrulanması gereken noktaları ayırır:

Öğe	Sakana / kaynaklar ne diyor	Güvenilirlik
Sistem tipi	Tek bir modelin arkasındaki çok ajanlı orkestratör	Yayın sayfasında belirtilmiştir
Varyantlar	Fugu (dengeli, düşük gecikme) ve Fugu Ultra (maksimum kalite)	Yayın sayfasında belirtilmiştir
Eski beta adı	Küçük varyant beta ve basında "Fugu Mini" olarak adlandırıldı	Tarihsel
API yüzeyi	Her iki varyant için tek OpenAI uyumlu uç nokta	Yayın sayfasında belirtilmiştir
Temel modeller	Birden fazla öncü LLM'yi çağırır, özyinelemeli olarak kendisini de dahil eder	Yayın sayfasında belirtilmiştir
Ürün parametre sayısı	Yayınlanmamış; 7B / Conductor ayrıntıları üçüncü taraf çıkarımıdır	[DOĞRULA]
Kıyaslama metodolojisi	Tedarikçi tarafından bildirilen, Sakana'nın kendi kurulumu; araç yayınlanmamış	[DOĞRULA]

İsimlendirme için de aynı dikkat geçerlidir. Küçük varyant, yaklaşık 24-25 Nisan 2026 civarında açılan yaklaşık 500 kullanıcılı beta sırasında "Fugu Mini" olarak adlandırılıyordu. Güncel yayın sayfasında kullanılan adlar Fugu ve Fugu Ultra şeklindedir.

Kendi testlerinizi nasıl çalıştırabilirsiniz?

Sakana'nın kıyaslamalarını şu anda bağımsız olarak doğrulayamayabilirsiniz. Ancak kendi görevleriniz üzerinde karşılaştırmalı test yapabilirsiniz.

Fugu, OpenAI sohbet tamamlama protokolünü kullandığı için mevcut OpenAI istemcinizi Fugu temel URL'sine yönlendirebilirsiniz. Temel URL 22.06.2026 itibarıyla genel sayfalarda yayınlanmamıştır; bu nedenle gerçek değeri console.sakana.ai üzerinden kopyalayın.

Aşağıdaki örnek, standart OpenAI sohbet tamamlama isteği yapısını izler:

from openai import OpenAI

# Giriş yaptıktan sonra gerçek temel URL'yi console.sakana.ai üzerinden kopyalayın.
client = OpenAI(
    api_key="SİZİN_FUGU_API_ANAHTARINIZ",
    base_url="",
)

resp = client.chat.completions.create(
    model="fugu-ultra",  # Dengeli varyant için "fugu"; kesin kimlikleri konsolda doğrulayın.
    messages=[
        {
            "role": "system",
            "content": "Siz titiz bir kod inceleyicisiniz."
        },
        {
            "role": "user",
            "content": "Bu fonksiyonu güvenlik açıkları açısından inceleyin:\n"
        },
    ],
)

print(resp.choices[0].message.content)

Model kimlikleri için bildirilen dizeler fugu ve fugu-ultra şeklindedir; ancak tarihli veya ortamınıza özel biçimler olabilir. Bu nedenle kimliği yapılandırmaya sabitlemeden önce konsolda doğrulayın.

Test ederken yalnızca çıktı kalitesini değil, aşağıdaki metrikleri de kaydedin:

Yanıt süresi
Token kullanımı
Toplam maliyet
Hata oranı
Aynı istemde çalıştırmalar arası tutarlılık
Yanıtın göreve uygunluğu

Basit bir test matrisi şöyle olabilir:

Görev: Kod inceleme
Modeller:
- Fugu
- Fugu Ultra
- Kullandığınız tek model A
- Kullandığınız tek model B

Her model için:
- Aynı sistem mesajı
- Aynı kullanıcı girdisi
- Aynı sıcaklık / sampling ayarları
- 3-5 tekrar çalıştırma
- Kalite + gecikme + maliyet kaydı

Fugu her istek için doğrudan yanıt verme veya ekip oluşturma kararı alabileceğinden, aynı komut farklı çalıştırmalarda farklı gecikme ve maliyet üretebilir. Bu değişkenliği özellikle takip edin.

Bu, Apidog iş akışınıza nasıl uyuyor?

Bir tedarikçinin kıyaslama iddiasını baskı testi yapmak için yeni bir değerlendirme platformu kurmak zorunda değilsiniz. Aynı istemi birden fazla uç noktaya gönderebilen, yanıtları yan yana saklayabilen ve metrikleri kaydedebilen bir iş akışı yeterlidir.

Apidog ile Fugu uç noktasını OpenAI uyumlu bir API olarak kaydedebilir, gerçek değerlendirme istemlerinizi istek olarak saklayabilir ve bunları test senaryosu gibi tekrar çalıştırabilirsiniz.

Pratik kurulum şu şekilde ilerler:

Fugu uç noktasını bir API olarak ekleyin.
Fable 5 veya Opus gibi kullandığınız diğer uç noktaları aynı ortama ekleyin.
Aynı istemleri her uç noktaya gönderin.
Yanıt gövdesini, durum kodunu, gecikmeyi ve token kullanımını kaydedin.
Model sürümü değiştiğinde aynı senaryoyu yeniden çalıştırın.

Bu yaklaşım, metodolojisi açıklanmamış genel bir "omuz omuza" iddiasından daha kullanışlıdır. Özellikle Fugu'nun adaptif yönlendirmesinden kaynaklanan maliyet kaymasını izlemek istiyorsanız, her çalıştırmadaki yanıt süresi ve token sayısı farkları hızlıca görünür olur.

Sıkça Sorulan Sorular

Fugu, Fable 5'i kıyaslamalarda geçiyor mu?

Hayır. Sakana bunu iddia etmedi. İddia eşdeğerliktir: Sakana'ya göre Fugu Ultra, Fable 5 ve Mythos Preview ile "omuz omuza duruyor". Ayrı "daha iyi performans gösteriyor" iddiası ise Fable 5'i değil; belirli uygulamalarda Gemini 3.1 Pro, Opus 4.8 ve GPT 5.5'i hedefliyor. Tek model tarafı için Claude Fable 5 kıyaslamalarına bakabilirsiniz.

Fugu kıyaslama sayıları bağımsız olarak doğrulandı mı?

Hayır. 22.06.2026 itibarıyla rakamlar, Sakana'nın kendi kurulumunda ve seçtiği rakip çaba ayarlarıyla tedarikçi tarafından bildirilmiştir. Üçüncü taraf yeniden çalıştırma veya yayınlanmış değerlendirme aracı yoktur. Sakana dışından biri bunları yeniden üretinceye kadar iddia olarak ele alınmalıdır.

Fugu'nun bir orkestratör olması neden önemli?

Çünkü Fugu, diğer tedarikçilerin öncü modellerini çağırabilir ve kendi örneklerini de özyinelemeli olarak sürece dahil edebilir. Bu nedenle "Opus 4.8'i geçti" sonucu, Fugu'nun Opus'u çağırıp başka modellerin çıktılarıyla sentezlemesinden kaynaklanabilir. Bu tek model zaferi değil, modellerin-modeli sonucudur. Fable 5 ve Mythos serisi ise tek Anthropic modelleridir; bu da doğrudan birebir karşılaştırmayı elma-armut karşılaştırmasına dönüştürür.

Sakana hangi Mythos ile karşılaştırdı?

Sakana'nın karşılaştırdığı model mevcut Mythos 5 değil, Nisan ayından kalan Mythos Preview'dır. Anthropic bu modeli yayınlanamayacak kadar tehlikeli olarak tanımlamıştı. Bazı ikincil kaynaklar yanlış sürümü adlandırıyor olabilir. Mythos sınıfı açıklayıcı, Preview ile piyasaya sürülen sürüm arasındaki farkı ele alıyor.

Trinity ve Conductor arasındaki fark nedir?

Trinity ve Conductor iki ayrı ICLR 2026 çalışmasıdır. Trinity (arXiv:2512.04695), evrimle optimize edilmiş 20.000'den az parametreli bir koordinatördür. Conductor (arXiv:2512.04388), takviyeli öğrenme ile eğitilmiş 7B parametreli bir modeldir. Yöntemleri ve ölçekleri farklıdır. Hiçbiri piyasaya sürülen Fugu ürününün teknik veri sayfası olarak iddia edilmemektedir.

Fugu'nun performansını kendim nasıl test edebilirim?

OpenAI uyumlu istemcinizi console.sakana.ai üzerindeki Fugu temel URL'sine yönlendirin, kendi görevlerinizi gönderin ve kalite, gecikme ile maliyeti ölçün. Fugu'yu kullandığınız tek modellerle aynı istemler üzerinden karşılaştırmak için uç noktayı Apidog içinde kaydedebilir ve tekrar çalıştırılabilir test senaryoları oluşturabilirsiniz.

DEV Community