Yeni AI Modelleri ve Eğitim

#llm #ai #machinelearning #nlp

Tıp dünyası için özel geliştirilen yapay zekalar mı daha iyi yoksa her işe koşan genel modeller mi? Son dönemde çıkan bir makale, genel modellerin uzman modelleri benchmark testlerinde tokatladığını iddia edince ortalık karıştı. Olay aslında modellerin gücünden ziyade, bu testlerin (benchmark) nasıl hazırlandığıyla ilgili.

Testin tasarımı sonucu belirliyor

Bir modeli "uzman" ilan etmek için önce onu test etmen gerekiyor. Ama tıbbi yapay zeka testleri genelde çoktan seçmeli sorular veya klinik vaka özetleri üzerinden yürüyor. Sorun şu ki, genel amaçlı modeller dili çok iyi anladığı için soruyu kafasında güzelce çerçeveleyebiliyor. Uzman modeller ise sadece dar bir veri kümesiyle eğitildiği için, testin formatı alıştığı düzenin dışına çıktığı an çuvallayabiliyor. Yani "X modeli Y modelini geçti" dendiğinde, önce o testin nasıl hazırlandığına bakmak lazım.

Genel muhakeme neden daha avantajlı?

Genel modellerin olayı esneklik. Soruyu farklı açılardan yorumlayıp belirsiz ifadelerin içinden çıkabiliyorlar. Uzman modeller ise format bağımlısı. Eğitim verisindeki dile çok sıkıştıkları için genelleme yapma yetenekleri düşük kalıyor. Bu da bizi şu soruya getiriyor: Bu testler gerçekten doktorun karar verme sürecini mi ölçüyor, yoksa sadece belirli bir veri formatının ne kadar ezberlendiğini mi?

Ürün geliştirirken ne yapmalı?

Diyelim ki klinik notları özetleyen bir uygulama yapacaksın. Hemen "özel bir model eğitelim" kafasına girmek mantıklı olmayabilir. Eğer genel modeller düzgün testlerde uzmanları geçebiliyorsa, önce eldeki modeli ne kadar iyi yönlendirdiğine bakmalısın. Prompt yapısını ve bağlamı doğru kurmak, özel model eğitmek için harcayacağın zaman ve paradan seni kurtarabilir. Genel modelin sınırlarını zorlamak genelde daha hızlı sonuç veriyor.

Tartışma neden bitmez?

Tıbbi yapay zekayı ölçmenin standart bir yolu hala yok. Hangi hasta grubu veya hangi başarı kriteri baz alınacak, kimse emin değil. Metodoloji sağlam kurulmadığı sürece "genel model kazandı" demekle "uzman model kazandı" demek aynı derecede güvenilmez kalıyor. Önemli olan model seçmekten ziyade, yapılan testin klinik gerçekliği ne kadar yansıttığını çözmek.

DEV Community

Yeni AI Modelleri ve Eğitim

Testin tasarımı sonucu belirliyor

Genel muhakeme neden daha avantajlı?

Ürün geliştirirken ne yapmalı?

Tartışma neden bitmez?

Top comments (0)