ChatGPT Sahte Tıp Sınavını Geçti

Çalışma, ChatGPT ve GPT-4'ün kullanıcı ortalaması olan %73,7'ye göre sırasıyla %73,4 ve %83,4 puanlar elde ettiğini göstermiştir. Sorular tek en iyi cevaplı, çoktan seçmeli formattadır

ChatGPT teknolojisi genişlemeye devam ettikçe, Yapay Zekanın (YZ) insanların yerini alabileceğine dair endişeler de artmaya başladı. Henüz ön baskı niteliğinde olan ve hakem değerlendirmesinden geçmemiş olan son çalışma bu inancı güçlendiriyor.

ChatGPT-4'ün Amerikan Nörolojik Cerrahi Kurulu tarafından yapılan nöroşirürji sınavlarında daha iyi performans gösterdiğini ve her soruyu doğru yanıtladığını gösteren çalışma 29 Mart'ta yayınlandı.

ChatGPT (GPT-3.5) tıp öğrencisi kurul sınavlarında geçmeye yakın bir performans gösterirken, ChatGPT veya halefi GPT-4'ün uzmanlık sınavlarındaki performansı eskisini önemli ölçüde geride bıraktı.

Sağlık bilimleri için ön baskı sunucusu olan MedRxiv'de yer alan "Performance of ChatGPT and GPT-4 on Neurosurgery Written Board Examinations" başlıklı çalışmaya göre, ChatGPT ve GPT-4'ün 500 soruluk sahte bir nöroşirürji yazılı kurul sınavındaki performansını değerlendirmek amaçlanmıştır.

Tıp öğrencileri kurul sınavlarında, 12 soru kategorisinin her birinde GPT-4 kullanıcılardan önemli ölçüde daha iyi performans göstermiştir. Tümör sorularında hem kullanıcılardan hem de ChatGPT'den daha iyi performans gösterdi.

ChatGPT geçen yıl Kasım ayında piyasaya sürüldü ve üretken yapay zeka adı verilen teknolojiye büyük ilgi uyandırdı. Bu teknoloji insan konuşmalarını taklit eden cevaplar üretmek için kullanılıyor.

Microsoft destekli OpenAI tarafından yaratılan ChatGPT, muazzam hacimlerde veri üzerinde eğitildi ve bu da uygulamayı metin üretme, özetleme ve çevirmenin yanı sıra sorulara yanıt verme ve diğer birçok doğal dil görevini yerine getirme konusunda yetkin hale getirdi.

GPT-4, fotoğrafları okuyabilen ve içinde ne olduğunu açıklayabilen en yeni, yeni nesil yapay zeka dil modelidir.
GPT-4 %83,4 puan alarak ortalama bir kullanıcıdan daha iyi performans gösterdi

Çalışma, ChatGPT (GPT-3.5) ve GPT-4'ün kullanıcı ortalaması olan yüzde 73,7'ye göre sırasıyla yüzde 73,4 ve yüzde 83,4 puanlar elde ettiğini gösterdi.