“İkna Edici Ama Yanlış” Riski: Yapay Zekâ Sağlık Yanıtlarında Alarm Veren Araştırma

Carsten Eickhoff ve ekibinin yürüttüğü yeni bir araştırma, yapay zekâ destekli sohbet robotlarının sağlık alanında verdiği yanıtların önemli bir bölümünün ikna edici görünmesine rağmen hatalı veya yanıltıcı olabildiğini ortaya koydu. Bulgular, sağlık bilgisinin giderek daha fazla dijital araçlar üzerinden edinildiği bir dönemde ciddi tartışmaları beraberinde getirdi.

BMJ Open Araştırması: Yanıtların Yarısı Sorunlu

Araştırma, BMJ Open dergisinde yayımlandı ve dünyanın en yaygın kullanılan beş yapay zekâ sohbet robotunu mercek altına aldı:

  • ChatGPT
  • Gemini
  • Grok
  • Meta AI
  • DeepSeek

Araştırmacılar bu sistemlere kanser, aşılar, beslenme, kök hücre tedavileri ve spor performansı gibi alanlarda 50 farklı tıbbi soru yöneltti. Yanıtlar iki uzman tarafından bağımsız şekilde değerlendirildi.

Çarpıcı sonuçlar:

  • Yanıtların %20’si ciddi biçimde sorunlu
  • Yaklaşık %50’si hatalı veya eksik
  • Sadece %30’u kısmen güvenilir

Daha da dikkat çekici olan ise, 250 yanıt içinde yalnızca 2 sorunun cevaplanmasının reddedilmesi. Yani sistemler, yanlış olma ihtimali yüksek olsa bile çoğu zaman yanıt üretmeyi tercih ediyor.

Sahte Referanslar ve “Bilimsel Görünüm” Sorunu

Araştırma, yapay zekâ yanıtlarının en tehlikeli yönlerinden birinin sahte ya da hatalı referans üretimi olduğunu ortaya koydu.

  • Chatbot’lardan istenen bilimsel kaynakların doğruluk oranı yalnızca %40 civarında
  • Hiçbir sistem, tamamen doğru bir referans listesi oluşturamadı
  • Hatalar arasında:
    • Uydurma makaleler
    • Yanlış yazar isimleri
    • Çalışmayan bağlantılar

Bu durum, özellikle sağlık gibi kritik alanlarda, kullanıcıların “kanıt var” algısıyla yanlış bilgilere güvenmesine yol açabiliyor.

Açık Uçlu Sorular Daha Riskli

Araştırma, kullanıcı davranışının da riskleri artırdığını gösteriyor.

  • Açık uçlu sorularda (örneğin: “En iyi takviyeler hangileri?”)
    %32 oranında ciddi hata
  • Kapalı uçlu sorularda
    %7 oranında hata

Gerçek hayatta kullanıcıların çoğu açık uçlu sorular sorduğu için, bu bulgu pratikte riskin çok daha yüksek olduğunu gösteriyor.

Neden Yanlış Yapıyorlar?

Araştırmacılara göre sorun yapay zekânın doğasında yatıyor:

  • Bu sistemler bilgi doğrulamaz, sadece en olası kelimeyi tahmin eder
  • Eğitim verileri:
    • Bilimsel makaleler
    • Bloglar
    • Sosyal medya içerikleri
  • Sonuç: Bilimsel bilgi ile spekülasyon aynı havuzda birleşiyor

Diğer Araştırmalar da Aynı Soruna İşaret Ediyor

%95 Doğruluk… Ama Kullanıcı Başarısı %35

Nature Medicine’da yayımlanan 2026 tarihli bir çalışmaya göre:

  • Yapay zekâ teoride %95 doğruluk sağlayabiliyor
  • Ancak kullanıcılar bu yanıtları doğru kullanabildiğinde oran %35’in altına düşüyor

👉 Sorun sadece sistem değil, kullanıcının yanıtı yorumlama biçimi

Tanı Koymada Sınırlılıklar

JAMA Network Open çalışmasına göre:

  • Sınırlı veriyle doğruluk: %80’in altında
  • Klinik ve laboratuvar verisi eklenince: %90+

👉 Yapay zekâ, bağlam olmadan güvenilir değil

Antibiyotiklere dair çarpıcı araştırma: Enfeksiyonu tedavi ederken iltihabı artırabilir mi?
Antibiyotiklere dair çarpıcı araştırma: Enfeksiyonu tedavi ederken iltihabı artırabilir mi?
İçeriği Görüntüle

Uydurma Tıbbi Terimler Bile Kabul Ediliyor

Nature Communications Medicine araştırması:

  • Chatbot’ların uydurma terimleri bile gerçekmiş gibi işlediğini ortaya koydu

Uzmanlara Göre: Yardımcı Araç, Ama Otorite Değil

Araştırmanın en net sonucu şu:

Yapay zekâ sistemleri sağlık alanında yardımcı araç olabilir, ancak bağımsız bir tıbbi otorite olarak kullanılmamalıdır.

Ne için kullanılabilir?

  • Tıbbi konuları özetlemek
  • Doktora sorulacak soruları hazırlamak
  • Araştırmaya başlangıç yapmak

Ne için kullanılmamalı?

  • Tanı koymak
  • Tedavi seçmek
  • Klinik karar vermek

Kullanıcılara Kritik Uyarı

Uzmanlar, yapay zekâdan sağlık bilgisi alanlara şu uyarılarda bulunuyor:

  • ✔️ Her bilgiyi doğrulayın
  • ✔️ Referansları kesin doğru kabul etmeyin
  • ✔️ Yanıt ne kadar güven verici olursa olsun şüphe payı bırakın
  • ✔️ Mutlaka bir sağlık profesyoneline danışın

Sonuç: Güvenilirlik Krizi Kapıda mı?

Yapay zekâ sistemleri hızla hayatın merkezine yerleşirken, bu araştırma önemli bir gerçeği gözler önüne seriyor:
Akıcı ve ikna edici bir dil, doğru bilgi anlamına gelmiyor.

Sağlık gibi hayati bir alanda ise bu fark, yalnızca bilgi hatası değil, doğrudan insan hayatını etkileyen bir risk anlamına geliyor.

Muhabir: Güven BOĞA