CEİD

Bu proje Avrupa Birliği tarafından finanse edilmektedir.

TÜRKİYE'DE KATILIMCI DEMOKRASİNİN GÜÇLENDİRİLMESİ:
TOPLUMSAL CİNSİYET EŞİTLİĞİNİN İZLENMESİ PROJESİ

Yapay zeka sohbet robotları kadın sağlığıyla ilgili sorgulardaki acil sorunları gözden kaçırıyor

ChatGPT ve Gemini gibi yapay zeka modelleri, tıp uzmanları tarafından oluşturulan bir testte kadın sağlığına ilişkin soruların yüzde 60’ına yeterli tavsiye verememektedir.

Birçok kadın sağlık bilgisi için yapay zekayı kullanıyor ancak cevaplar her zaman güncel değil

Yaygın olarak kullanılan yapay zeka modelleri, kadın sağlığıyla ilgili acil müdahale gerektiren birçok soruyu doğru bir şekilde teşhis etmekte veya tavsiyelerde bulunmakta başarısız oluyor.

OpenAI, Google, Anthropic, Mistral AI ve xAI gibi şirketler tarafından üretilen on üç büyük dil modeline acil tıp, jinekoloji ve nöroloji dahil olmak üzere beş uzmanlık alanında 345 tıbbi sorgu verildi. Sorular ABD ve Avrupa’dan 17 kadın sağlığı araştırmacısı, eczacı ve klinisyen tarafından yazılmıştır.

Cevaplar aynı uzmanlar tarafından incelendi. Modellerin başarısız olduğu tüm sorular, yapay zeka modellerinin tıbbi uzmanlığına ilişkin 96 sorgu içeren bir kıyaslama testinde toplandı.

Tüm modellerde soruların yaklaşık yüzde 60’ı, insan uzmanların daha önce tıbbi tavsiye için yeterli olmadığını söylediği şekilde yanıtlandı. GPT-5, sorguların yüzde 47’sinde başarısız olan en iyi performans gösteren model olurken, Ministral 8B yüzde 73 ile en yüksek başarısızlık oranına sahip oldu.

Şirketlerin kendi yapay zeka modellerini değerlendirmesine ve geliştirmesine yardımcı olan bir firma olan Lumos AI’dan ekip üyesi Victoria-Elisabeth Gruber, “Kendi çevremde giderek daha fazla kadının sağlık soruları ve karar desteği için yapay zeka araçlarına başvurduğunu gördüm” diyor. O ve meslektaşları, tıbbi bilgideki mevcut cinsiyet eşitsizliklerini devralan ve güçlendiren bir teknolojiye güvenmenin risklerinin farkındaydı. “Bizi bu alanda bir ilk ölçüt oluşturmaya motive eden şey buydu” diyor.

Başarısızlık oranı Gruber’ı şaşırttı. “Bazı boşluklar bekliyorduk ama modeller arasındaki çeşitliliğin derecesi göze çarpıyordu” diyor.

Kanada’daki Montreal Üniversitesi’nden Cara Tannenbaum, AI modellerinin yerleşik önyargılara sahip, insan tarafından oluşturulan tarihsel verilere dayanarak eğitilme şekli nedeniyle bulguların şaşırtıcı olmadığını söylüyor. “Çevrimiçi sağlık kaynaklarının ve sağlık profesyoneli topluluklarının, web içeriklerini yapay zekanın kadın sağlığını daha doğru bir şekilde desteklemek için kullanabileceği daha açık cinsiyet ve toplumsal cinsiyetle ilgili kanıta dayalı bilgilerle güncellemelerine açık bir ihtiyaç” olduğuna işaret ediyorlar.

Kaliforniya’daki Stanford Üniversitesi’nden Jonathan H. Chen, analizin arkasındaki araştırmacıların öne sürdüğü yüzde 60’lık başarısızlık oranının biraz yanıltıcı olduğunu söylüyor. “Sınırlı ve uzmanlar tarafından tasarlanmış bir örnek olduğu için yüzde 60’lık rakama fazla takılmayacağım” diyor. “(Bu) geniş bir örnek veya hastaların veya doktorların düzenli olarak soracaklarını temsil edecek şekilde tasarlanmamıştır.”

Chen ayrıca modelin test ettiği bazı senaryoların yüksek potansiyel başarısızlık oranlarına sahip, aşırı ihtiyatlı olduğuna dikkat çekiyor. Örneğin, doğum sonrası kadınlar baş ağrısından şikayet ediyorsa model, preeklampsiden hemen şüphelenilmediği takdirde yapay zeka modellerinin başarısız olacağını öne sürüyor.

Gruber bu eleştirileri kabul ediyor ve kabul ediyor. “Amacımız modellerin genel olarak güvensiz olduğunu iddia etmek değil, değerlendirme için açık, klinik temelli bir standart tanımlamaktı” diyor. “Kıyaslama kasıtlı olarak muhafazakar ve başarısızlıkları nasıl tanımladığı konusunda daha katı bir yaklaşım sergiliyor, çünkü sağlık hizmetlerinde görünüşte küçük ihmaller bile bağlama bağlı olarak önemli olabilir.”

OpenAI sözcüsü şunları söyledi: “ChatGPT, tıbbi bakımın yerini almak değil, desteklemek için tasarlandı. Modellerimizi geliştirmek ve zararlı veya yanıltıcı yanıtları azaltmak için sürekli değerlendirmeler yürütmek için dünya çapındaki klinisyenlerle yakın işbirliği içinde çalışıyoruz. En son GPT 5.2 modelimiz, cinsiyet gibi önemli kullanıcı bağlamını göz önünde bulunduran en güçlü modelimizdir. Model çıktılarının doğruluğunu ciddiye alıyoruz ve ChatGPT yararlı bilgiler sağlasa da, kullanıcılar bakım ve tedavi kararları için her zaman nitelikli klinisyenlere güvenmelidir.” Yapay zekaları test edilen diğer şirketler yanıt vermedi Yeni Bilim Adamı yorum talebi.

Yorum yapın