CEİD

Bu proje Avrupa Birliği tarafından finanse edilmektedir.

TÜRKİYE'DE KATILIMCI DEMOKRASİNİN GÜÇLENDİRİLMESİ:
TOPLUMSAL CİNSİYET EŞİTLİĞİNİN İZLENMESİ PROJESİ

İnsanlar AI tarafından üretilen Deep Tesenli Sesleri Tespitlemekte Gerçekten Kötü

Testler, insanlar gerçek seslerin ve AI olarak yaratılanların kayıtlarını duyduklarında, çoğunlukla sahte olanları tespit edemediklerini ve sahte sesleri içeren dolandırıcılıklarla ilgili endişeleri artırdıklarını göstermektedir.

Gerçek sesleri AI tarafından oluşturulan seslerden ayırt etmek zor

Konuşma tarzı konuşma örnekleri veya arkadaşlar veya aileniz gibi tanıdık sesler dışında insanlar artık AI ve insan seslerini birbirinden ayıramazlar.

Yapay zeka kullanarak insan seslerini yeniden üretmek uzun zamandır bir araştırma hedefi olmuştur, örneğin konuşma yeteneğini kaybeden insanlara yardımcı olmak için, ancak yakın zamana kadar insanlar çoğunlukla AI tarafından oluşturulan bir sesi tanıyabildiler. 2023’te araştırmacılar, İngilizce ve Mandarin konuşmacılarının gerçek ve derin asma sesleri arasında zamanın yaklaşık yüzde 70’ini ayırt edebileceğini buldular.

Ancak Berkeley, California Üniversitesi’ndeki Hany Farid ve meslektaşları, en iyi AI ses jeneratörlerinin tespit edilmesi çok daha zor olduğunu gösterdiler. Bulgular, sahte sesleri içeren dolandırıcılık riski hakkındaki korkuları artıracaktır.

“İyi olduğunu düşünüyorsun (farkı anlatıyor), ama değilsin,” diyor Farid. “Bana kaç kişiyle konuştuğumu söyleyemem, ‘AI arasındaki farkı söyleyebilirim ya da değil, bu gerçekten kolay.’ Yanılıyorsun. “

Farid ve ekibi AI şirketi ElevenLabs’ın ses klonlama yazılımı kullandı. Her biri yaklaşık bir saniye ila daha uzun ve yazılmamış cevaplardan neredeyse bir dakikalık tek cümle yanıtlarından 32 farklı istemlere yanıt veren farklı ırklardan ve cinsiyetlerden insanları içeriyordu.

Daha sonra, 600’den fazla kişi, aynı kaynaktan iki sesin olup olmadığını söyleyip söyleyemeyecekleri sorulmadan önce, AI’nın dahil olduğu söylenmeden farklı sesli gerçek sesler ve AI seslerinin farklı çiftlerini dinledi. Katılımcılar gerçek bir sesin ve AI tarafından üretilen klonlanmış bir sesin zamanın yüzde 80’i aynı olduğunu düşündüler.

Araştırmacılar insanlardan bir sesin gerçek mi yoksa AI tarafından üretilip gelmediğini tahmin etmelerini istediğinde, gönüllüler zamanın yaklaşık yüzde 60’ı veya şansın hemen üzerinde doğru cevap verdiler. Bununla birlikte, insanlar daha kısa, okuma yanıtlarına kıyasla daha uzun veya daha az komut dosyası olduğunda bir AI sesi tespit etmekte daha iyiydi.

Londra University College London’daki Carolyn McGettigan, “Şimdi, gerçek insan kayıtlarından (ayırt edilemez) niteliklerinde yeterince insan olan en son teknoloji derin peynir seslerinin bulunduğu bir noktadayız” diyor.

Ayrı bir çalışmada, McGettigan ve meslektaşları da insanların AI ve insan sesleri arasında ayrım yapmak için mücadele ettiklerini, kabaca ve rastgele bir tahmin yaptıklarını buldular. Ancak, bir aile üyesininki gibi iyi bildikleri bir sesi dinlerken, derin dişleri tespit etmede çok daha iyiydi.

Farid, sahte seslerin gerçek dünyadaki durumlarda tespit edilmesinin daha da zor olacağını söylüyor. “Bu mümkün olan en iyi durum. Evde oturuyorlar, bir deney yaptıklarını biliyorlar, dikkat ediyorlar, zamanları için para alıyorlar. Sabah 2’de çılgın bir çağrı değil.”

Farid, bir kayıttan bir AI sesini tanımlamaya yardımcı olabilecek istatistiksel araçlar ve AI ile çalışan dedektörler olsa da, bu, bir kayıttan bir AI sesini tanımlamaya yardımcı olabilecek çok daha zordur, bu nedenle AI ses aldatmacalarına karşı en iyi koruma, arkadaşlarınız ve ailenizle bir şifre üzerinde anlaşmaktır. “Ailenizin gizli bir şifresi olmalı ve birisi aradığında onlara şifrenin ne olduğunu soruyorsunuz.”