20.000 kelimelik görsel harita, dudak okuyucuların neden yaygın benzerleri karıştırdığını ortaya koyuyor - Haberler

Kansas Üniversitesi’nin yeni araştırması, insanların dudak okurken neden hata yaptığını belirlemek için ağ bilimini kullanıyor. KU’da konuşma-dil-işitme profesörü Michael Vitevitch ve ortak yazarları, bazı kelimelerin dudakla okunmasının neden diğerlerine göre daha zor olduğunu daha iyi kavramayı umarak İngilizce’de yaklaşık 20.000 kelimeden oluşan görsel bir harita oluşturdular.

Sonuçlar şu adreste yayınlanıyor: Amerika Akustik Topluluğu Dergisi. Bulgular, dudak okuyucuların eğitimini geliştirebilir ve yapay zekanın dudak okuma, transkripsiyon ve diğer dijital hizmetleri sağlama kapasitesini artırabilir.

Vitevitch, “Bu çalışmada, insanların temel olarak dudakları nasıl okuduklarını, ne kadar doğru okuduklarını ve daha spesifik olarak ne tür hatalar yaptıklarını inceledik” dedi. “Önceki çalışmaların çoğu, insanların ne kadar doğru olduğuna bakıyordu ve hataların özelliklerine mutlaka bakmıyordu. Yaptığınız hatalardan öğrenilecek çok şey var ve biz de bu yaklaşımı benimsedik.”

Dudak okumayla ilgili önceki çalışmalar hataları incelerken, bu araştırmanın çoğu, ses birimlerine (bir dildeki seslere) ve katılımcıların sözcüğe göründüğü şekliyle ne kadar yakın olduklarına odaklanan konuşma dili araştırmacıları tarafından yapıldı.

Vitevitch farklı bir yaklaşım benimsedi.

“Görsel özelliklere odaklandık” dedi. “İnsanların bir kelimenin kaç sesine sahip olduğuna bakmak yerine, ‘visem’ (sesbirimin görsel eşdeğeri) dediğimiz görsel özelliklerin kaç tanesine sahip olduklarına baktık. İşitsel ses kullanmadan dudaklardan, çeneden ve ağızdan ne aldığınıza odaklandık. Sadece gördüklerinizden bilgi almaya çalışıyorsunuz.”

“Bu ses konuşulduğunda nasıl görünüyor? Nasıl göründüğü umurumuzda değil; biz konuşulduğunda nasıl göründüğünü önemsiyoruz” dedi. “Bazen ‘kit’, ‘kedi’ ve ‘kes’ gibi kelimeler kulağa benzer geliyor ve benzer görünüyor. Bazen kelimeler kulağa aynı gelmese de yine de benzer görünürler, örneğin ‘veteriner’, ‘fit’ ve ‘fuzz’. Her iki durumda da, sadece yüzüme baktığınızda bir kelimeyi diğerinden ayırt edemezsiniz.”

Görsel karışıklığın oluştuğu yer

Kelime haritasının analizi yoluyla araştırmacılar şunları belirledi:

İnsanların bir kelimeyi daha sık kullanılan başka bir kelimeyle karıştırma olasılığı daha yüksektir.
Konuşulduğunda İngilizce kelimelerin yaklaşık üçte biri en az bir başka kelimeye benziyor.
Bir kelimenin görsel açıdan çok sayıda benzerleri varsa, dudak okuması her zaman daha zordur.
Dudak okuma hataları rastgele gerçekleşmez; görsel olarak benzer kelimeler görsel ağda aynı bölgeyi işgal ettiğinde daha olasıdır.

Vitevitch, “İnsanların bu konuda o kadar da iyi olmaması şaşırtıcıydı” dedi. “Öyle olduğumuzu sanıyoruz ama gerçekte değiliz. Hataların çoğu, bir veya iki görsel özelliğinizin (bir veya iki görünüm) bozuk olduğunu gösteriyor. İyi bir miktar alıyorsunuz, ancak belki de geçinmek için yeterli değil.”

Vitevitch’e göre araştırmacıların görsel haritası, kelimelerin manzara boyunca nasıl dağıldığını anlamalarına olanak sağladı. Haritada kelimeler benzer göründüklerinde yakındı, görsel olarak benzemediğinde ise birbirinden uzaktı.

“Bazı alanlar beklediğinizden daha fazla sıkıştırılıyor” dedi. “Manzara, tahmin etmediğimiz şekillerde esniyor ve sıkışıyor. Bu esneme ve sıkışma, dudak okumaya çalışırken ne kadar doğru olacağınızı etkiliyor. Bu size normalde sahip olacağınızdan daha fazla rakip sunuyor mu? Yoksa nesneleri birbirinden uzaklaştırıp onları algısal olarak daha belirgin hale mi getiriyor?”

Kelime haritalarından eğitime

KU araştırmacısı, grubunun dudak okuma eğitimine geçmeyi umduğunu söyledi.

Vitevitch, “Buradaki fikir, insanların hatalarını zaman içinde izlerseniz, bu hataların hedef kelimeye doğru küçülmeye başlaması gerektiğidir” dedi. “İnsanlar uzakta olmak yerine ihtiyaç duydukları bilgileri toplamaya ve daha doğru tahminler yapmaya başlıyor.”

Araştırmanın ek bir uygulaması da otomatik transkripsiyon eğitimidir.

Vitevitch, “Zoom gibi sistemler zaten konuşmaları yazıya dökme konusunda makul bir iş çıkarıyor” dedi. “Yalnızca işitsel değil, aynı zamanda konuşmacının yüzünden alınan görsel bilgileri de kullansalardı daha iyisini yapabilirler miydi? Bilgisayarlar kalıp bulmada çok iyidirler ve bazen bunlar insanların kullandığı kalıpların aynısıdır. Bilgisayarları, işleri daha insani bir şekilde yapmaları için eğitebiliriz.”

Vitevitch, grubunun bu çalışmayı farklı yollarla takip etmeye devam edeceğini söyledi.

“İnsanların bunu nasıl yaptığını keşfetmeye devam ediyoruz, potansiyel olarak makine öğrenimi uygulamalarına doğru ilerliyoruz ve yardıma ihtiyacı olan insanların konuşmayı anlamalarına yardımcı olacak yollar buluyoruz” dedi.

Bu hikayenin arkasında kim var?

Lisa Kilit

BA sanat tarihi, MA maddi kültür. Eski müze editörü, sağlık görevlisi ve organ nakli koordinatörü. 2021’den beri Science X için editörlük yapıyorum.

Tam profil →

Robert Egan

Matematiksel biyoloji alanında lisans, yaratıcı yazarlıkta yüksek lisans. Bilim ve dil üzerine eşsiz bakış açılarıyla çok seyahat ettim.

Tam profil →

Görsel karışıklığın oluştuğu yer

Kelime haritalarından eğitime

Lisa Kilit

Robert Egan

Yorum yapın Yanıtı iptal et