Bay72
Forum Üyesi
Columbia Üniversitesi Mühendislik Fakültesi’ndeki Creative Machines Lab’de geliştirilen bir insansı robot, şimdiye kadar robotik dünyasında pek az örneği görülen düzeyde gerçekçi dudak hareketleri sergilemeyi başardı. Üstelik bunu, insan videolarını izleyerek ve taklit ederek öğrendi. Araştırma, bir otonom sistemin konuşma ve şarkı söylemeye yönelik doğal dudak hareketlerini, yalnızca görsel öğrenme yoluyla kazandığı ilk çalışma olarak kayda geçti.
İnsansı robot tasarımında yıllardır aşılamayan en büyük sorunlardan biri yüz hareketleri. Yürüyüş, kavrama ve genel mekanik becerilerde ciddi ilerlemeler kaydedilmiş olsa da, özellikle konuşma sırasında ağız ve dudakların “doğru hissettiren” biçimde hareket etmesi hala büyük bir zorluk. En gelişmiş robotlar bile çoğu zaman kukla benzeri, yapay ağız hareketleri sergiliyor. İnsan beyni bu tür küçük tutarsızlıklara son derece hassas ve bu durum, robotların ürkütücü algılanmasına yol açıyor.
DOĞAL KONUŞMA İÇİN OLDUKÇA ÖNEMLİ
Araştırma ekibi bu soruna alışılmışın dışında bir yaklaşımla çözüyor. Robotun yüzü, yumuşak sentetik bir deri altına yerleştirilmiş 26 minyatür motordan oluşuyor. Ancak bu motorlar, önceden her ses için elle yazılmış kurallarla değil; deneme, gözlem ve taklit yoluyla eğitilmiş.
İlk aşamada robot bir aynanın karşısına yerleştiriliyor ve binlerce rastgele yüz ifadesi üreterek kendi hareketlerini izliyor. Bu süreçte hangi motor hareketinin yüzde nasıl bir şekil oluşturduğunu öğreniyor, yani robot, önce kendi yüzünün nasıl çalıştığını anlıyor da diyebiliriz.
Bu aşamadan sonra ise insanları gözleme aşamasına geçilmiş. Sistem, YouTube’daki saatlerce konuşma ve şarkı söyleme videosu ile eğitildi. Geliştirilen vision-to-action (VLA) modeli sayesinde robot, sesi doğrudan motor komutlarına çevirmeyi öğrendi. Böylece duyduğu seslerle senkronize dudak hareketleri üretebildi.
PS5, Xbox ve Switch 2’yi tek kasada birleştirdiler: Ningtendo PXBOX 5
Testlerde robotun birden fazla dilde dudak senkronu yapabildiği, hatta Hello World adlı yapay zeka üretimi ilk albümünden parçalar “söylerken” oldukça ikna edici göründüğü belirtiliyor. Elbette sistem hala kusursuz değil. “B” harfi gibi sert dudak kapanışı gerektiren sesler veya “W” gibi büzülme isteyen harfler robot için hala zorlayıcı. Creative Machines Lab Direktörü ve makine mühendisliği profesörü Hod Lipson ise “İnsanlarla ne kadar çok etkileşime girerse, o kadar iyi olacak” diyor.
Araştırmanın asıl önemi eğlence tarafında değil, iletişimin derinliğinde yatıyor. Daha doğal yüz hareketlerine sahip robotlar, insanlarla duygusal açıdan çok daha güçlü bağlar kurabilir. Çalışmanın başyazarı Yuhang Hu, bu tür yüz animasyonlarının ChatGPT veya Gemini gibi sohbet tabanlı yapay zekalarla birleştiğinde, etkileşimlerin duygusal gerçekliğini ciddi biçimde artırabileceğini vurguluyor. Zamanla mikro yüz ifadelerinin bağlama daha duyarlı hâle gelmesi de mümkün.
Ziyaretçiler için gizlenmiş link,görmek için
Giriş yap veya üye ol.