Sarun's Blog: เครือข่ายเรียนรู้เชิงลึกชอบเสียงคนมากกว่า

วันพุธที่ 14 เมษายน พ.ศ. 2564

เครือข่ายเรียนรู้เชิงลึกชอบเสียงคนมากกว่า

ภาพจาก Columbia Engineering

Hod Lipson และ Boyuan Chen จาก Columbia University สาธิตให้เห็นว่าระบบปัญญาประดิษฐ์ที่ตั้งโปรแกรมด้วยไฟล์เสียงภาษามนุษย์สามารถทำงานได้ดีกว่าระบบที่เข้ารหัสด้วยป้ายกำกับข้อมูลที่เป็นตัวเลข วิศวกรได้สร้างเครือข่ายประสาทเทียมสองเครือข่าย และฝึกให้พวกมันจดจำวัตถุ 10 ประเภทในชุดภาพถ่าย 50,000 ภาพ ระบบหนึ่งได้รับการฝึกฝนด้วยอินพุตไบนารี ในขณะที่อีกระบบหนึ่งได้รับการป้อนตารางข้อมูลที่มีรูปถ่ายของสัตว์หรือสิ่งของพร้อมไฟล์เสียงที่สอดคล้องกันของเสียงของมนุษย์ที่พูดชื่อสัตว์หรือสิ่งของ นักวิจัยจากโคลัมเบียพบว่าเมื่อนำเสนอด้วยภาพเครือข่ายโปรแกรมไบนารีจะตอบด้วย 1 และ 0 ในขณะที่อีกเครือข่ายหนึ่งจะพูดชื่อของวัตถุจากภาพ เมื่อทดสอบด้วยภาพที่ไม่ชัดเจนพบว่าเครือข่ายที่ฝึกด้วยเสียงมีความแม่นยำ 50% ในขณะที่เครือข่ายที่ฝึกด้วยตัวเลขมีความแม่นยำเพียง 20%

อ่านข่าวเต็มได้ที่: Columbia Engineering