Sarun's Blog: โปรแกรม AI ของ Microsoft สามารถโคลนเสียงจากคลิปวีดีโอยาวสามวินาที

วันเสาร์ที่ 14 มกราคม พ.ศ. 2566

โปรแกรม AI ของ Microsoft สามารถโคลนเสียงจากคลิปวีดีโอยาวสามวินาที

ภาพจาก PC Magazine

โปรแกรมสังเคราะห์ข้อความเป็นคำพูด VALL-E ของ Microsoft สามารถทำซ้ำหรือ "โคลน" เสียงของบุคคลจากคลิปเสียงยาวสามวินาที

นักวิจัยของ Microsoft ฝึกอบรม VALL-E โดยใช้คำบรรยายหนังสือเสียงภาษาอังกฤษ 60,000 ชั่วโมงจากผู้บรรยายมากกว่า 7,000 คน

ตัวแบบแปลงเสียงพูดเป็น "โทเค็นแยกจากกัน (discrete token)" จากนั้นทำโทเค็นซ้ำเพื่อใช้พูดข้อความอื่น VALL-E สามารถควบคุมเสียงจำลองให้พูดอะไรก็ได้ตามต้องการ เช่นเดียวกับการสร้างอารมณ์หรือปรับแต่งเสียงให้เป็นรูปแบบการพูดที่แตกต่างกัน

อย่างไรก็ตาม งานวิจัยนี้ยอมรับว่า "เนื่องจาก VALL-E สามารถสังเคราะห์เสียงพูดที่รักษาเอกลักษณ์ของผู้พูดได้ จึงอาจมีความเสี่ยงที่อาจเกิดขึ้นจากการใช้ตัวแบบในทางที่ผิด เช่น การปลอมแปลงเสียงเพื่อใช้ในการระบุบุคล และการการแอบอ้างการเป็นผู้พูด"

อ่านข่าวเต็มได้ที่: PC Magazine