ภาพจาก PC Magazine |
โปรแกรมสังเคราะห์ข้อความเป็นคำพูด VALL-E ของ Microsoft สามารถทำซ้ำหรือ "โคลน" เสียงของบุคคลจากคลิปเสียงยาวสามวินาที
นักวิจัยของ Microsoft ฝึกอบรม VALL-E โดยใช้คำบรรยายหนังสือเสียงภาษาอังกฤษ 60,000 ชั่วโมงจากผู้บรรยายมากกว่า 7,000 คน
ตัวแบบแปลงเสียงพูดเป็น "โทเค็นแยกจากกัน (discrete token)" จากนั้นทำโทเค็นซ้ำเพื่อใช้พูดข้อความอื่น VALL-E สามารถควบคุมเสียงจำลองให้พูดอะไรก็ได้ตามต้องการ เช่นเดียวกับการสร้างอารมณ์หรือปรับแต่งเสียงให้เป็นรูปแบบการพูดที่แตกต่างกัน
อย่างไรก็ตาม งานวิจัยนี้ยอมรับว่า "เนื่องจาก VALL-E สามารถสังเคราะห์เสียงพูดที่รักษาเอกลักษณ์ของผู้พูดได้ จึงอาจมีความเสี่ยงที่อาจเกิดขึ้นจากการใช้ตัวแบบในทางที่ผิด เช่น การปลอมแปลงเสียงเพื่อใช้ในการระบุบุคล และการการแอบอ้างการเป็นผู้พูด"
อ่านข่าวเต็มได้ที่: PC Magazine
ไม่มีความคิดเห็น:
แสดงความคิดเห็น