Sarun's Blog: จากการศึกษาของ MIT พบข้อผิดพลาด "อย่างเป็นระบบ" ในการให้ป้ายกำกับของชุดข้อมูลที่ได้รับความนิยมในการทำเบนช์มาร์กของ AI

วันพุธที่ 7 เมษายน พ.ศ. 2564

จากการศึกษาของ MIT พบข้อผิดพลาด "อย่างเป็นระบบ" ในการให้ป้ายกำกับของชุดข้อมูลที่ได้รับความนิยมในการทำเบนช์มาร์กของ AI

ตารางแสดงเปอร์เซ็นต์ของการให้ป้ายกำกับที่ผิดพลาดของชุดข้อมูลยอดนิยมของเบนช์มาร์ก AI

การวิเคราะห์โดยนักวิจัยของ Massachusetts Institute of Technology (MIT) แสดงให้เห็นถึงความอ่อนแอของชุดข้อมูลมาตรฐานปัญญาประดิษฐ์โอเพนซอร์สที่เป็นที่นิยม เนื่องจากข้อผิดพลาดในให้ป้ายกำกับ ทีมงานได้ตรวจสอบชุดทดสอบ 10 ชุดจากชุดข้อมูลรวมถึงฐานข้อมูล ImageNet และพบว่ามีข้อผิดพลาดเฉลี่ย 3.4% ในชุดข้อมูลทั้งหมด นักวิจัยของ MIT คำนวณว่าฐานข้อมูล QuickDraw ที่ดูแลโดย Google ซึ่งมีภาพวาด 50 ล้านภาพ มีข้อผิดพลาดมากที่สุดในชุดทดสอบโดยอยู่ที่ 10.12% ของป้ายกำกับทั้งหมด นักวิจัยกล่าวว่าการให้ป้ายกำกับที่ไม่ถูกต้องเหล่านี้ทำให้ผลการทดสอบจากชุดทดสอบไม่เสถียร นักวิจัยสรุปว่า "โดยทั่วไปแล้วผู้ปฏิบัติงานด้านแมชชีนเลิร์นนิงจะเลือกตัวแบบที่จะใช้ตามความแม่นยำในการทดสอบ การค้นพบของเราแนะนำให้ระวัง โดยเสนอว่าการตัดสินตัวแบบจากชุดทดสอบที่มีป้ายกำกับอย่างถูกต้องอาจมีประโยชน์มากกว่า โดยเฉพาะอย่างยิ่งสำหรับชุดข้อมูลจริงที่มักจะมีข้อมูลที่มีข้อมูลที่ไม่พึงประสงค์ปะปนมา

อ่านข่าวเต็มได้ที่: VentureBeat