การเรียนรู้แบบเสริมกำลังโดยใช้โมเดลสำหรับควบคุมการเคลื่อนที่ในแนวระนาบของแขนหุ่นยนต์

เมธา เมืองประเสริฐ; พิศักดิ์ เจิมประยงค์; กิตติพงศ์ บุญโล่ง

ผู้แต่ง

เมธา เมืองประเสริฐ นิสิต, สาขาวิศวกรรมเครื่องกล คณะวิศวกรรมศาสตร์ มหาวิทยาลัยบูรพา 169 ถ.ลงหาดบางแสน ต.แสนสุข อ.เมืองชลบุรี จ.ชลบุรี 20131
พิศักดิ์ เจิมประยงค์ อาจารย์, สาขาวิศวกรรมเครื่องกล คณะวิศวกรรมศาสตร์ มหาวิทยาลัยบูรพา 169 ถ.ลงหาดบางแสน ต.แสนสุข อ.เมืองชลบุรี จ.ชลบุรี 20131
กิตติพงศ์ บุญโล่ง อาจารย์, สาขาวิศวกรรมเครื่องกล คณะวิศวกรรมศาสตร์ มหาวิทยาลัยบูรพา 169 ถ.ลงหาดบางแสน ต.แสนสุข อ.เมืองชลบุรี จ.ชลบุรี 20131

คำสำคัญ:

robotic arm control, model-based reinforcement learning, machine learning regression, covariance matrix adaptation evolution strategy

บทคัดย่อ

งานวิจัยนี้เป็นการนำเสนอวิธีการเรียนรู้แบบเสริมกำลังโดยใช้โมเดล (MBRL) สำหรับควบคุมการเคลื่อนที่ในแนวระนาบของแขนหุ่นยนต์ 2 องศาอิสระและ 3 องศาอิสระ โดยทดสอบผ่านกรณีศึกษา 3 ปัญหา คือ ปัญหาการวางวัตถุ ปัญหาการไปถึงเป้าหมายของแขนหุ่นยนต์ 2 องศาอิสระและ
3 องศาอิสระที่มีการเพิ่มสัญญาณรบกวนการเคลื่อนที่และมีเงื่อนไขการฝึกสอนที่แตกต่างกัน พร้อมทั้งเปรียบเทียบวิธีจลนศาสตร์แบบผกผัน (IK) กับวิธี MBRL ที่ใช้เทคนิคการถดถอยการเรียนรู้ของเครื่อง 3 เทคนิค คือ การถดถอยของกระบวนการเกาส์เซียน (GPR) โครงข่ายประสาทเทียม (ANN) และซัพพอร์ตเวกเตอร์แมชชีนสําหรับการถดถอย (SVR) ในการสร้างแบบจำลองสิ่งแวดล้อมร่วมกับวิธีการหาค่าเหมาะสมที่สุดกลยุทธ์วิวัฒนาการการปรับตัวของเมทริกซ์ความแปรปรวนร่วม (CMA-ES) จากผลการทดลองพบว่าการใช้เทคนิค GPR ร่วมกับวิธี CMA-ES จะให้ประสิทธิภาพสูงที่สุด เนื่องจากเทคนิค GPR เป็นการประมาณความแปรปรวนสัมพัทธ์ที่พิจารณาถึงสัญญาณรบกวน ดังนั้นจึงทำให้ผลอัตราความสำเร็จของเทคนิค GPR มีค่าเท่ากับ 100%,
96-100% และ 98-100% ในปัญหาการวางวัตถุ ปัญหาการไปถึงเป้าหมายของแขนหุ่นยนต์ 2 องศาอิสระและ 3 องศาอิสระตามลำดับ ซึ่งสูงกว่าเทคนิค ANN, SVR, และ IK อย่างชัดเจน แม้ว่าเทคนิค GPR จะใช้เวลาในการฝึกสอนมากที่สุด แต่ก็ถือว่ามีความเหมาะสมกว่าเทคนิคอื่น ซึ่งมีอัตราความสำเร็จโดยเฉลี่ยประมาณเพียง 50%

References

Roche M. The MAKO robotic-arm knee arthroplasty system. Archives of Orthopaedic and Trauma Surgery 2021;141(12):2043-7.

Rivera GP, Eichmann C, Scherzinger S, Puck L, Roennau A, Dillmann R. Flexible, Personal service robot for ALS patients. IEEE International Conference on Robotics and Biomimetics (ROBIO); 2019. p. 1595-600.

Zhao Y, Gong L, Liu C, Huang Y. Dual-arm robot design and testing for harvesting tomato in greenhouse. IFAC-PapersOnLine 2016;49(16):161-5.

Jiang R, Wang Z, He B, Zhou Y, Li G, Zhu Z. A data-efficient goal-directed deep reinforcement learning method for robot visuomotor skill. Neurocomputing 2021;462: 389-401.

Zhang Z, Zheng C. Simulation of robotic arm grasping control based on proximal policy optimization algorithm. Journal of Physics: Conference Series 2022;2203(1):012065.

Joshi S, Kumra S, Sahin F. Robotic grasping using deep reinforcement learning. IEEE International Conference on Automation Science and Engineering (CASE); 2020. p. 1461-66.

Li X, Shang W, Cong S. Model-based reinforcement learning for robot control. IEEE International Conference on Advanced Robotics and Mechatronics (ICARM); 2020. p. 300-5.

Deisenroth MP, Rasmussen CE, Fox D. Learning to control a low-cost manipulator using data-efficient reinforcement learning. Robotics: Science and Systems VII 2011;7:57-64.

Moerland TM, Broekens J, Jonker CM. Model-based reinforcement learning: a survey. arXiv preprint arXiv:200616712 2020.

Williams C, Rasmussen C. Gaussian processes for regression. Advances in neural information processing systems 1995;8.

Abraham A. Artificial neural networks. Handbook of measuring system design 2005

Rahimi HN, Nazemizadeh M. Dynamic analysis and intelligent control techniques for flexible manipulators: a review. Advanced Robotics 2014;28(2):63-76.

Drucker H, Burges CJ, Kaufman L, Smola A, Vapnik V. Support vector regression machines. Advances in neural information processing systems 1996;9.

Beny MA. Support vector machine: regression [Internet]. 2019 [cited 2022 Nov 15]. Available from: https://medium.com/it-paragon/support-vector-machine-regression-cf65348b6345

Hansen N. The CMA evolution strategy: a tutorial. arXiv preprint arXiv:160400772 2016

Tan U, Rabaste O, Adnet C, Ovarlez JP. On the eclipsing phenomenon with phase codes. IEEE International Radar Conference (RADAR); 2019. p. 1-5.

Libera DA, Romeres D, Jha DK, Yerazunis B, Nikovski D. Model-based reinforcement learning for physical systems without velocity and acceleration measurements. IEEE Robotics and Automation Letters 2020;5(2):3548-55.

Rokbani N, Alimi AM. Inverse kinematics using particle swarm optimization, a statistical analysis. Procedia Engineering 2013;64:1602-11.