การเรียนรู้แบบเสริมกำลังโดยใช้โมเดลสำหรับควบคุมการเคลื่อนที่ในแนวระนาบของแขนหุ่นยนต์
คำสำคัญ:
robotic arm control, model-based reinforcement learning, machine learning regression, covariance matrix adaptation evolution strategyบทคัดย่อ
งานวิจัยนี้เป็นการนำเสนอวิธีการเรียนรู้แบบเสริมกำลังโดยใช้โมเดล (MBRL) สำหรับควบคุมการเคลื่อนที่ในแนวระนาบของแขนหุ่นยนต์ 2 องศาอิสระและ 3 องศาอิสระ โดยทดสอบผ่านกรณีศึกษา 3 ปัญหา คือ ปัญหาการวางวัตถุ ปัญหาการไปถึงเป้าหมายของแขนหุ่นยนต์ 2 องศาอิสระและ
3 องศาอิสระที่มีการเพิ่มสัญญาณรบกวนการเคลื่อนที่และมีเงื่อนไขการฝึกสอนที่แตกต่างกัน พร้อมทั้งเปรียบเทียบวิธีจลนศาสตร์แบบผกผัน (IK) กับวิธี MBRL ที่ใช้เทคนิคการถดถอยการเรียนรู้ของเครื่อง 3 เทคนิค คือ การถดถอยของกระบวนการเกาส์เซียน (GPR) โครงข่ายประสาทเทียม (ANN) และซัพพอร์ตเวกเตอร์แมชชีนสําหรับการถดถอย (SVR) ในการสร้างแบบจำลองสิ่งแวดล้อมร่วมกับวิธีการหาค่าเหมาะสมที่สุดกลยุทธ์วิวัฒนาการการปรับตัวของเมทริกซ์ความแปรปรวนร่วม (CMA-ES) จากผลการทดลองพบว่าการใช้เทคนิค GPR ร่วมกับวิธี CMA-ES จะให้ประสิทธิภาพสูงที่สุด เนื่องจากเทคนิค GPR เป็นการประมาณความแปรปรวนสัมพัทธ์ที่พิจารณาถึงสัญญาณรบกวน ดังนั้นจึงทำให้ผลอัตราความสำเร็จของเทคนิค GPR มีค่าเท่ากับ 100%,
96-100% และ 98-100% ในปัญหาการวางวัตถุ ปัญหาการไปถึงเป้าหมายของแขนหุ่นยนต์ 2 องศาอิสระและ 3 องศาอิสระตามลำดับ ซึ่งสูงกว่าเทคนิค ANN, SVR, และ IK อย่างชัดเจน แม้ว่าเทคนิค GPR จะใช้เวลาในการฝึกสอนมากที่สุด แต่ก็ถือว่ามีความเหมาะสมกว่าเทคนิคอื่น ซึ่งมีอัตราความสำเร็จโดยเฉลี่ยประมาณเพียง 50%
References
Roche M. The MAKO robotic-arm knee arthroplasty system. Archives of Orthopaedic and Trauma Surgery 2021;141(12):2043-7.
Rivera GP, Eichmann C, Scherzinger S, Puck L, Roennau A, Dillmann R. Flexible, Personal service robot for ALS patients. IEEE International Conference on Robotics and Biomimetics (ROBIO); 2019. p. 1595-600.
Zhao Y, Gong L, Liu C, Huang Y. Dual-arm robot design and testing for harvesting tomato in greenhouse. IFAC-PapersOnLine 2016;49(16):161-5.
Jiang R, Wang Z, He B, Zhou Y, Li G, Zhu Z. A data-efficient goal-directed deep reinforcement learning method for robot visuomotor skill. Neurocomputing 2021;462: 389-401.
Zhang Z, Zheng C. Simulation of robotic arm grasping control based on proximal policy optimization algorithm. Journal of Physics: Conference Series 2022;2203(1):012065.
Joshi S, Kumra S, Sahin F. Robotic grasping using deep reinforcement learning. IEEE International Conference on Automation Science and Engineering (CASE); 2020. p. 1461-66.
Li X, Shang W, Cong S. Model-based reinforcement learning for robot control. IEEE International Conference on Advanced Robotics and Mechatronics (ICARM); 2020. p. 300-5.
Deisenroth MP, Rasmussen CE, Fox D. Learning to control a low-cost manipulator using data-efficient reinforcement learning. Robotics: Science and Systems VII 2011;7:57-64.
Moerland TM, Broekens J, Jonker CM. Model-based reinforcement learning: a survey. arXiv preprint arXiv:200616712 2020.
Williams C, Rasmussen C. Gaussian processes for regression. Advances in neural information processing systems 1995;8.
Abraham A. Artificial neural networks. Handbook of measuring system design 2005
Rahimi HN, Nazemizadeh M. Dynamic analysis and intelligent control techniques for flexible manipulators: a review. Advanced Robotics 2014;28(2):63-76.
Drucker H, Burges CJ, Kaufman L, Smola A, Vapnik V. Support vector regression machines. Advances in neural information processing systems 1996;9.
Beny MA. Support vector machine: regression [Internet]. 2019 [cited 2022 Nov 15]. Available from: https://medium.com/it-paragon/support-vector-machine-regression-cf65348b6345
Hansen N. The CMA evolution strategy: a tutorial. arXiv preprint arXiv:160400772 2016
Tan U, Rabaste O, Adnet C, Ovarlez JP. On the eclipsing phenomenon with phase codes. IEEE International Radar Conference (RADAR); 2019. p. 1-5.
Libera DA, Romeres D, Jha DK, Yerazunis B, Nikovski D. Model-based reinforcement learning for physical systems without velocity and acceleration measurements. IEEE Robotics and Automation Letters 2020;5(2):3548-55.
Rokbani N, Alimi AM. Inverse kinematics using particle swarm optimization, a statistical analysis. Procedia Engineering 2013;64:1602-11.
Downloads
เผยแพร่แล้ว
ฉบับ
บท
License
Copyright (c) 2023 มหาวิทยาลัยเกษมบัณฑิต

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
ลิขสิทธิ์
บทความที่ได้รับการตีพิมพ์ในวิศวกรรมสารเกษมบัณฑิต ถือเป็นกรรมสิทธิ์ของมหาวิทยาลัยเกษมบัณฑิต ห้ามนำข้อความทั้งหมดไปตีพิมพ์ซ้ำ ยกเว้นได้รับอนุญาตจากมหาวิทยาลัยเกษมบัณฑิตแล้ว
ความรับผิดชอบ
หากบทความที่ได้รับการตีพิมพ์นั้นเป็นบทความที่ละเมิดลิขสิทธิ์ของผู้อื่นหรือมีความไม่ถูกต้องในเนื้อหาของบทความ ผู้เขียนบทความนั้นต้องเป็นผู้รับผิดชอบ