การเรียนรู้แบบเสริมกำลังโดยใช้โมเดลสำหรับควบคุมการเคลื่อนที่ในแนวระนาบของแขนหุ่นยนต์

ผู้แต่ง

  • เมธา เมืองประเสริฐ นิสิต, สาขาวิศวกรรมเครื่องกล คณะวิศวกรรมศาสตร์ มหาวิทยาลัยบูรพา 169 ถ.ลงหาดบางแสน ต.แสนสุข อ.เมืองชลบุรี จ.ชลบุรี 20131
  • พิศักดิ์ เจิมประยงค์ อาจารย์, สาขาวิศวกรรมเครื่องกล คณะวิศวกรรมศาสตร์ มหาวิทยาลัยบูรพา 169 ถ.ลงหาดบางแสน ต.แสนสุข อ.เมืองชลบุรี จ.ชลบุรี 20131
  • กิตติพงศ์ บุญโล่ง อาจารย์, สาขาวิศวกรรมเครื่องกล คณะวิศวกรรมศาสตร์ มหาวิทยาลัยบูรพา 169 ถ.ลงหาดบางแสน ต.แสนสุข อ.เมืองชลบุรี จ.ชลบุรี 20131

คำสำคัญ:

robotic arm control, model-based reinforcement learning, machine learning regression, covariance matrix adaptation evolution strategy

บทคัดย่อ

งานวิจัยนี้เป็นการนำเสนอวิธีการเรียนรู้แบบเสริมกำลังโดยใช้โมเดล (MBRL) สำหรับควบคุมการเคลื่อนที่ในแนวระนาบของแขนหุ่นยนต์ 2 องศาอิสระและ 3 องศาอิสระ โดยทดสอบผ่านกรณีศึกษา 3 ปัญหา คือ ปัญหาการวางวัตถุ ปัญหาการไปถึงเป้าหมายของแขนหุ่นยนต์ 2 องศาอิสระและ
3 องศาอิสระที่มีการเพิ่มสัญญาณรบกวนการเคลื่อนที่และมีเงื่อนไขการฝึกสอนที่แตกต่างกัน พร้อมทั้งเปรียบเทียบวิธีจลนศาสตร์แบบผกผัน (IK) กับวิธี MBRL ที่ใช้เทคนิคการถดถอยการเรียนรู้ของเครื่อง 3 เทคนิค คือ การถดถอยของกระบวนการเกาส์เซียน (GPR) โครงข่ายประสาทเทียม (ANN) และซัพพอร์ตเวกเตอร์แมชชีนสําหรับการถดถอย (SVR) ในการสร้างแบบจำลองสิ่งแวดล้อมร่วมกับวิธีการหาค่าเหมาะสมที่สุดกลยุทธ์วิวัฒนาการการปรับตัวของเมทริกซ์ความแปรปรวนร่วม (CMA-ES) จากผลการทดลองพบว่าการใช้เทคนิค GPR ร่วมกับวิธี CMA-ES จะให้ประสิทธิภาพสูงที่สุด เนื่องจากเทคนิค GPR เป็นการประมาณความแปรปรวนสัมพัทธ์ที่พิจารณาถึงสัญญาณรบกวน ดังนั้นจึงทำให้ผลอัตราความสำเร็จของเทคนิค GPR มีค่าเท่ากับ 100%,
96-100% และ 98-100% ในปัญหาการวางวัตถุ ปัญหาการไปถึงเป้าหมายของแขนหุ่นยนต์ 2 องศาอิสระและ 3 องศาอิสระตามลำดับ ซึ่งสูงกว่าเทคนิค ANN, SVR, และ IK อย่างชัดเจน แม้ว่าเทคนิค GPR จะใช้เวลาในการฝึกสอนมากที่สุด แต่ก็ถือว่ามีความเหมาะสมกว่าเทคนิคอื่น ซึ่งมีอัตราความสำเร็จโดยเฉลี่ยประมาณเพียง 50%

References

Roche M. The MAKO robotic-arm knee arthroplasty system. Archives of Orthopaedic and Trauma Surgery 2021;141(12):2043-7.

Rivera GP, Eichmann C, Scherzinger S, Puck L, Roennau A, Dillmann R. Flexible, Personal service robot for ALS patients. IEEE International Conference on Robotics and Biomimetics (ROBIO); 2019. p. 1595-600.

Zhao Y, Gong L, Liu C, Huang Y. Dual-arm robot design and testing for harvesting tomato in greenhouse. IFAC-PapersOnLine 2016;49(16):161-5.

Jiang R, Wang Z, He B, Zhou Y, Li G, Zhu Z. A data-efficient goal-directed deep reinforcement learning method for robot visuomotor skill. Neurocomputing 2021;462: 389-401.

Zhang Z, Zheng C. Simulation of robotic arm grasping control based on proximal policy optimization algorithm. Journal of Physics: Conference Series 2022;2203(1):012065.

Joshi S, Kumra S, Sahin F. Robotic grasping using deep reinforcement learning. IEEE International Conference on Automation Science and Engineering (CASE); 2020. p. 1461-66.

Li X, Shang W, Cong S. Model-based reinforcement learning for robot control. IEEE International Conference on Advanced Robotics and Mechatronics (ICARM); 2020. p. 300-5.

Deisenroth MP, Rasmussen CE, Fox D. Learning to control a low-cost manipulator using data-efficient reinforcement learning. Robotics: Science and Systems VII 2011;7:57-64.

Moerland TM, Broekens J, Jonker CM. Model-based reinforcement learning: a survey. arXiv preprint arXiv:200616712 2020.

Williams C, Rasmussen C. Gaussian processes for regression. Advances in neural information processing systems 1995;8.

Abraham A. Artificial neural networks. Handbook of measuring system design 2005

Rahimi HN, Nazemizadeh M. Dynamic analysis and intelligent control techniques for flexible manipulators: a review. Advanced Robotics 2014;28(2):63-76.

Drucker H, Burges CJ, Kaufman L, Smola A, Vapnik V. Support vector regression machines. Advances in neural information processing systems 1996;9.

Beny MA. Support vector machine: regression [Internet]. 2019 [cited 2022 Nov 15]. Available from: https://medium.com/it-paragon/support-vector-machine-regression-cf65348b6345

Hansen N. The CMA evolution strategy: a tutorial. arXiv preprint arXiv:160400772 2016

Tan U, Rabaste O, Adnet C, Ovarlez JP. On the eclipsing phenomenon with phase codes. IEEE International Radar Conference (RADAR); 2019. p. 1-5.

Libera DA, Romeres D, Jha DK, Yerazunis B, Nikovski D. Model-based reinforcement learning for physical systems without velocity and acceleration measurements. IEEE Robotics and Automation Letters 2020;5(2):3548-55.

Rokbani N, Alimi AM. Inverse kinematics using particle swarm optimization, a statistical analysis. Procedia Engineering 2013;64:1602-11.

Downloads

เผยแพร่แล้ว

2023-04-29

ฉบับ

บท

บทความวิจัย (Research Article)