การพยากรณ์ทิศทางของราคาหุ้นรายวันจากข้อความข่าวภาษาไทย โดยใช้วิธีการประมวลผลภาษาธรรมชาติ
คำสำคัญ:
วิธีการประมวลผลภาษาธรรมชาติ, ตัวแบบการจำแนก, หุ้น, Pythainlpบทคัดย่อ
ปัจจัยที่กระทบต่อราคาของหุ้นในตลาดหลักทรัพย์แห่งประเทศไทยนั้นมีอยู่หลายปัจจัย รวมทั้งข่าวสารต่าง ๆ ที่มีผลกระทบต่อราคาของหุ้น ผู้วิจัยจึงเกิดแนวคิดที่จะพยากรณ์แนวโน้มของราคาหุ้นรายวันจากข้อความข่าวโดยใช้วิธีการประมวลผลภาษาธรรมชาติ (Natural Language Processing : NLP) เพื่อให้นักลงทุนสามารถคาดคะเนทิศทางของราคาหุ้นก่อนที่ตลาดหลักทรัพย์แห่งประเทศไทยเปิดโดยศึกษาข้อความข่าวจากแหล่งข่าวต่างๆ และใช้การตัดคำ (Tokenizer) จาก library pythainlp ในโปรแกรมภาษาไพธอน ver.3.7.1 จากนั้นสร้างแบบจำลองโดยใช้ตัวแบบการจำแนก (Classification model ) เพื่อหาแบบจำลอง (model) และวิธีการตัดคำ (Tokenizer) ที่มีค่าความถูกต้องแม่นยำ (accuracy) สูงสุดเพื่อใช้พยากรณ์ทิศทางของราคาหุ้นในแต่ละวัน ในการวิจัยนี้ได้พยากรณ์แนวโน้มของราคาหุ้นทั้งหมด 3 วัน คือวันที่ 5 , 6 , 7 กุมภาพันธ์ 2563 โดยการสุ่มหุ้นอย่างละ 1 ตัว ด้วยการสุ่มตัวอย่างอย่างง่าย (SRS) จากหุ้น 5 กลุ่ม คือ กลุ่ม ICT สุ่มได้หุ้นของบริษัท อินทัช โฮลดิ้งส์ จำกัด (INTUCH) จากงานวิจัยพบว่า ตัวแบบ Gradient Boosting Classifier เป็นตัวแบบที่มีความเหมาะสมมากที่สุดและเปรียบเทียบสถานะค่าพยากรณ์กับค่าจริงได้ความถูกร้อยละ 100 ในส่วนของกลุ่ม ENGER สุ่มได้หุ้นของบริษัท ไทยออยล์ จำกัด (TOP) และกลุ่ม HELTH สุ่มได้หุ้นของบริษัท โรงพยาบาลบำรุงราษฎร์ จำกัด (BH) นั้น ไม่สามารถสรุปตัวแบบที่มีความเหมาะสมมากที่สุดได้และเปรียบเทียบสถานะค่าพยากรณ์กับค่าจริงได้ความถูกต้องร้อยละ 66.67 ในกลุ่ม COMM สุ่มได้หุ้นของบริษัท ซีพี ออลล์ จำกัด (CPALL) และกลุ่ม BANK คือธนาคารกสิกรไทย จำกัด (มหาชน) (KBANK) ตัวแบบ KNeighbors Classifier เป็นตัวแบบที่ความเหมาะสมมากที่สุดและเปรียบเทียบสถานะค่าพยากรณ์กับค่าจริงจะได้ความถูกต้องร้อยละ 66.67
