การพัฒนาพจนานุกรมคำไม่สุภาพภาษาไทยและขั้นตอนวิธีการตรวจจับคำไม่สุภาพภาษาไทยด้วยรายการผกผันพหุแบบ

Main Article Content

ขณิดา จรุงจิตต์
ณัฐวุฒิ แก้วศิริ
เชาวลิต ขันคำ

บทคัดย่อ

บทความวิจัยนี้นำเสนอแนวคิดใหม่สำหรับตรวจจับคำไม่สุภาพภาษาไทยด้วยการออกแบบโครงสร้างพจนานุกรมจัดเก็บคำไม่สุภาพแบบใหม่ โดยใช้ตำแหน่งอักขระแทนการจัดเก็บคำในพจนานุกรมแบบเดิม จำแนกส่วนประกอบของแต่ละคำออกเป็นรายการผกผัน จัดเก็บในพจนานุกรมด้วยตาราง โดยอาศัยหลักการแฮชเพื่อการเข้าถึงที่รวดเร็ว จากนั้นพัฒนาขั้นตอนวิธีสำหรับตรวจจับคำไม่สุภาพได้แบบทันทีทันใดในระหว่างที่อักขระถูกป้อนเข้ามาในระบบ โดยไม่จำเป็นต้องป้อนคำจนสำเร็จเช่นขั้นตอนวิธีเดิมที่เคยมีมา พจนานุกรมใหม่ถูกสร้างด้วยค่าความซับซ้อนด้านเวลา O(W) และค่าความซับซ้อนด้านเนื้อที่จัดเก็บ O(|gif.latex?\tiny&space;\sum|+|W|) โดยที่ W คือความยาวของจำนวนคำรวมกันทั้งหมดที่บรรจุในพจนานุกรม ในขณะที่ความซับซ้อนด้านเวลาการตรวจจับคือ O(n) เมื่อ n คือความยาวของข้อความที่ป้อนเข้าสู่ระบบ ผลการทดลองด้วยการพัฒนาโปรแกรมตรวจจับคำไม่สุภาพโดยอาศัยพจนานุกรแบบใหม่ มีความรวดเร็วในการตรวจจับมากกว่าการตรวจจับโดยอาศัยพจนานุกรมแบบเดิมอย่างมีนัยสำคัญ ขั้นตอนวิธีใหม่สามารถตรวจจับคำไม่สุภาพที่มีในพจนานุกรมได้ค่าความถูกต้องร้อยเปอร์เซ็นต์ โดยไม่มีค่าความคลาดเคลื่อน

Article Details

บท
บทความวิจัย

References

ณัฐาศิริ เชาว์ประสิทธิ์ และสมชาย เล็กเจริญ. (2560). การพัฒนาโมเดลตรวจจับคำหยาบภาษาไทยบนสื่อออนไลน์ด้วยเทคนิคดาต้าไมน์นิง. ใน: การประชุมนำเสนอผลงานวิจัยระดับบัณฑิตศึกษา ครั้งที่ 12 ปีการศึกษา 2560. มหาวิทยาลัยรังสิต, กรุงเทพฯ. 1432 - 1441.

เถกิง พันธุ์เถกิงอมร. การใช้ภาษาในการเขียนเชิงวิชาการ. (2558). เอกสารประกอบการบรรยายในโครงการแลกเปลี่ยนเรียนรู้ด้านการเรียนการสอน ด้านการวิจัยและด้านการสนับสนุนวิชาการ สำหรับอาจารย์ คณะมนุษยศาสตร์และสังคมศาสตร์, มหาวิทยาลัยราชภัฏสงขลา. สงขลา.

นภัทร อังกูรสินธนา และปนันดา เลอเลิศยุติธรรม. (2562). กลวิธีความไม่สุภาพทางภาษาในภาษาไทย. วารสารปาริชาต 32(2): 63 - 74.

นันทวัฒน์ เนตรเจริญ และสุวัฒนา เลี่ยมประวัติ. (2558). การวิเคราะห์ข้อบกพร่องในการแปลถ้อยคำต้องห้ามของ คำระวี-ใบเตยในวรรณกรรมเรื่อง The Catcher in the Rye และแนวทางแก้ไข. ใน: การประชุมหาดใหญ่วิชาการระดับชาติ ครั้งที่ 6. มหาวิทยาลัยหาดใหญ่, สงขลา. 396 - 406.

ยุวดี พนมพรสุวรรณ. (2549). ปัญหานักเรียนพูดจาไม่ไพเราะเหมาะสม ระดับชั้น ปวช. 1/1 แผนกวิชาการตลาด. ใน: รายงานการวิจัยในชั้นเรียน, วิทยาลัยเทคนิคราชบุรี. ราชบุรี.

วิภาพรรณ แจ้งจร. (2549). วิธีการหลีกเลี่ยงการใช้คำไม่สุภาพของผู้ใช้อินเทอร์เน็ตบนกระดานสนทนา. มนุษยศาสตร์ปริทรรศน์ 28(1): 42 - 59.

วุฒิชัย วิเชียรไชย. (2549). การกรองคำหยาบในข้อความภาษาไทยโดยไฟไนท์สเตทแมชชีน. วิทยานิพนธ์วิทยาศาสตรมหาบัณฑิต (สถิติประยุกต์), สถาบันบัณฑิตพัฒนบริหารศาสตร์. กรุงเทพฯ: 127 หน้า.

Chakraborty, A., Joarda, S. and Sekh, A.A. (2023). Ensemble Classifier for Hindi Hostile Content Detection. ACM Transactions on Asian and Low-Resource Language Information Processing (TALLIP) 23(1): 11 – 17. doi: 10.1145/3591353.

Chakravarthi, B.R., Jagadeeshan, M.B., Palanikumar, V. and Priyadharshini R. (2023). Offensive language identification in dravidian languages using MPNet and CNN. International Journal of Information Management Data Insights 3(1): 1 - 18.

Chen, Z. and Feng, W. (2013). Detecting Impolite Crawler by Using Time Series Analysis. In: 2013 IEEE (25th International Conference on Tools with Artificial Intelligence. Herden, VA, United States. 123 - 126.

Dinh, V.H. (2020). Hash Table. Source: http://libetpan.sourceforge.net/doc/API/API/x161.html.Khancome. Retrieved from 15 October 2023.

Khancome, C. and Boonjing, V. (2009). Optimal Linear-time Multi-string Pattern Matching Algorithm. International Journal of Computational Science 3(6): 629 - 641.

Li, W. (2020). The language of bullying: Social issues on Chinese websites. Aggression and Violent Behavior 53(1): 101453.

Loudon K. (2020). Hash Tables. Source: www.oreilly.com/catalog/masteralgoc/chapter/ch08.pdf. Retrieved from 15 October 2023.

Lusiana. Gemini, H., Efendi, Y. (2018). Filtering Impolite Words in Social Network Using Naïve Bayes Classifier. In: 2018 Third International Conference on Informatics and Computing (ICIC). Palembang, Indonesia. 1 - 5.

Magami, F. and Digiampietri, L.A. (2020). Automatic detection of depression from text data: A systematic literature review. In: SBSI 20: Proceedings of the XVI Brazilian Symposium on Information Systems. Association for Computing Machinery, New York, United States. 1 – 8.

Modha, S., Majumder, P., Mandl T. and Mandalia, C. (2020). Detecting and visualizing hate speech in social media: A cyber Watchdog for surveillance. Expert Systems with Applications 161: 1 - 11.

Moin, K., Shahzad, K. and Malik, M.K. (2021). Hate Speech Detection in Roman Urdu. ACM Transactions on Asian and Low -Resource Language Information Processing 20(1): 1 - 19.

Novitasari, S., Lestari, D.P., Sakti, S. and Purwarianti, A. (2018). Rude-Words Detection for Indonesian Speech Using Support Vector Machine. In: 2018 International Conference on Asian Language Processing (IALP), Bandung, Indonesia. 19 - 24. doi: 10.1109/IALP.2018.8629145.

Priya, P., Firdaus, M. and Ekbal, A. (2023). A multi-task learning framework for politeness and emotion detection in dialogues for mental health counselling and legal aid. Expert Systems with Applications 224: 1 - 17.

Tuarob, S., Satravisut, M., Sangtunchai, P., Nunthavanich, S. and Noraset, T. (2023) . FALCoN: Detecting and classifying abusive language in social networks using context features and unlabeled data. Information Processing & Management 60(4): 1 - 24.

Wikipedia. (2020). Hash table. Source: https://en.wikipedia.org/wiki/Hash_table. Retrieved from 15 October 2023.