การเปรียบเทียบ BERTopic และ LDA สำหรับการจำแนกหัวข้อภาวะซึมเศร้าในข้อความจาก Reddit
Main Article Content
บทคัดย่อ
ในปัจจุบันภาวะซึมเศร้าและปัญหาสุขภาพจิตเป็นประเด็นที่ทวีความรุนแรงและส่งผลกระทบต่อคุณภาพชีวิตของประชาชนโดยเฉพาะในกลุ่มวัยรุ่นและวัยทำงาน ทั้งนี้ผู้คนจำนวนมากมักแสดงออกถึงความรู้สึกและอาการผ่านสื่อสังคมออนไลน์ซึ่งสามารถนำมาใช้เป็นข้อมูลสำหรับการวิเคราะห์เชิงคอมพิวเตอร์ได้ งานวิจัยนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของอัลกอริทึมการจัดกลุ่มหัวข้อ (Topic Modeling) ได้แก่ Latent Dirichlet Allocation (LDA) และ BERTopic โดยใช้ชุดข้อมูลจำนวน 6,397 ข้อความจากแพลตฟอร์ม Reddit ที่เกี่ยวข้องกับภาวะซึมเศร้า การประเมินผลดำเนินการโดยใช้ตัวชี้วัด 3 ประการ ได้แก่ Purity Score, Entropy Score และ Rand Index (RI) ผลการศึกษาแสดงให้เห็นว่า BERTopic มีประสิทธิภาพเหนือกว่า LDA โดยให้ค่า Purity Score สูงกว่า (39.06%) ค่า Entropy ต่ำกว่า (1.93%) และค่า RI สูงกว่า (66.84%) เมื่อเปรียบเทียบกับ LDA ที่ได้ค่า 34.38%, 2.11% และ 65.47% ตามลำดับ สะท้อนถึงความสามารถในการสร้างกลุ่มหัวข้อที่แม่นยำและสอดคล้องกับข้อมูลจริงมากกว่า อย่างไรก็ตามงานวิจัยนี้ยังมีข้อจำกัดจากการใช้ชุดข้อมูลทดสอบเพียง 10% ของข้อมูลทั้งหมด ซึ่งอาจส่งผลต่อความครอบคลุมของการประเมินผล ดังนั้นการศึกษาในอนาคตควรเพิ่มปริมาณข้อมูลทดสอบ รวมทั้งพิจารณาบริบทของข้อความภาษาไทย เพื่อขยายขอบเขตการประยุกต์ใช้งานด้านสุขภาพจิตได้อย่างกว้างขวางยิ่งขึ้น
Article Details

อนุญาตภายใต้เงื่อนไข Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
บทความที่ลงตีพิมพ์เป็นข้อคิดเห็นของผู้เขียนเท่านั้น
ผู้เขียนจะต้องเป็นผู้รับผิดชอบต่อผลทางกฎหมายใดๆ ที่อาจเกิดขึ้นจากบทความนั้น
เอกสารอ้างอิง
World Health Organization. (2022). Mental Disorders. [Online]. Available: https://www. who.int/news-room/fact-sheets/detail/mentaldisorders.
World Health Organization. (2022). Mental Health and COVID-19: Early Evidence of the Pandemic's Impact: Scientific Brief. [Online]. Available: https://www.who.int/publications/i/ item/WHO-2019-nCoV-Sci_Brief-Mental_ health-2022.1.
S. Salmi, R. v. d. Mei, S. Mérelle, and S. Bhulai, “Topic modeling for conversations for mental health helplines with utterance embedding,” Journal of Computational Social Science, vol. 13, 2024, doi: 10.1016/j.teler.2024.100126.
A. Krishnan and P. Kennedyraj, “Exploring the power of topic modeling techniques in analyzing customer reviews: A comparative analysis,” arXiv, 2023, doi: 10.48550/arXiv.2308.11520.
R. Egger and J. Yu, “A topic modeling comparison between LDA, NMF, Top2Vec, and BERTopic to demystify Twitter posts,” Frontiers in Sociology, vol. 7, 2022, doi: 10.3389/fsoc.2022.886498.
A. Rkia, A. Fatima-Azzahrae, A. Mehdi, and L. Lily, “NLP and topic modeling with LDA, LSA, and NMF for monitoring psychosocial well-being in monthly surveys,” Procedia Computer Science, vol. 251, pp. 398-405, 2024, doi: 10.1016/j.procs.2024.11.126.
A. Khan and R. Ali, “Measuring the effectiveness of LDA-based clustering for social media data,” 2022, doi: 10.37394/232025.2022.4.11.
M. Grootendorst, “BERTopic: Neural topic modeling with a class-based TF-IDF procedure,” arXiv, 2022, doi: 10.48550/arXiv.2203.05794.
D. Sik, R. Németh, and E. Katona, “Topic modelling online depression forums: Beyond narratives of self-objectification and self-blaming,” Journal of Affective Disorders Reports, vol. 32, no. 2, pp. 386–395, 2021, doi: 10.1080/ 09638237.2021.1979493.
L. Ma, R. Chen, W. Ge, P. Rogers, B. Lyn-Cook, H. Hong, W. Tong, N. Wu, and W. Zou, “AI-powered topic modeling: Comparing LDA and BERTopic in analyzing opioid-related cardiovascular risks in women,” Experimental Biology and Medicine, vol. 250, 2025, doi: 10.3389/ebm. 2025.10389.
A. Qasim, G. Mehak, N. Hussain, A. Gelbukh, and G. Sidorov, “Detection of depression severity in social media text using transformer-based models,” Information, vol. 16, no. 2, 2025, doi: 10.3390/info16020114.