การพัฒนากระบวนการสกัดชื่อภูมิศาสตร์จากข้อความทวิตเตอร์ด้วยแบบจำลองคอนดิชันนอลแรนดอมฟิลด์

Main Article Content

ธุวชิต แฉล้มเขตต์
ชนินทร์ ทินนโชติ
อรรถพล ธำรงรัตนฤทธิ์

บทคัดย่อ

ระบบนำทางแผนที่ออนไลน์ทั้งบนเว็บบราวเซอร์ โทรศัพท์เคลื่อนที่ และแพลตฟอร์มอื่น ๆ ปัจจุบันมีความสำคัญขึ้นอย่างมากเนื่องจากการเพิ่มขึ้นของผู้ใช้งาน ผู้ให้บริการ โดยชื่อสถานที่หรือชื่อภูมิศาสตร์คือแหล่งข้อมูลสำคัญที่ผู้ใช้งานมักจะใช้เป็นคำสำคัญในการค้นหา รวมทั้งการจัดเก็บข้อมูลเหล่านี้ให้อยู่เป็นหมวดหมู่ต่าง ๆ ด้วย ซึ่งงานวิจัยนี้มีวัตถุประสงค์เพื่อสร้างแบบจำลองที่สามารถสกัดเอาชื่อภูมิศาสตร์พร้อมทั้งจัดหมวดหมู่แบบอัตโนมัติโดยมีแหล่งข้อมูลสำคัญคือสื่อสังคมออนไลน์จากทวิตเตอร์ซึ่งเป็นแพลตฟอร์มที่ได้รับความนิยมในประเทศไทยแพลตฟอร์มหนึ่ง เป็นแหล่งข้อมูลข่าวสารที่มีความรวดเร็วและมีการอัพเดตข้อมูลตลอดเวลาทำให้มีโอกาสพบกับชื่อภูมิศาสตร์ที่เป็นสถานที่ใหม่ ๆ ซึ่งเป็นประโยชน์กับการรวบรวมข้อมูลภูมิสารสนเทศโดยที่ไม่จำเป็นต้องออกไปสำรวจข้อมูลภาคสนามเพียงอย่างเดียว ซึ่งเครื่องมือทางด้านการรู้จำชื่อเฉพาะในภาษาไทยนั้นไม่สามารถนำมาใช้ได้โดยตรงเนื่องจากมีการแบ่งประเภทของชื่อเฉพาะที่ไม่ได้จำแนกหมวดหมู่ของชื่อภูมิศาสตร์ไว้ โดยในส่วนของงานวิจัยนี้นำเอาอัลกอริทึมคอนดิชันนอลแรนดอมฟิลด์มาประยุกต์ใช้ร่วมกับคุณลักษณะทางภาษา เช่น คำบุพบทที่แสดงถึงสถานที่ (ใกล้ ไกล ถัดจาก ถัดไป ฯลฯ) คำนำหน้า เช่น โรงเรียน ตลาด วัด หมู่บ้าน ฯลฯ ซึ่งในงานวิจัยนี้มีการสร้างคลังข้อมูลภาษา (corpus) ขึ้นมาจากข้อความทวิตเตอร์ จำนวน 28,082 ข้อความ แบ่งเป็นข้อมูลสำหรับฝึกสอน 22,445 ข้อความ คิดเป็นร้อยละ 80 และข้อมูลสำหรับทดสอบจำนวน 5,617 ข้อความ คิดเป็นร้อยละ 20 โดยออกแบบการทดลองออกเป็น 2 กลุ่มหลัก ตามอัลกอริทึมที่ใช้ในการตัดคำ ซึ่งผลการศึกษาแบบจำลองที่ให้ค่าความถูกต้องโดยรวม (F1) สูงที่สุดคือ 0.946 ซึ่งให้ความถูกต้องโดยรวมเพียงพอสำหรับการนำไปใช้งานในส่วนที่เกี่ยวข้องต่อไป

Article Details

บท
บทความวิจัย

References

S. Kemp. “DATAREPORTAL.” DATAREPORTAL.com https://datareportal.com/reports/digital-2021-thailand (accessed Jan. 2, 2022).

S. Hahmann and D. Burghardt, “How much information is geospatially referenced? Networks and cognition,” Int. J. Geogr. Inf. Sci., vol. 27, no. 6, pp. 1171–1189, 2013, doi: 10.1080/13658816.2012.743664.

M. Gritta, M. T. Pilehvar, N. Limsopatham, and N. Collier, “What’s missing in geographical parsing?,” Lang. Resour. Eval., vol. 52, no. 2, pp. 603–623, 2018, doi: 10.1007/s10579-017-9385-8.

W. Phatthiyaphaibun, K. Chaovavanich, C. Polpanumas, A. Suriyawongkul, L. Lowphansirikul, and P. Chormai, “PyThaiNLP: Thai Natural language processing in Python.” 2016. Distributed by Zenodo. doi: 10.5281/zenodo.3519354.

J. Lingad, S. Karimi, and J. Yin, “Location extraction from disaster-related microblogs,” in Proc. 22nd Int. Conf. World Wide Web, Rio de Janeiro, Brazil, May 2013, pp. 1017–1020.

J. Wang, Y. Hu, and K. Joseph, “NeuroTPR: A neuro-net toponym recognition model for extracting locations from social media messages,” Trans. GIS, vol. 24, no. 3, pp. 719–735, 2020.

J. A. de Bruijn, H. de Moel, B. Jongman, J. Wagemaker, and J. C. J. H. Aerts, “TAGGS: Grouping tweets to improve global geoparsing for disaster response,” J. Geovis. Spat. Anal., vol. 2, 2017, doi: 10.1007/s41651-017-0010-6.

M. D. Lieberman and H. Samet, “Multifaceted toponym recognition for streaming news,” in Proc. 34th Int. ACM SIGIR Conf. Res. and Develop. Inf. Retrieval, Beijing, China, Jul. 2011, pp. 843–852.

J. R. Finkel, T. Grenager, and C. Manning, “Incorporating non-local information into information extraction systems by gibbs sampling,” in Proc. 43rd Annu. Meeting Assoc. for Comput. Linguistics, Ann Arbor, MI, USA, Jun. 2005, pp. 363–370.

R. Chasin, D. Woodward, J. Witmer, and J. Kalita, “Extracting and displaying temporal and geospatial entities from articles on historical events,” Comput. J., vol. 57, no. 3, pp. 403–426, Mar. 2014.

M. Sagcan and P. Karagoz, “Toponym recognition in social media for estimating the location of events,” in Proc. IEEE Int. Conf. Data Mining Workshop (ICDMW), Atlantic City, NJ, USA, Nov. 2015, pp. 33–39.

H. Chanlekha, A. Kawtrakul, P. Varasrai, and I. Mulasas, “Statistical and heuristic rule based model for Thai named entity recognition,” 2002. [Online]. Available: https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.295.7088

H. Chanlekha and A. Kawtrakul, “Thai named entity extraction by incoperating maximum entropy model with simple heuristic information,” 2004. [Online]. Available: https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.64.1449

N. Tirasaroj and W. Aroonmanakun, “Thai named entity recognition based on conditional random fields,” in Proc. 8th Int. Symp. Natural Lang. Process., Oct. 2009, pp. 216–220, doi: 10.1109/SNLP.2009.5340913.

S. Thattinaphanich and S. Prom-on, “Thai named entity recognition using Bi-LSTM-CRF with word and character representation,” in 4th Int. Conf. Inf. Technol. (InCIT), Bangkok, Thailand, Oct. 2019, pp. 149–154.

C. Sutton and A. McCallum, “An introduction to conditional random fields,” Found. Trends Mach. Learn., vol. 4, no. 4, pp. 267–373, Apr. 2012.

P. Chormai, P. Prasertsom, J. Cheevaprawatdomrong, and A. Rutherford, “Syllable-based neural Thai word segmentation,” in Proc. 28th Int. Conf. Comput. Linguistics, Barcelona, Spain, Dec. 2020, pp. 4619–4637.

L. Ramshaw and M. Marcus, “Text chunking using transformation-based learning,” in Proc. 3rd Workshop on Very Large Corpora, Cambridge, MA, USA, Jun. 1995, pp. 82–94.

A. Ekwonganan, “Identification of Thai and transliterated words by N-gram models,” M.S. thesis, Linguistics Dept., Chulalongkorn Univ., Bangkok, Thailand, 2005.