การเพิ่มประสิทธิภาพการเข้าถึงข้อมูลในงานสำรวจเชิงพื้นที่ โดยใช้เทคนิคการสร้างดรรชนี สำหรับชุดข้อมูลขนาดใหญ่ ภายใต้รูปแบบวัตถุของจาวาสคริปต์

ผู้แต่ง

  • จิรวัฒน์ ดวงแก้ว สาขาวิชาวิศวกรรมคอมพิวเตอร์ คณะเทคโนโลยีสารสนเทศและการสื่อสาร มหาวิทยาลัยพะเยา จังหวัดพะเยา 56000 https://orcid.org/0009-0002-2132-4728
  • บวรศักดิ์ ศรีสังสิทธิสันติ สาขาวิชาวิศวกรรมคอมพิวเตอร์ คณะเทคโนโลยีสารสนเทศและการสื่อสาร มหาวิทยาลัยพะเยา จังหวัดพะเยา 56000 https://orcid.org/0000-0001-5204-4070
  • อภิวัฒน์ วิทยารัฐ สาขาวิชาวิศวกรรมคอมพิวเตอร์ คณะเทคโนโลยีสารสนเทศและการสื่อสาร มหาวิทยาลัยพะเยา จังหวัดพะเยา 56000 https://orcid.org/0000-0003-1650-7503
  • นราศักดิ์ บุญเทพ สาขาวิชาวิศวกรรมคอมพิวเตอร์ คณะเทคโนโลยีสารสนเทศและการสื่อสาร มหาวิทยาลัยพะเยา จังหวัดพะเยา 56000
  • ภูวิศสรณ์ ภูมิสรณคมณ์ สาขาวิชาวิศวกรรมคอมพิวเตอร์ คณะเทคโนโลยีสารสนเทศและการสื่อสาร มหาวิทยาลัยพะเยา จังหวัดพะเยา 56000
  • จิราพร ไชยวงศ์สาย สาขาวิชาวิศวกรรมคอมพิวเตอร์ คณะเทคโนโลยีสารสนเทศและการสื่อสาร มหาวิทยาลัยพะเยา จังหวัดพะเยา 56000

คำสำคัญ:

การจัดทำดัชนีหนาแน่น, การทำดัชนีกระจัดกระจาย, ชุดข้อมูลขนาดใหญ่, ฐานข้อมูลที่ไม่ใช่เชิงสัมพันธ์, รูปแบบวัตถุของจาวาสคริปต์

บทคัดย่อ

การใช้รูปแบบวัตถุของจาวาสคริปต์ (JavaScript Object Notation, JSON) ในฐานข้อมูลที่ไม่ใช่เชิงสัมพันธ์ (Not only Structured Query Language, NoSQL) ได้รับความนิยมเป็นอย่างมาก อย่างไรก็ตาม หากพิจารณาข้อจำกัดของ NoSQL ส่วนของการจัดทำดรรชนี (Indexing) สำหรับไฟล์ JSON ขนาดใหญ่ จึงเป็นข้อจำกัดอันท้าทายเป็นอย่างมาก โดยเฉพาะอย่างยิ่งในกรณีที่ต้องการสำรวจและเข้าถึงข้อมูลที่มีขนาดใหญ่แต่อุปกรณ์ที่ใช้ในการสำรวจหน้างานมีหน่วยความจำไม่เพียงพอสำหรับการประมวลผลไฟล์ขนาดใหญ่ ในการศึกษานี้ ได้เสนอการใช้ชุดข้อมูล JSON ในการรักษาข้อมูลในกระบวนการสำรวจทรัพยากร ซึ่งดำเนินการทดลองบนชุดข้อมูลขนาด 32 กิกะไบต์ ที่มีจำนวนข้อมูล 1,000,000 รายการ ในรูปแบบ JSON และได้ทำการจัดทำดรรชนีสองวิธีคือ การจัดทำดรรชนีแบบหนาแน่น (Dense) และแบบกระจาย (Sparse) เพื่อเพิ่มประสิทธิภาพในการเข้าถึงข้อมูล นอกจากนี้ยังได้ค้นพบขนาดตัวอย่างที่เหมาะสมสำหรับวิธีการจัดทำดรรชนีทั้งสอง ผลการศึกษาพบว่าการใช้กรณีการจัดทำดรรชนีแบบหนาแน่น ลดเวลาในการเข้าถึงข้อมูลจาก 26,869.218 มิลลิวินาที (กรณีไม่มีการจัดทำดรรชนี) ลงเหลือ 382.196 มิลลิวินาที หรือลดลงถึง 98.58% ในการเข้าถึงข้อมูลแบบหนึ่งต่อหนึ่ง และจาก 38,300.848 มิลลิวินาที (กรณีไม่มีการจัดทำดรรชนี) ลงเหลือ 1.097 มิลลิวินาที ในกรณีที่ไม่มีคำค้นหา ในทางกลับกัน การใช้การจัดทำดรรชนีแบบกระจาย ลดเวลาในการเรียกข้อมูลจาก 55,197.734 มิลลิวินาทีลงเหลือ 854.661 มิลลิวินาที หรือลดลงถึง 98.45%  ในการเรียกข้อมูลแบบหนึ่งต่อกลุ่ม และจาก 47,203.253 มิลลิวินาทีลงเหลือ 0.179 มิลลิวินาที ในกรณีที่ไม่พบคำค้นหา นอกจากนี้ยังค้นพบว่าทุกช่วงขนาดส่วนตัวอย่างทั้งหมด สำหรับวิธีการจัดทำดรรชนีแบบหนาแน่น และดรรชนีแบบกระจาย ยังคงสามารถจัดการกับหน่วยความจำและการเข้าถึงคำหลัก (Keyword) ได้อย่างรวดเร็ว

ประวัติผู้แต่ง

จิรวัฒน์ ดวงแก้ว, สาขาวิชาวิศวกรรมคอมพิวเตอร์ คณะเทคโนโลยีสารสนเทศและการสื่อสาร มหาวิทยาลัยพะเยา จังหวัดพะเยา 56000

นายจิรวัฒน์ ดวงแก้ว ได้รับปริญญาบัณฑิตศึกษาในวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยราชภัฏรำไพพรรณี ประเทศไทย ในปี 2563 ปัจจุบันเขากำลังศึกษาต่อในระดับปริญญาโทสาขาวิศวกรรมคอมพิวเตอร์ที่มหาวิทยาลัยพะเยา ประเทศไทย งานวิจัยของเขาสนใจเกี่ยวกับเทคนิคการจัดทำดัชนี (indexing techniques) ฐานข้อมูลแบบไม่มีความสัมพันธ์ (non-relational databases) ฐานข้อมูลขนาดใหญ่ (large databases) และฐานข้อมูลส่วนเพิ่ม (incremental databases)

บวรศักดิ์ ศรีสังสิทธิสันติ, สาขาวิชาวิศวกรรมคอมพิวเตอร์ คณะเทคโนโลยีสารสนเทศและการสื่อสาร มหาวิทยาลัยพะเยา จังหวัดพะเยา 56000

ดร. บวรศักดิ์ ศรีสังข์สิทธิสันติ เป็นผู้ช่วยศาสตราจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะเทคโนโลยีสารสนเทศและการสื่อสาร มหาวิทยาลัยพะเยา ประเทศไทย เขาได้รับปริญญาเอกด้านวิศวกรรมคอมพิวเตอร์โดยเน้นการประมวลผลข้อมูล งานวิจัยของเขาคือการประมวลผลข้อมูล การวิเคราะห์ข้อมูล การทำเหมืองข้อมูลและระบบฐานข้อมูล

อภิวัฒน์ วิทยารัฐ, สาขาวิชาวิศวกรรมคอมพิวเตอร์ คณะเทคโนโลยีสารสนเทศและการสื่อสาร มหาวิทยาลัยพะเยา จังหวัดพะเยา 56000

ผศ.ดร. นครินทร์ ชัยแก้ว ได้รับปริญญาเอกด้านการตรวจวัดจากระยะไกลและระบบสารสนเทศภูมิศาสตร์ จากสถาบันเทคโนโลยีแห่งเอเชีย (AIT) ผู้ช่วยศาสตราจารย์ที่ภาควิชาวิทยาการสารสนเทศภูมิศาสตร์ มหาวิทยาลัยพะเยา ประเทศไทย

เอกสารอ้างอิง

Abdulkadhem, A. A., & Al-Assadi, T. A. (2019). An Important Landmarks Construction for a GIS-Map based on Indexing of Dolly Images. Indonesian Journal of Electrical Engineering and Computer Science, 15(1), 451. https://doi.org/10.11591/ijeecs.v15.i1.pp451-459.

Abdulsada, A. I., Honi, D. G., & Al-Darraji, S. (2021). Efficient multi-keyword similarity search over encrypted cloud documents. Indonesian Journal of Electrical Engineering and Computer Science, 23(1), 510. https://doi.org/10.11591/ijeecs.v23.i1.pp510-518.

Alqatawneh, A. (2022). Orthogonal frequency division multiplexing system with an indexed-pilot channel estimation. Indonesian Journal of Electrical Engineering and Computer Science, 26(2), 808. https://doi.org/10.11591/ijeecs.v26.i2.pp808-818.

Chang, J., Xiao, L., Huo, Z., Zhou, B., Ruan, L., Wang, H., & Liu, S. (2017). Optimization of Index-Based Method of Metadata Search for Large-Scale File Systems. 2017 10th International Symposium on Computational Intelligence and Design (ISCID). https://doi.org/10.1109/iscid.2017.147.

Chopade, R., & Pachghare, V. (2020). MongoDB Indexing for Performance Improvement. Advances in Intelligent Systems and Computing, 1077, 529–539. https://doi.org/10.1007/978-981-15-0936-0_56.

Fathy, Y., Barnaghi, P., & Tafazolli, R. (2018). Large-Scale Indexing, Discovery, and Ranking for the Internet of Things (IoT). ACM Computing Surveys, 51(2), 1–53. https://doi.org/10.1145/3154525.

Gayathiri, N. R., Jaspher, D. D., & Natarajan, A. M. (2019). Big Data retrieval techniques based on Hash Indexing and MapReduce approach with NoSQL Database. 2019 International Conference on Advances in Computing and Communication Engineering (ICACCE). https://doi.org/10.1109/icacce46606.2019.9079964.

Jin, P., Zhuang, X., Luo, Y., & Lu, M. (2021, December 1). Exploring Index Structures for Zoned Namespaces SSDs. https://doi.org/10.1109/BigData52589.2021.9671606.

L. Tan, K., & C. Lim, K. (2019). Fast surveillance video indexing & retrieval with WiFi MAC address tagging. Indonesian Journal of Electrical Engineering and Computer Science, 16(1), 473. https://doi.org/10.11591/ijeecs.v16.i1.pp473-481.

Ma, Y., Liu, D., Scott, G., Uhlmann, J., & Shyu, C.-R. (2017, December 1). In-Memory Distributed Indexing for Large-Scale Media Data Retrieval. https://doi.org/10.1109/ISM.2017.38.

S, M., & MB, S. P. (2020). Indexing intelligence using benchmark classifier. Indonesian Journal of Electrical Engineering and Computer Science, 18(1), 179. https://doi.org/10.11591/ijeecs.v18.i1.pp179-187.

Yuan, J., & Liu, X. (2012). A novel index structure for large scale image descriptor search. 2012 19th IEEE International Conference on Image Processing. https://doi.org/10.1109/icip.2012.6467265.

Yusof, M. K. (2017). Efficiency of JSON for Data Retrieval in Big Data. Indonesian Journal of Electrical Engineering and Computer Science, 7(1), 250. https://doi.org/10.11591/ijeecs.v7.i1.pp250-262.

Zeffora, J., & Shobarani, S. (2022). Optimizing random forest classifier with Jenesis-index on an imbalanced dataset. Indonesian Journal of Electrical Engineering and Computer Science, 26(1), 505. https://doi.org/10.11591/ijeecs.v26.i1.pp505-511.

Zi̇neddi̇neK., Ami̇neF. M., & Adeel, A. (2018). Indexing Multimedia Data with an Extension of Binary Tree -- Image Search by Content --. International Journal of Informatics and Applied Mathematics, 1(1), 47–55. Retrieved from https://dergipark.org.tr/en/pub/ijiam/issue/43831/532310.

ดาวน์โหลด

เผยแพร่แล้ว

09/22/2023

ฉบับ

ประเภทบทความ

บทความวิจัย