การเปรียบเทียบประสิทธิภาพของพื้นที่จัดเก็บในแพลตฟอร์มบิ๊กดาต้า

เกียรติศักดิ์ อุทัยศรี; วรภัทร ไพรีเกรง; ทศพล พันธุ์กำแหง; วีรพงศ์ ตั้นเจริญ; ณรงค์ ภูมิสุข

2025-01

เผยแพร่แล้ว: พ.ย. 6, 2025

คำสำคัญ:

รูปแบบไฟล์ ข้อมูลขนาดใหญ่ แพลตฟอร์มบิ๊กดาต้า

เกียรติศักดิ์ อุทัยศรี

-

วรภัทร ไพรีเกรง

ทศพล พันธุ์กำแหง

วีรพงศ์ ตั้นเจริญ

ณรงค์ ภูมิสุข

บทคัดย่อ

ระบบสารสนเทศเพิ่มขึ้นอย่างรวดเร็ว โดยข้อมูลที่มาจากแหล่งข้อมูลต้นทางจะเก็บแบบกระจัดกระจายในระบบภายนอก ก่อนจะถูกเชื่อมโยงมาจัดเก็บในแพลตฟอร์มบิ๊กดาต้า ซึ่งถูกออกแบบมาให้สามารถรองรับการจัดเก็บและประมวลผลข้อมูลขนาดใหญ่ได้ทุกประเภทอย่างมีประสิทธิภาพ สำหรับนำไปใช้ประโยชน์ในมิติต่าง ๆ เช่น การวิเคราะห์ข้อมูล การให้บริการและแลกเปลี่ยนข้อมูล และการทำรายงาน เพื่อให้ผู้บริหารสามารถนำข้อมูลและรายงานเหล่านี้ ไปใช้ในการวิเคราะห์และวางแผนการขับเคลื่อนองค์กรด้วยข้อมูลได้อย่างแท้จริง

อย่างไรก็ตาม ข้อมูลเชื่อมโยงเข้ามาจัดเก็บในแพลตฟอร์มบิ๊กดาต้านั้น มาจากระบบภายนอกที่มีรูปแบบการจัดเก็บที่หลากหลาย ทำให้ระบบมีรูปแบบข้อมูลบนหน่วยจัดเก็บข้อมูลที่ต่างกัน เช่น โครงสร้างแบบเรียงตามแถวเป็นหลัก หรือ แบบเรียงตามคอลัมน์เป็นหลัก การจัดเก็บข้อมูลเป็นไฟล์แบบไบนารี หรือเป็นไฟล์แบบข้อความ รวมทั้งรองรับการบีบอัดข้อมูล เป็นต้น เนื่องจากแต่ละรูปแบบต่างก็มีทั้งข้อดีและข้อเสียที่ต่างกันทำให้ไม่มีรูปแบบใดที่ดีที่สุด คณะผู้วิจัยจึงได้ทำการศึกษาเปรียบเทียบประสิทธิภาพของรูปแบบไฟล์ข้อมูลที่จัดเก็บบนแพลตฟอร์มบิ๊กดาต้า เพื่อหารูปแบบไฟล์ข้อมูลที่เหมาะสมสำหรับการทำงานในกรณีต่าง ๆ ได้อย่างมีประสิทธิภาพมากที่สุด โดยผลการทดลองชี้ให้เห็นว่ารูปแบบไฟล์ข้อมูลแบบเรียงตามแถวเหมาะกับการนำเข้าและจัดเก็บข้อมูลที่นำมาจากต้นทางมากกว่า ส่วนรูปแบบไฟล์ข้อมูลแบบเรียงตามคอลัมน์จะเหมาะกับการเรียกดูข้อมูลหรือนำข้อมูลไปวิเคราะห์ด้วยชุดคำสั่งที่ซับซ้อนมากกว่าอย่างไรก็ตาม ข้อมูลเชื่อมโยงเข้ามาจัดเก็บในแพลตฟอร์มบิ๊กดาต้านั้น มาจากระบบภายนอกที่มีรูปแบบการจัดเก็บที่หลากหลาย ทำให้ระบบมีรูปแบบข้อมูลบนหน่วยจัดเก็บข้อมูลที่ต่างกัน เช่น โครงสร้างแบบเรียงตามแถวเป็นหลัก หรือ แบบแบบเรียงตามคอลัมน์เป็นหลัก การจัดเก็บข้อมูลเป็นไฟล์แบบไบนารี หรือเป็นไฟล์แบบข้อความ รวมทั้งรองรับการบีบอัดข้อมูล เป็นต้น เนื่องจากแต่ละรูปแบบต่างก็มีทั้งข้อดีและข้อเสียที่ต่างกันทำให้ไม่มีรูปแบบใดที่ดีที่สุด คณะผู้วิจัยจึงได้ทำการศึกษาเปรียบเทียบประสิทธิภาพของรูปแบบไฟล์ข้อมูลที่จัดเก็บบนแพลตฟอร์มบิ๊กดาต้า เพื่อหารูปแบบไฟล์ข้อมูลที่เหมาะสมสำหรับการทำงานในกรณีต่าง ๆ ได้อย่างมีประสิทธิภาพมากที่สุด โดยผลการทดลองชี้ให้เห็นว่า รูปแบบไฟล์ข้อมูลแบบเรียงตามแถวเหมาะกับการนำเข้าและจัดเก็บข้อมูลที่นำมาจากต้นทางมากกว่า ส่วนรูปแบบไฟล์ข้อมูลแบบเรียงตามคอลัมน์จะเหมาะกับการเรียกดูข้อมูลหรือนำข้อมูลไปวิเคราะห์ด้วยชุดคำสั่งที่ซับซ้อนมากกว่า

รูปแบบการอ้างอิง

[1]

อุทัยศรี เ., ไพรีเกรง ว., พันธุ์กำแหง ท., ตั้นเจริญ ว., และ ภูมิสุข ณ., “การเปรียบเทียบประสิทธิภาพของพื้นที่จัดเก็บในแพลตฟอร์มบิ๊กดาต้า”, Crma. J., ปี 23, ฉบับที่ 1, น. 1–11, พ.ย. 2025.

ฉบับ

ปีที่ 23 ฉบับที่ 1 (2025): วารสารวิชาการโรงเรียนนายร้อยพระจุลจอมเกล้า

ประเภทบทความ

บทความวิจัย

อนุญาตภายใต้เงื่อนไข Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

ผลงานที่ได้รับการตีพิมพ์ ถือเป็นลิขสิทธิ์ของวารสารฯ

เอกสารอ้างอิง

Cutting, D., & Cafarella, M. (2007). Apache hadoop., 203-214.

Dean, J., & Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113.

Shafranovich, Y. (2005). Rfc 4180: Common format and mime type for comma-separated values (csv) files., 562-604.

Pezoa, F., Reutter, J. L., Suarez, F., Ugarte, M., & Vrgoč, D. (2016, April). Foundations of JSON schema. In Proceedings of the 25th international conference on World Wide Web (pp. 263-273).

Vohra, D. (2016). Apache avro. Practical Hadoop Ecosystem: A Definitive Guide to Hadoop-Related Frameworks and Tools, 303-323.

Apache, O. R. C. (2018). Apache ORC: High-Performance Columnar Storage for Hadoop., 67-108.

He, Y., Lee, R., Huai, Y., Shao, Z., Jain, N., Zhang, X., & Xu, Z. (2011). RCFile: A fast and space-efficient data placement structure in MapReduce-based warehouse systems. In 2011 IEEE 27th International Conference on Data Engineering (pp. 1199-1208). IEEE.

Vohra, D., & Vohra, D. (2016). Apache parquet. Practical Hadoop Ecosystem: A Definitive Guide to Hadoop-Related Frameworks and Tools, 325-335.

Ivanov, T., & Pergolesi, M. (2020). The impact of columnar file formats on SQL‐on‐hadoop engine performance: A study on ORC and Parquet. Concurrency and Computation: Practice and Experience, 32(5), e5523.

Bansal, H., Chauhan, S., & Mehrotra, S. (2016). Apache Hive Cookbook. Packt Publishing Ltd.

Salloum, S., Dautov, R., Chen, X., Peng, P. X., & Huang, J. Z. (2016). Big data analytics on Apache Spark. International Journal of Data Science and Analytics, 1, 145-164.

Anonymous.: Dataset web services. Available: https://www.kaggle.com/datasets/shivamb/netflix-shows. February 5, 2024

Article Sidebar

Main Article Content

บทคัดย่อ

Article Details

เอกสารอ้างอิง