การเปรียบเทียบประสิทธิภาพของพื้นที่จัดเก็บในแพลตฟอร์มบิ๊กดาต้า

Main Article Content

เกียรติศักดิ์ อุทัยศรี
วรภัทร ไพรีเกรง
ทศพล พันธุ์กำแหง
วีรพงศ์ ตั้นเจริญ
ณรงค์ ภูมิสุข

บทคัดย่อ

ระบบสารสนเทศเพิ่มขึ้นอย่างรวดเร็ว โดยข้อมูลที่มาจากแหล่งข้อมูลต้นทางจะเก็บแบบกระจัดกระจายในระบบภายนอก ก่อนจะถูกเชื่อมโยงมาจัดเก็บในแพลตฟอร์มบิ๊กดาต้า ซึ่งถูกออกแบบมาให้สามารถรองรับการจัดเก็บและประมวลผลข้อมูลขนาดใหญ่ได้ทุกประเภทอย่างมีประสิทธิภาพ สำหรับนำไปใช้ประโยชน์ในมิติต่าง ๆ เช่น การวิเคราะห์ข้อมูล การให้บริการและแลกเปลี่ยนข้อมูล และการทำรายงาน เพื่อให้ผู้บริหารสามารถนำข้อมูลและรายงานเหล่านี้ ไปใช้ในการวิเคราะห์และวางแผนการขับเคลื่อนองค์กรด้วยข้อมูลได้อย่างแท้จริง


อย่างไรก็ตาม ข้อมูลเชื่อมโยงเข้ามาจัดเก็บในแพลตฟอร์มบิ๊กดาต้านั้น มาจากระบบภายนอกที่มีรูปแบบการจัดเก็บที่หลากหลาย ทำให้ระบบมีรูปแบบข้อมูลบนหน่วยจัดเก็บข้อมูลที่ต่างกัน เช่น โครงสร้างแบบเรียงตามแถวเป็นหลัก หรือ แบบเรียงตามคอลัมน์เป็นหลัก การจัดเก็บข้อมูลเป็นไฟล์แบบไบนารี หรือเป็นไฟล์แบบข้อความ รวมทั้งรองรับการบีบอัดข้อมูล เป็นต้น เนื่องจากแต่ละรูปแบบต่างก็มีทั้งข้อดีและข้อเสียที่ต่างกันทำให้ไม่มีรูปแบบใดที่ดีที่สุด คณะผู้วิจัยจึงได้ทำการศึกษาเปรียบเทียบประสิทธิภาพของรูปแบบไฟล์ข้อมูลที่จัดเก็บบนแพลตฟอร์มบิ๊กดาต้า เพื่อหารูปแบบไฟล์ข้อมูลที่เหมาะสมสำหรับการทำงานในกรณีต่าง ๆ ได้อย่างมีประสิทธิภาพมากที่สุด โดยผลการทดลองชี้ให้เห็นว่ารูปแบบไฟล์ข้อมูลแบบเรียงตามแถวเหมาะกับการนำเข้าและจัดเก็บข้อมูลที่นำมาจากต้นทางมากกว่า ส่วนรูปแบบไฟล์ข้อมูลแบบเรียงตามคอลัมน์จะเหมาะกับการเรียกดูข้อมูลหรือนำข้อมูลไปวิเคราะห์ด้วยชุดคำสั่งที่ซับซ้อนมากกว่าอย่างไรก็ตาม ข้อมูลเชื่อมโยงเข้ามาจัดเก็บในแพลตฟอร์มบิ๊กดาต้านั้น มาจากระบบภายนอกที่มีรูปแบบการจัดเก็บที่หลากหลาย ทำให้ระบบมีรูปแบบข้อมูลบนหน่วยจัดเก็บข้อมูลที่ต่างกัน เช่น โครงสร้างแบบเรียงตามแถวเป็นหลัก หรือ แบบแบบเรียงตามคอลัมน์เป็นหลัก การจัดเก็บข้อมูลเป็นไฟล์แบบไบนารี หรือเป็นไฟล์แบบข้อความ รวมทั้งรองรับการบีบอัดข้อมูล เป็นต้น เนื่องจากแต่ละรูปแบบต่างก็มีทั้งข้อดีและข้อเสียที่ต่างกันทำให้ไม่มีรูปแบบใดที่ดีที่สุด คณะผู้วิจัยจึงได้ทำการศึกษาเปรียบเทียบประสิทธิภาพของรูปแบบไฟล์ข้อมูลที่จัดเก็บบนแพลตฟอร์มบิ๊กดาต้า เพื่อหารูปแบบไฟล์ข้อมูลที่เหมาะสมสำหรับการทำงานในกรณีต่าง ๆ ได้อย่างมีประสิทธิภาพมากที่สุด โดยผลการทดลองชี้ให้เห็นว่า รูปแบบไฟล์ข้อมูลแบบเรียงตามแถวเหมาะกับการนำเข้าและจัดเก็บข้อมูลที่นำมาจากต้นทางมากกว่า ส่วนรูปแบบไฟล์ข้อมูลแบบเรียงตามคอลัมน์จะเหมาะกับการเรียกดูข้อมูลหรือนำข้อมูลไปวิเคราะห์ด้วยชุดคำสั่งที่ซับซ้อนมากกว่า 

Article Details

รูปแบบการอ้างอิง
[1]
อุทัยศรี เ., ไพรีเกรง ว., พันธุ์กำแหง ท., ตั้นเจริญ ว., และ ภูมิสุข ณ., “การเปรียบเทียบประสิทธิภาพของพื้นที่จัดเก็บในแพลตฟอร์มบิ๊กดาต้า”, Crma. J., ปี 23, ฉบับที่ 1, น. 1–11, พ.ย. 2025.
ประเภทบทความ
บทความวิจัย

เอกสารอ้างอิง

Cutting, D., & Cafarella, M. (2007). Apache hadoop., 203-214.

Dean, J., & Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113.

Shafranovich, Y. (2005). Rfc 4180: Common format and mime type for comma-separated values (csv) files., 562-604.

Pezoa, F., Reutter, J. L., Suarez, F., Ugarte, M., & Vrgoč, D. (2016, April). Foundations of JSON schema. In Proceedings of the 25th international conference on World Wide Web (pp. 263-273).

Vohra, D. (2016). Apache avro. Practical Hadoop Ecosystem: A Definitive Guide to Hadoop-Related Frameworks and Tools, 303-323.

Apache, O. R. C. (2018). Apache ORC: High-Performance Columnar Storage for Hadoop., 67-108.

He, Y., Lee, R., Huai, Y., Shao, Z., Jain, N., Zhang, X., & Xu, Z. (2011). RCFile: A fast and space-efficient data placement structure in MapReduce-based warehouse systems. In 2011 IEEE 27th International Conference on Data Engineering (pp. 1199-1208). IEEE.

Vohra, D., & Vohra, D. (2016). Apache parquet. Practical Hadoop Ecosystem: A Definitive Guide to Hadoop-Related Frameworks and Tools, 325-335.

Ivanov, T., & Pergolesi, M. (2020). The impact of columnar file formats on SQL‐on‐hadoop engine performance: A study on ORC and Parquet. Concurrency and Computation: Practice and Experience, 32(5), e5523.

Bansal, H., Chauhan, S., & Mehrotra, S. (2016). Apache Hive Cookbook. Packt Publishing Ltd.

Salloum, S., Dautov, R., Chen, X., Peng, P. X., & Huang, J. Z. (2016). Big data analytics on Apache Spark. International Journal of Data Science and Analytics, 1, 145-164.

Anonymous.: Dataset web services. Available: https://www.kaggle.com/datasets/shivamb/netflix-shows. February 5, 2024