การเปรียบเทียบประสิทธิภาพของพื้นที่จัดเก็บในแพลตฟอร์มบิ๊กดาต้า
Main Article Content
บทคัดย่อ
ระบบสารสนเทศเพิ่มขึ้นอย่างรวดเร็ว โดยข้อมูลที่มาจากแหล่งข้อมูลต้นทางจะเก็บแบบกระจัดกระจายในระบบภายนอก ก่อนจะถูกเชื่อมโยงมาจัดเก็บในแพลตฟอร์มบิ๊กดาต้า ซึ่งถูกออกแบบมาให้สามารถรองรับการจัดเก็บและประมวลผลข้อมูลขนาดใหญ่ได้ทุกประเภทอย่างมีประสิทธิภาพ สำหรับนำไปใช้ประโยชน์ในมิติต่าง ๆ เช่น การวิเคราะห์ข้อมูล การให้บริการและแลกเปลี่ยนข้อมูล และการทำรายงาน เพื่อให้ผู้บริหารสามารถนำข้อมูลและรายงานเหล่านี้ ไปใช้ในการวิเคราะห์และวางแผนการขับเคลื่อนองค์กรด้วยข้อมูลได้อย่างแท้จริง
อย่างไรก็ตาม ข้อมูลเชื่อมโยงเข้ามาจัดเก็บในแพลตฟอร์มบิ๊กดาต้านั้น มาจากระบบภายนอกที่มีรูปแบบการจัดเก็บที่หลากหลาย ทำให้ระบบมีรูปแบบข้อมูลบนหน่วยจัดเก็บข้อมูลที่ต่างกัน เช่น โครงสร้างแบบเรียงตามแถวเป็นหลัก หรือ แบบเรียงตามคอลัมน์เป็นหลัก การจัดเก็บข้อมูลเป็นไฟล์แบบไบนารี หรือเป็นไฟล์แบบข้อความ รวมทั้งรองรับการบีบอัดข้อมูล เป็นต้น เนื่องจากแต่ละรูปแบบต่างก็มีทั้งข้อดีและข้อเสียที่ต่างกันทำให้ไม่มีรูปแบบใดที่ดีที่สุด คณะผู้วิจัยจึงได้ทำการศึกษาเปรียบเทียบประสิทธิภาพของรูปแบบไฟล์ข้อมูลที่จัดเก็บบนแพลตฟอร์มบิ๊กดาต้า เพื่อหารูปแบบไฟล์ข้อมูลที่เหมาะสมสำหรับการทำงานในกรณีต่าง ๆ ได้อย่างมีประสิทธิภาพมากที่สุด โดยผลการทดลองชี้ให้เห็นว่ารูปแบบไฟล์ข้อมูลแบบเรียงตามแถวเหมาะกับการนำเข้าและจัดเก็บข้อมูลที่นำมาจากต้นทางมากกว่า ส่วนรูปแบบไฟล์ข้อมูลแบบเรียงตามคอลัมน์จะเหมาะกับการเรียกดูข้อมูลหรือนำข้อมูลไปวิเคราะห์ด้วยชุดคำสั่งที่ซับซ้อนมากกว่าอย่างไรก็ตาม ข้อมูลเชื่อมโยงเข้ามาจัดเก็บในแพลตฟอร์มบิ๊กดาต้านั้น มาจากระบบภายนอกที่มีรูปแบบการจัดเก็บที่หลากหลาย ทำให้ระบบมีรูปแบบข้อมูลบนหน่วยจัดเก็บข้อมูลที่ต่างกัน เช่น โครงสร้างแบบเรียงตามแถวเป็นหลัก หรือ แบบแบบเรียงตามคอลัมน์เป็นหลัก การจัดเก็บข้อมูลเป็นไฟล์แบบไบนารี หรือเป็นไฟล์แบบข้อความ รวมทั้งรองรับการบีบอัดข้อมูล เป็นต้น เนื่องจากแต่ละรูปแบบต่างก็มีทั้งข้อดีและข้อเสียที่ต่างกันทำให้ไม่มีรูปแบบใดที่ดีที่สุด คณะผู้วิจัยจึงได้ทำการศึกษาเปรียบเทียบประสิทธิภาพของรูปแบบไฟล์ข้อมูลที่จัดเก็บบนแพลตฟอร์มบิ๊กดาต้า เพื่อหารูปแบบไฟล์ข้อมูลที่เหมาะสมสำหรับการทำงานในกรณีต่าง ๆ ได้อย่างมีประสิทธิภาพมากที่สุด โดยผลการทดลองชี้ให้เห็นว่า รูปแบบไฟล์ข้อมูลแบบเรียงตามแถวเหมาะกับการนำเข้าและจัดเก็บข้อมูลที่นำมาจากต้นทางมากกว่า ส่วนรูปแบบไฟล์ข้อมูลแบบเรียงตามคอลัมน์จะเหมาะกับการเรียกดูข้อมูลหรือนำข้อมูลไปวิเคราะห์ด้วยชุดคำสั่งที่ซับซ้อนมากกว่า
Article Details

อนุญาตภายใต้เงื่อนไข Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
ผลงานที่ได้รับการตีพิมพ์ ถือเป็นลิขสิทธิ์ของวารสารฯ
เอกสารอ้างอิง
Cutting, D., & Cafarella, M. (2007). Apache hadoop., 203-214.
Dean, J., & Ghemawat, S. (2008). MapReduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107-113.
Shafranovich, Y. (2005). Rfc 4180: Common format and mime type for comma-separated values (csv) files., 562-604.
Pezoa, F., Reutter, J. L., Suarez, F., Ugarte, M., & Vrgoč, D. (2016, April). Foundations of JSON schema. In Proceedings of the 25th international conference on World Wide Web (pp. 263-273).
Vohra, D. (2016). Apache avro. Practical Hadoop Ecosystem: A Definitive Guide to Hadoop-Related Frameworks and Tools, 303-323.
Apache, O. R. C. (2018). Apache ORC: High-Performance Columnar Storage for Hadoop., 67-108.
He, Y., Lee, R., Huai, Y., Shao, Z., Jain, N., Zhang, X., & Xu, Z. (2011). RCFile: A fast and space-efficient data placement structure in MapReduce-based warehouse systems. In 2011 IEEE 27th International Conference on Data Engineering (pp. 1199-1208). IEEE.
Vohra, D., & Vohra, D. (2016). Apache parquet. Practical Hadoop Ecosystem: A Definitive Guide to Hadoop-Related Frameworks and Tools, 325-335.
Ivanov, T., & Pergolesi, M. (2020). The impact of columnar file formats on SQL‐on‐hadoop engine performance: A study on ORC and Parquet. Concurrency and Computation: Practice and Experience, 32(5), e5523.
Bansal, H., Chauhan, S., & Mehrotra, S. (2016). Apache Hive Cookbook. Packt Publishing Ltd.
Salloum, S., Dautov, R., Chen, X., Peng, P. X., & Huang, J. Z. (2016). Big data analytics on Apache Spark. International Journal of Data Science and Analytics, 1, 145-164.
Anonymous.: Dataset web services. Available: https://www.kaggle.com/datasets/shivamb/netflix-shows. February 5, 2024