ตัวแบบการควบรวมดาต้าไซโลแบบมีโครงสร้างด้วยทะเลสาบข้อมูล
Main Article Content
บทคัดย่อ
ดาต้าไซโล (Data Silos) เป็นปัญหาที่เกิดขึ้นในองค์กรทั้งภาครัฐและเอกชน เนื่องจากองค์กรมีการแบ่งหน้าที่การทำงานออกเป็นหลายฝ่าย แต่ละฝ่ายมีการทำงานที่แยกกันอย่างชัดเจน แต่ละฝ่ายมีการพัฒนาโปรแกรม แอปพลิเคชัน และการจัดเก็บข้อมูลที่ซ้ำซ้อนกัน โดยมีการแชร์หรือแลกเปลี่ยนข้อมูลระหว่างฝ่ายงานที่น้อยมาก ผลกระทบจากการกระทำดังกล่าว ทำให้เกิดปัญหาข้อมูลไม่สอดคล้องหรือไม่ตรงกัน ข้อมูลเดียวกันแต่มีความแตกต่างกัน ทั้งชื่อข้อมูล โครงสร้าง และมีความหมายข้อมูลที่แตกต่างกัน ทำให้เกิดความสับสนในการนำข้อมูลนั้นไปใช้งาน งานวิจัยนี้ได้นำแนวคิดทะเลสาบข้อมูลมาประยุกต์ใช้กับการแก้ไขปัญหาดาต้าไซโล ขอบเขตของงานวิจัยจะให้ความสนใจเฉพาะดาต้าไซโลแบบมีโครงสร้าง วัตถุประสงค์ของงานวิจัยนี้คือ ออกแบบสถาปัตยกรรมทะเลสาบข้อมูล เฟรมเวิร์คการทำงานภายใน การใช้เทคโนโลยี Hive และ Spark ในการบูรณาการข้อมูลภายในทะเลสาบข้อมูลและเขียนโปรแกรมทดสอบการทำงานด้วยภาษาจาวา ผลการทำงานของโปรแกรมตามเฟรมเวิร์คที่ออกแบบลงรายละเอียดการบูรณาการดาต้าไซโลบนทะเลสาบข้อมูลสามารถลดความแตกต่างของข้อมูลและความไม่สอดคล้องของข้อมูลได้ 100% ในกรณีที่ข้อมูลมีความหมายเหมือนกัน และสามารถลดความซ้ำซ้อนของข้อมูลทดสอบได้ 78.6% ตามกรณีทดสอบ 13 กรณี
Article Details

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
References
Dixon, J. (2019). Retrieved from https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/
Fang, H. (2015). Managing Data Lakes in Big Data Era: What’s a data lake and why has it became popular in data management ecosystem. In: The 5th Annual IEEE International Conference on Cyber Technology in Automation, Control and Intelligent Systems, Shenyang, China. 820-824.
Giebler, C., Gröger, C., Hoos, E., Eichler, R., Schwarz, H. and Mitschang, B. (2021). The Data Lake Architecture Framework: A Foundation for Building a Comprehensive Data Lake Architecture. In: Conference for Database Systems for Business, Technology and Web (BTW). 351-370.
Inmon, B. (2016). Designing the Data Lake and Avoiding the Garbage Dump. USA: Technics Publications.
Khine, P.P. and Wang, Z.S. (2018). Data lake: a new ideology in big data era. ITM Web of Conferences. 1-11.
LaPlante, A. and Sharma, B. (2016). Architecting Data Lakes Data Management Architectures for Advanced Business Use Cases. USA: O’Reilly.
Miloslavskaya, N. and Tolstoy, A. (2016). Application of Big Data, Fast Data and Data Lake: Concepts to Information Security Issues. In: 4th International Conference on Future Internet of Things and Cloud Workshops, Vienna, Austria. 148-153.
Patel, J. (2019). Overcoming data Silos through big data integration. International Journal of Computer Science and Technology 3(1): 1-6.
Stein, B. and Morrison, A. (2014). The enterprise data lake: Better integration and deeper analytics. Technology Forecast: Rethinking integration Retrieved. 1: 1-9.
Walker, H.A. (2015). Personal Data Lake with Data Gravity Pull. In: Big Data and Cloud Computing (BDCloud), 2015 IEEE Fifth International Conference. 160-167.