ตัวแบบการควบรวมดาต้าไซโลแบบมีโครงสร้างด้วยทะเลสาบข้อมูล

Main Article Content

ศศิธร สุชัยยะ
สมนึก คีรีโต
สรพงษ์ เรือนมณี

บทคัดย่อ

ดาต้าไซโล (Data Silos) เป็นปัญหาที่เกิดขึ้นในองค์กรทั้งภาครัฐและเอกชน เนื่องจากองค์กรมีการแบ่งหน้าที่การทำงานออกเป็นหลายฝ่าย แต่ละฝ่ายมีการทำงานที่แยกกันอย่างชัดเจน แต่ละฝ่ายมีการพัฒนาโปรแกรม แอปพลิเคชัน และการจัดเก็บข้อมูลที่ซ้ำซ้อนกัน โดยมีการแชร์หรือแลกเปลี่ยนข้อมูลระหว่างฝ่ายงานที่น้อยมาก ผลกระทบจากการกระทำดังกล่าว ทำให้เกิดปัญหาข้อมูลไม่สอดคล้องหรือไม่ตรงกัน ข้อมูลเดียวกันแต่มีความแตกต่างกัน ทั้งชื่อข้อมูล โครงสร้าง และมีความหมายข้อมูลที่แตกต่างกัน ทำให้เกิดความสับสนในการนำข้อมูลนั้นไปใช้งาน งานวิจัยนี้ได้นำแนวคิดทะเลสาบข้อมูลมาประยุกต์ใช้กับการแก้ไขปัญหาดาต้าไซโล ขอบเขตของงานวิจัยจะให้ความสนใจเฉพาะดาต้าไซโลแบบมีโครงสร้าง วัตถุประสงค์ของงานวิจัยนี้คือ ออกแบบสถาปัตยกรรมทะเลสาบข้อมูล เฟรมเวิร์คการทำงานภายใน การใช้เทคโนโลยี Hive และ Spark ในการบูรณาการข้อมูลภายในทะเลสาบข้อมูลและเขียนโปรแกรมทดสอบการทำงานด้วยภาษาจาวา ผลการทำงานของโปรแกรมตามเฟรมเวิร์คที่ออกแบบลงรายละเอียดการบูรณาการดาต้าไซโลบนทะเลสาบข้อมูลสามารถลดความแตกต่างของข้อมูลและความไม่สอดคล้องของข้อมูลได้ 100% ในกรณีที่ข้อมูลมีความหมายเหมือนกัน และสามารถลดความซ้ำซ้อนของข้อมูลทดสอบได้ 78.6% ตามกรณีทดสอบ 13 กรณี

Article Details

How to Cite
สุชัยยะ ศ., คีรีโต ส. ., & เรือนมณี ส. . (2022). ตัวแบบการควบรวมดาต้าไซโลแบบมีโครงสร้างด้วยทะเลสาบข้อมูล. วารสารวิทยาศาสตร์ มข., 50(1), 58–68. สืบค้น จาก https://ph01.tci-thaijo.org/index.php/KKUSciJ/article/view/250299
บท
บทความวิจัย

References

Dixon, J. (2019). Retrieved from https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/

Fang, H. (2015). Managing Data Lakes in Big Data Era: What’s a data lake and why has it became popular in data management ecosystem. In: The 5th Annual IEEE International Conference on Cyber Technology in Automation, Control and Intelligent Systems, Shenyang, China. 820-824.

Giebler, C., Gröger, C., Hoos, E., Eichler, R., Schwarz, H. and Mitschang, B. (2021). The Data Lake Architecture Framework: A Foundation for Building a Comprehensive Data Lake Architecture. In: Conference for Database Systems for Business, Technology and Web (BTW). 351-370.

Inmon, B. (2016). Designing the Data Lake and Avoiding the Garbage Dump. USA: Technics Publications.

Khine, P.P. and Wang, Z.S. (2018). Data lake: a new ideology in big data era. ITM Web of Conferences. 1-11.

LaPlante, A. and Sharma, B. (2016). Architecting Data Lakes Data Management Architectures for Advanced Business Use Cases. USA: O’Reilly.

Miloslavskaya, N. and Tolstoy, A. (2016). Application of Big Data, Fast Data and Data Lake: Concepts to Information Security Issues. In: 4th International Conference on Future Internet of Things and Cloud Workshops, Vienna, Austria. 148-153.

Patel, J. (2019). Overcoming data Silos through big data integration. International Journal of Computer Science and Technology 3(1): 1-6.

Stein, B. and Morrison, A. (2014). The enterprise data lake: Better integration and deeper analytics. Technology Forecast: Rethinking integration Retrieved. 1: 1-9.

Walker, H.A. (2015). Personal Data Lake with Data Gravity Pull. In: Big Data and Cloud Computing (BDCloud), 2015 IEEE Fifth International Conference. 160-167.