การวิเคราะห์ประสิทธิภาพการประมวลผลของ Hive-QL ด้วย ORCfile บน Hadoop Cluster

ผู้แต่ง

  • พันธิการ์ วัฒนกุล โปรแกรมวิชาคอมพิวเตอร์ธุรกิจ คณะวิทยาการจัดการ มหาวิทยาลัยราชภัฏนครปฐม
  • กฤษณ์วรา รัตนโอภาส โปรแกรมวิชาคอมพิวเตอร์ คณะวิทยาศาสตร์และเทคโนโลยี มหาวิทยาลัยราชภัฏสงขลา
  • สุรีรัตน์ แก้วคีรี โปรแกรมวิชาคอมพิวเตอร์ธุรกิจ คณะวิทยาการจัดการ มหาวิทยาลัยราชภัฏสงขลา

DOI:

https://doi.org/10.14456/rmutlengj.2017.12

คำสำคัญ:

Big data, Hadoop, Hive, การวัดประสิทธิภาพ

บทคัดย่อ

ข้อมูลทางอุตุนิยมวิทยาถือเป็นข้อมูลที่สำคัญในการนำมาประมวลผลเพื่อการพยากรณ์ ด้วยแนวคิดของการทำ Big data ที่มีความนิยมในปัจจุบันและโครงสร้าง Hadoop Cluster ที่มีโปรแกรม Hive สำหรับประมวลผลแบบฐานข้อมูลเชิงสัมพันธ์ ผู้วิจัยจึงมีแนวคิดในการศึกษาปัจจัยที่ทำให้การประมวลผลดังกล่าวมีประสิทธิภาพสูงขึ้น ด้วยสมมติฐานการเพิ่มขึ้นของ จำนวน Data node และจำนวนการสำเนาของชุดข้อมูล โดยผลการวิจัยพบว่า ค่าของ Map-Reduce ที่ถูกกำหนดด้วยโปรแกรม Hive เมื่อทำการประมวลผลมีผลกระทบต่อประสิทธิภาพในการประมวลผล ด้วยค่า Map=5/Reduce=1 สอดคล้องกับจำนวน Data node ที่ดีที่สุดคือ 5 Data node กับสำเนาข้อมูล 3 ชุด หากมีการเพิ่มจำนวน Data node และจำนวนสำเนาข้อมูล พบว่าไม่มีผลกระทบต่อเวลาในการประมวลผลและทำให้มีเวลาที่สูงขึ้นในทุกกรณีของชุดคำสั่ง SQL

Downloads

Download data is not yet available.

References

1. V. Reynolds. Big Data For Beginners: Understanding SMART Big Data, Data Mining & Data Analytics For improved Business Performance, Life Decisions & More!. Kindle Edition, 2016.
2. Hadoop’s open source query tools. Performance test of Pig vs Hive with code examples. Available From: http://www.open-bigdata.com/performance-test-pig-vs-hive-code-examples/ [Accessed 5th Fab 2017].
3. D. Abadi, S. Babu, F. Ozcan, and I Pandis. Tutorial: SQL-on-Hadoop Systems. Proceedings of the VLDB Endowment. 2015 Aug 31-Sep 4; Kohala Coast, Hawaii. p. 2050-2051.
4 K. Jayasri, R. Rajmohan, and D. Dinagaran. Analyzing the Query Performances of Description Logic based Service Matching using Hadoop. Proceeding of International Conference on Smart Technologies and Management for Computing, Communication, Controls, Energy and Materials (ICSTM), Vel Tech Rangarajan Dr. Sagunthala R&D Institute of Science and Technology. 2015 May 6-8; Chennai, T.N., India. p. 1-7.
5. Adisorn G, Suparerk M. Performance of the Apache Mahout on Apache Hadoop Cluster. Proceeding of Electrical Engineering Conference 38th. 2015 Nov 18-20; Pranakornsrya, Ayutthaya, Thailand, p. 858-861.Thai.
6. The Big Data Blog. Hadoop Ecosystem Overview. Available from: http://thebigdata blog.weebly.com/blog/the-hadoop-ecosystem-overview/ [Accessed 5th Fab 2017].
7. The Hortonworks Blog. ORCFile in HDP 2: Better Compression, Better Performance. Available from: http://hortonworks.com/blog /orcfile-in-hdp-2-better-compression-better-performance/.
8. MAPR.blog. What Kind of Hive Table is Best for Your Data. Available From: https://www.mapr .com/blog/what-kind-hive-table-best-your-data/ [Accessed 5th Fab 2017].

Downloads

เผยแพร่แล้ว

2017-12-01

How to Cite

วัฒนกุล พ., รัตนโอภาส ก., & แก้วคีรี ส. (2017). การวิเคราะห์ประสิทธิภาพการประมวลผลของ Hive-QL ด้วย ORCfile บน Hadoop Cluster. วารสารวิศวกรรมศาสตร์ มหาวิทยาลัยเทคโนโลยีราชมงคลล้านนา, 2(2), 43–52. https://doi.org/10.14456/rmutlengj.2017.12