การออกแบบระบบจัดเก็บข้อมูลและคิวรีข้อมูลรีซอร์สดิสคริปชันเฟรมเวิร์ค ขนาดใหญ่โดยใช้หน่วยประมวลผลกราฟิก
คำสำคัญ:
อาร์ดีเอฟ, การประมวลคิวรี, สปาร์เคิล, หน่วยประมวลผลกราฟิกบทคัดย่อ
ข้อมูล Resource Description Framework (RDF) เป็นมาตรฐานของการแลกเปลี่ยนข้อมูลระหว่างเว็บ มีแนวโน้มที่จะขยายขนาดขึ้นอย่างรวดเร็วในอัตราเร่งที่สูงขึ้น เพื่อพัฒนาระบบการคิวรีข้อมูล RDF ที่สามารถค้นคืนข้อมูลได้อย่างรวดเร็วบนข้อมูลขนาดใหญ่ งานวิจัยนี้ได้นำเสนอระบบต้นแบบในการจัดเก็บและค้นคืนข้อมูล RDF ด้วยการใช้ประโยชน์จากหน่วยประมวลผลกราฟิก (GPU) โดยนำเสนอรูปแบบการจัดเก็บข้อมูลที่เหมาะสมกับข้อมูลชนิด RDF และประมวลผลบน GPU การออกแบบดรรชนี การสร้างระบบสำหรับคิวรีข้อมูลบน GPU รวมไปถึงเทคนิคการเพิ่มประสิทธิภาพ ได้แก่ การกรองข้อมูล และการกำหนดค่า ID ด้วยเทคนิคการหาความใกล้เคียงของข้อมูล โดยการแปลงจากข้อความเป็นเวกเตอร์และใช้เทคนิคการลดมิติข้อมูลเพื่อทำให้สามารถแปลงข้อมูลกลับมาเป็นตัวเลข ผลการทดลองแสดงให้เห็นว่าระบบที่ออกแบบและพัฒนาขึ้น ใช้พื้นที่เก็บข้อมูลเพียงประมาณ 1 ใน 6 ของข้อมูลดิบ และสามารถช่วยลดเวลาการคิวรีข้อมูลได้ โดยมีสปีดอัพจากเวลาที่ใช้คิวรีแบบดั้งเดิมสูงสุดที่ 29.57 เมื่อเทียบกับ RDF-3X และค่าสปีดอัพสูงสุด 45.23 เมื่อเทียบกับวิธีการจัดเก็บแบบกราฟ gStore
References
M. Atre, J. Srinivasan and J. A. Hendler, “BitMat: A main memory RDF triple store,”. Tetherless World Constellation, Rensselar Plytehcnic Institute, Troy NY, USA, Technical Rep., 2009.
M. Galkin, K. M. Endris, M. Acosta, D. Collarana, M. E. Vidal and S. Auer, “SMJoin: A Multi-way Join Operator for SPARQL Queries,” in Proc. 13th International Conference on Semantic Systems, Amsterdam, Netherlands, Sep. 11–14, 2017, pp. 104–111.
T. Neumann and G. Weikum, “The RDF-3X engine for scalable management of RDF data,” The VLDB Journal, vol. 19, pp. 91–113, 2010, doi: 10.1007/s00778-009-0165-y.
P. Peng, L. Zou, M. T. Özsu, L. Chen and D. Zhao, “Processing SPARQL queries over distributed RDF graphs,” The VLDB Journal, vol. 25, pp. 243-268, 2016, doi: 10.1007/s00778-015-0415-0.
S. Gurajada, S. Seufert, I. Miliaraki and M. Theobald, “TriAD: a distributed shared-nothing RDF engine based on asynchronous message passing,” in Proc. 2014 ACM SIGMOD international conference on Management of data, Snowbird, UT, USA, Jun. 22–27, 2014, pp. 289–300.
A. Bonifati, W. Martens and T. Timm, “SHARQL: Shape analysis of recursive SPARQL queries,” in Proc. 2020 ACM SIGMOD International Conference on Management of Data, Portland, OR, USA, Jun. 14–19, 2020, pp. 2701–2704.
K. Rabbani, M. Lissandrini and K. Hose, “Optimizing SPARQL queries using shape statistics,” in Proc. 24th International Conference on Extending Database Technology, Nicosia, Cyprus, Mar. 23–26, 2021, pp. 505–510.
C. Chantrapornchai and C. Choksuchat, “TripleID-Q: RDF query processing framework using GPU,” IEEE Transactions on Parallel and Distributed Systems, vol. 29, no. 9, pp. 2121–2135, doi: 10.1109/TPDS.2018.2814567.
F. T. Jamour, I. Abdelaziz and P. Kalnis, (2018) “A demonstration of MAGiQ: matrix algebra approach for solving RDF graph queries,” Proceedings of the VLDB Endowment, vol 11, no. 12, pp. 1978–1981, doi: 10.14778/3229863.3236239.
Z. Yao, R. Chen, B. Zang and H. Chen, “Fast and concurrent RDF query processing using RDMA-assisted GPU graph exploration,” IEEE Transactions on Parallel and Distributed Systems, vol. 33, no. 7, pp. 1619–1635, 2022, doi: 10.1109/TPDS.2021.3121568.
S. Jiaming, X. Zhang, P. Peng, Z. Feng, and L. Zou. "Mapsq: A plugin-based mapreduce framework for sparql queries on gpu." in Companion Proceedings of the The Web Conference, Geneva, Switzerland, Apr. 23–27, 2018, pp. 81–82.
T. Ren, G. Rao, X. Zhang, and Z. Feng, “SRSPG: A Plugin-based Spark Framework for Large-scale RDF Streams Processing on GPU,” in Proc. ISWC 2019 Satellite Tracks (Posters & Demonstrations, Industry, and Outrageous Ideas), Auckland, New Zealand, Oct. 26–30, 2019, pp. 89-92.
L. Zou, J. Mo, L. Chen, M. T. Özsu and D. Zhao, “gStore: answering SPARQL queries via subgraph matching,” Proceedings of the VLDB Endowment, vol. 4, no. 8, pp. 482–493, doi: 10.14778/2002974.2002976.
L. Zeng and L. Zou, “ Redesign of the gStore sysem,” Frontiers of Computer science, vol. 12, pp. 623–641, 2018, doi: 10.1007/s11704-018-7212-z.
V. Ingalalli, D. Ienco, P. Poncelet and S. Villata, “Querying RDF Data Using A Multigraph-based Approach,” in Proc. 19th International Conference on Extending Database Technology, Bordeaux, France, Mar. 15–18, 2016, pp. 245–256.
C. Weiss, P. Karras, and A. Bernstein, “Hexastore: sextuple indexing for semantic web data management,” Proceedings of the VLDB Endowment, vol. 1, no. 1, pp. 1008–1019, 2008, doi: 10.14778/1453856.1453965.
A. Schätzle, M. Przyjaciel-Zablocki, S. Skilevic and G. Lausen, “S2RDF: RDF querying with SPARQL on spark,” Proceedings of the VLDB Endowment, vol. 9, no. 10, pp. 804–815, doi: 10.14778/2977797.2977806.
G. Aluç, O. Hartig, M. T. Özsu and K. Daudjee, “Diversified stress testing of RDF data management systems,” in 13th International Semantic Web Conference, Riva del Garda, Italy, October 19–23, 2014, pp. 197–212.
Downloads
เผยแพร่แล้ว
How to Cite
ฉบับ
บท
License
Copyright (c) 2023 คณะวิศวกรรมศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหาร

This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
บทความที่ได้รับการตีพิมพ์เป็นลิขสิทธิ์ของคณะวิศวกรรมศาสตร์ สถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง
ข้อความที่ปรากฏในบทความแต่ละเรื่องในวารสารวิชาการเล่มนี้เป็นความคิดเห็นส่วนตัวของผู้เขียนแต่ละท่านไม่เกี่ยวข้องกับสถาบันเทคโนโลยีพระจอมเกล้าเจ้าคุณทหารลาดกระบัง และคณาจารย์ท่านอื่นๆในสถาบันฯ แต่อย่างใด ความรับผิดชอบองค์ประกอบทั้งหมดของบทความแต่ละเรื่องเป็นของผู้เขียนแต่ละท่าน หากมีความผิดพลาดใดๆ ผู้เขียนแต่ละท่านจะรับผิดชอบบทความของตนเองแต่ผู้เดียว