การคัดเลือกตัวแปรแบบเบส์สำหรับตัวแบบการถดถอยเชิงเส้นที่มีมิติสูงโดยใช้กราฟแบบมีทิศทาง

Main Article Content

บุษราคัม ประทานทรัพย์
วิฐรา พึ่งพาพงศ์

บทคัดย่อ

ในการสร้างตัวแบบการถดถอยที่มีมิติสูง การคัดเลือกตัวแปรอย่างมีประสิทธิภาพเป็นสิ่งสำคัญในการเพิ่มความสามารถในการตีความและความแม่นยำของตัวแบบ บทความนี้นำเสนอวิธีการคัดเลือกตัวแปรสำหรับตัวแบบการถดถอยที่มีมิติสูงด้วยวิธี Iterated Conditional Modes/Medians Algorithm (ICM/M) ซึ่งนำกราฟแบบมีทิศทางเข้ามาใช้ประกอบการคัดเลือกตัวแปรแบบเบส์เพื่อจับความสัมพันธ์ที่มีทิศทางระหว่างตัวแปรต่าง ๆ โดยเรียกวิธีการใหม่ว่า ICM/MD ในบทความนี้เปรียบเทียบประสิทธิภาพของวิธี ICM/MD กับวิธีลาสโซ่ วิธี ICM/M แบบไม่พิจารณาความสัมพันธ์ระหว่างตัวแปร และวิธี ICM/M แบบพิจารณาความสัมพันธ์ระหว่างตัวแปรโดยใช้กราฟแบบไม่มีทิศทางผ่านข้อมูลจำลองต่าง ๆ ในบริบทของจีโนม ผลลัพธ์แสดงให้เห็นว่าวิธี ICM/MD ให้อัตราการเกิดผลบวกเทียมที่ต่ำกว่าอย่างมีนัยสำคัญ ในขณะที่รักษาอัตราการเกิดผลลบเทียมในระดับที่สามารถแข่งขันกับวิธีอื่นได้ โดยเฉพาะในกรณีที่มีบางยีนในเครือข่ายมีความสัมพันธ์กับตัวแปรตามและตัวแปรอิสระมีเป็นจำนวนมาก ความสมดุลของความแม่นยำและความไวในการคัดเลือกตัวแปรนี้ทำให้ตัวแบบมีความน่าเชื่อถือและมีความสามารถในตีความได้ดีขึ้น วิธี ICM/MD พิสูจน์ได้ว่าเป็นเครื่องมือที่แกร่งและมีคุณค่าสำหรับนักวิจัยซึ่งต้องจัดการกับชุดข้อมูลที่มีมิติสูงที่ซับซ้อน โดยเฉพาะอย่างยิ่งในสาขาพันธุศาสตร์และชีวสารสนเทศศาสตร์ ซึ่งจะได้ผลลัพธ์ที่ถูกต้องมากขึ้นภายใต้โครงสร้างทางชีวภาพหรือเครือข่ายที่ซับซ้อน

Article Details

บท
บทความวิจัย ด้านวิทยาศาสตร์ประยุกต์

References

K. Tadist, S. Najah, N. S. Nikolov, F. Mrabti, and A. Zahi, “Feature selection methods and genomic big data: a systematic review,” Journal of Big Data, vol. 6, no. 79, 2019.

V. Pungpapong, “A brief review on highdimensional linear regression,” Thai Science and Technology Journal, vol. 23, no. 2, 2015. (in Thai)

V. Pungpapong, M. Zhang, and D. Zhang, “Selecting massive variables using an iterated conditional modes/medians algorithm,” Electronic Journal of Statistics, vol. 9, no. 1, pp. 1243–1266, 2015.

L. Onsager, “Crystal statistics. I. A two-dimensional model with an order-disorder transition,” Physical Review, vol. 65, pp. 117–149, 1943.

H. Jeffreys, “An invariant form for the prior probability in estimation problems,” Proceedings of the Royal Society of London. Series A, Mathematical and Physical Sciences, vol. 196, pp. 453–461, 1946.

M. Schmidt, D. Bohm, C. von Torne, E. Steiner, A. Puhl, H. Pilch, H.-A. Lehr, J. G. Hengstler, H. Kolbl, and M. Gehrmann, “The humoral immune system has a key prognostic impact in node-negative breast cancer,” Cancer Research, vol. 68, no. 13, pp. 5405–5413, 2008.

R. Oughtred, J. Rust, C. Chang, B. J. Breitkreutz, C. Stark, A. Willems, L. Boucher, G. Leung, N. Kolas, and F. Zhang, “The BioGRID database: A comprehensive biomedical resource of curated protein, genetic, and chemical interactions,” Protein Science, vol. 30, no. 1, pp. 187–200, 2021.

R Core Team.R Foundation for Statistical Computing. (2023), R: A language and environment for statistical computing. [Online]. Available: https://www.R-project.org

R. Tibshirani, “Regression Shrinkage and Selection via the Lasso,” Journal of the Royal Statistical Society. Series B (Methodological), vol. 58, no. 1, pp. 267–288, 1996.

J. H. Friedman, T. Hastie, and R. Tibshirani, “Regularization paths for generalized linear models via coordinate descent,” Journal of Statistical Software, vol. 33, no. 1, pp. 1–22, 2010.

J. H. Friedman, T. Hastie, R. Tibshirani, B. Narasimhan, K. Tay, N. Simon, and J. Qian, glmnet: Lasso and elastic-net regularized generalized linear models. (2021). R package version 4.1-1.

V. Pungpapong, M. Zhang, and D. Zhang. icmm: Empirical Bayes variable selection via ICM/M algorithm. (2021). R package version 1.2.

I. M. Johnstone and B. W. Silverman, “Empirical Bayes selection of wavelet thresholds,” Annals of Statistics, vol. 33, no. 4, pp. 1700–1752, Aug. 2005.