تقنيات تنقيب البيانات لتحليل مجموعة البيانات البيوكيميائية العراقية
محتوى المقالة الرئيسي
الملخص
يهدف هذا البحث إلى تحليل ومحاكاة بيانات تحاليل الكيمياء الحيوية الحقيقية للكشف عن العلاقات فيما بين التحاليل ، وكيف يؤثر كل منها على الآخرين. تم الحصول على البيانات من مختبر الكيمياء الحيوية العراقي الخاص. كذلك فإن هذه البيانات لها أبعاد عديدة ذات معدل مرتفع من القيم الخالية وأعداد كبيرة من المرضى. بعد ذلك ، تم تطبيق العديد من التجارب على هذه البيانات بدءًا بتقنيات غير خاضعة للرقابة مثل التجمعات الهيكلية وك-الوسائل ، ولكن النتائج لم تكن واضحة. ثم تم تنفيذ خطوة المعالجة المسبقة ، لجعل مجموعة البيانات قابلة للتحليل من خلال تقنيات خاضعة للإشراف مثل التحليل التمييزي الخطي (LDA) ، وشجرة التصنيف والانحدار (CART) ، والانحدار اللوجستي (LR) ، و ك-اقرب جار (K-NN) ، و نايف بايز ( NB) ، وتقنيات آلة ناقل الدعم (SVM). يعطي CART نتائج واضحة بدقة عالية بين الخوارزميات الستة الخاضعة للإشراف. من الجدير بالذكر أن خطوات المعالجة المسبقة تتطلب جهودًا ملحوظة للتعامل مع هذا النوع من البيانات ، نظرًا لأن مجموعة البيانات الخالصة بها العديد من القيم الصفرية بنسبة 94.8٪ ، ثم تصبح 0٪ بعد تحقيق خطوات المعالجة المسبقة. ثم ، من أجل تطبيق خوارزمية CART ، تم افتراض العديد من الاختبارات المحددة كفئات. قرار اختيار الاختبارات التي تم افتراضها على أنها فئات كانت تعتمد على دقتها المكتسبة. وبالتالي ، تمكين الأطباء من تتبع وربط نتائج الاختبارات مع بعضها البعض ، مما يوسع تأثيرها على صحة المرضى.
Received 13/7/2020
Accepted 19/1/2021
Published Online First 20/9/2021
تفاصيل المقالة
هذا العمل مرخص بموجب Creative Commons Attribution 4.0 International License.
كيفية الاقتباس
المراجع
Behadili SF, Abd MS, Mohammed IK, Al-SAYYID MM. Breast cancer decisive parameters for Iraqi women via data mining techniques. JOCMS. 2019 Apr 19;5(2).
Nilashi M, Ibrahim O, Dalvi M, Ahmadi H, Shahmoradi L. Accuracy improvement for diabetes disease classification: a case on a public medical dataset. Fuzzy Inf. Eng. 2017 Sep 1;9(3):345-57. DOI: https://doi.org/10.1016/j.fiae.2017.09.006
Huang Y, McCullagh P, Black N, Harper R. Feature selection and classification model construction on type 2 diabetic patients’ data. Artif Intell Med. 2007 Nov 1;41(3):251-62. DOI: 10.1016/j.artmed.2007.07.002
Li J, Fu AW, Fahey P. Efficient discovery of risk patterns in medical data. Artif Intell Med. 2009 Jan 1;45(1):77-89. DOI: 10.1136/svn-2017-000101
Wasan SK, Bhatnagar V, Kaur H. The impact of data mining techniques on medical diagnostics. Data Sci. J. 2006;5:119-26. DOI: http://doi.org/10.2481/dsj.5.119
Aljumah AA, Ahamad MG, Siddiqui MK. Application of data mining: Diabetes health care in young and old patients. JKSUCI. 2013 Jul1;25(2): 127-36. https://doi.org/10.1016/j.jksuci.2012.10.003
Salcedo-Bernal A, Villamil-Giraldo MP, Moreno-Barbosa AD. Clinical data analysis: An opportunity to compare machine learning methods. Procedia Comput Sci. 2016 Jan 1;100(100):731-8. DOI: 10.1016/j.procs.2016.09.218
Diwani SA, Yonah ZO. A novel holistic disease prediction tool using best fit data mining techniques. IJCDS. 2017 Mar 1;6(02):63-72. DOI: http://dx.doi.org/10.12785/IJCDS/060202
Mustafa TK, Abd MS. Proposed approach for analysing general hygiene information using various data mining algorithms. IJS. 2017;58(1B):337-44.
Crook M. Clinical biochemistry and metabolic medicine. 8th ed. London. CRC Press, 2012. DOI https://doi.org/10.1201/b13295
Drab K, Daszykowski M. Clustering in analytical chemistry. J AOAC Int. 2014 Jan 1;97(1):29-38. DOI:https://doi.org/10.5740/jaoacint.SGEDrab
Han J, Kamber M, Pei J. Data mining concepts and techniques. 3rd ed. Elsevier; 2011 Jun 9.
Müller AC, Guido S. Introduction to machine learning with Python: a guide for data scientists. " O'Reilly Media, Inc."; 2016 Sep 26.
Li M. Application of CART decision tree combined with PCA algorithm in intrusion detection. In2017 8th IEEE International Conference on Software Engineering and Service Science (ICSESS) 2017 Nov 24 (pp. 38-41). IEEE. DOI:10.1109/ICSESS.2017.8342859