Heart Disease DNN Classification
نمذجة بيانات جدولية وتقييم تشخيصي
يبني هذا المشروع مصنفًا بشبكة عصبية للتنبؤ بأمراض القلب من خصائص سريرية منظمة. يركز على المعالجة المسبقة، ضبط النموذج، تقييم ROC/AUC، وتحليل الأخطاء بدل الاكتفاء بدقة إجمالية واحدة.
PythonTensorFlowKerasDNNStandardScalerROC-AUC
التحدي
- البيانات السريرية الجدولية تحتاج ترميزًا وتقييسًا وانضباطًا في تقسيم البيانات.
- المصنف المفيد يحتاج تقييمًا متوازنًا لكل فئة، وليس دقة كلية فقط.
- النمذجة على بيانات ذات طابع صحي يجب أن تفصل بوضوح بين نتائج التقييم واتخاذ القرار السريري.
تصميم النظام
بيانات منظمةخصائص بنمط سريري
معالجة مسبقةترميز وتقييس
مصنف DNNشبكة مضبوطة
تقييم تشخيصيROC وF1 وتحليل أخطاء
البيانات والمدخلات
- مجموعة Heart Disease من Kaggle المبنية على خصائص شبيهة ببيانات UCI.
- 1,025 سجلًا، و14 خاصية أصلية، وهدف ثنائي: وجود المرض أو عدمه.
- مصفوفة خصائص نهائية من 27 خاصية بعد الترميز والتقييس مع تقسيم 70/10/20.
المنهجية التقنية
- ترميز المتغيرات الفئوية وتقييس المتغيرات العددية.
- تدريب عدة نماذج DNN مع early stopping ومتابعة التحقق.
- مقارنة النموذج الأساسي والمحسن وتجارب dropout وL2 وBatchNorm.
التقييم والنتائج
مؤشرات رئيسية
1,025 سجلًا بنمط سريري
مؤشرات رئيسية
دقة اختبار 0.9659
مؤشرات رئيسية
AUC 0.9813
- أفضل نموذج حقق دقة اختبار 0.9659 وweighted F1 بقيمة 0.9658 وAUC بقيمة 0.9813.
- بلغ استدعاء فئة المرض 0.9905، مع 7 أخطاء فقط من أصل 205 عينة اختبار.
- يراجع التحليل المقاييس الكلية والأخطاء القليلة المتبقية.
التنفيذ والكود
محور التنفيذ
يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.
نطاق المشروع والاستخدام المسؤول
يوضح المشروع النمذجة والتقييم على بيانات ذات طابع صحي، ولا يُستخدم لاتخاذ قرارات سريرية. أي استخدام طبي فعلي يتطلب تحققًا خارجيًا، مراجعة مختصين، معايرة، وضوابط تنظيمية.
التطوير القادم
- إضافة تحقق خارجي على مجموعة بيانات أخرى.
- مقارنة نماذج شجرية واحتمالات معايرة.
- توسيع تحليل الأخطاء بتفسير الخصائص.
القيمة التقنية
يوضح المشروع نمذجة مراقبة منضبطة على بيانات حساسة: معالجة مسبقة، ضبط، مقاييس تشخيصية، وتفسير مسؤول.