تصنيف سرطان الثدي باستخدام Naive Bayes

تقييم الذكاء الاصطناعي والمتانة 7 مارس 2025 مشروع منشور

سير عمل لتصنيف بيانات صحية

يبني هذا المشروع سير عمل تعلم آلة لتصنيف بيانات تشخيصية منظمة. يركز على التحليل الاستكشافي، تحجيم الخصائص، النمذجة الاحتمالية، وتقييم النتائج بطريقة تميز بين الدقة العامة وسلوك كل فئة.

عرض الكود العودة للمشاريع

PythonScikit-learnGaussian Naive BayesPandasتحليل استكشافيتحجيم خصائص

شارك المشروع

التحدي

تحتاج البيانات الصحية المنظمة إلى قراءة دقيقة لأن استرجاع بعض الفئات قد يكون أهم من الدقة العامة فقط.
الخصائص التشخيصية الرقمية تحتاج تحليلًا وتحجيمًا وتفسيرًا قبل الاعتماد على نتائج النموذج.
النموذج المرجعي الخفيف يساعد على فهم قابلية الفصل بين الفئات قبل استخدام نماذج أكثر تعقيدًا.

تصميم النظام

خصائص تشخيصيةقياسات رقمية

تحليل وتحجيممراجعة التوزيعات

نموذج احتماليGaussian NB

تقييمدقة واسترجاع

البيانات والمدخلات

بيانات Breast Cancer Wisconsin من scikit-learn.
569 عينة مع 30 خاصية تشخيصية رقمية.
هدف ثنائي بين benign و malignant.

المنهجية التقنية

مراجعة التوزيعات والارتباطات وأنماط الفئات.
تحجيم الخصائص الرقمية قبل التدريب.
تدريب Gaussian Naive Bayes كنموذج احتمالي سريع وقابل للتفسير.
تقييم الدقة، precision، recall، F1-score، ومصفوفة الالتباس.

التقييم والنتائج

مؤشرات رئيسية

569 عينة

مؤشرات رئيسية

30 خاصية تشخيصية

مؤشرات رئيسية

دقة اختبار 96%

مؤشرات رئيسية

استرجاع 0.99 للفئة الخبيثة

حقق النموذج دقة اختبار 96%.
وصل استرجاع الفئة الخبيثة إلى 0.99 في التقييم الموثق.
تقارب دقة التدريب والاختبار يشير إلى عدم وجود فرط ملاءمة شديد في هذا النموذج المرجعي.

التنفيذ والكود

محور التنفيذ

يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.

الكود المصدري

الكود متاح لاستكشاف تفاصيل التنفيذ وتوسيع التجربة عند الحاجة.

فتح الكود المصدري

نطاق المشروع والاستخدام المسؤول

يوضح المشروع النمذجة والتقييم على بيانات ذات طابع صحي، ولا يُستخدم لاتخاذ قرارات سريرية. أي استخدام طبي فعلي يتطلب تحققًا خارجيًا، مراجعة مختصين، معايرة، وضوابط تنظيمية.

التطوير القادم

مقارنة نماذج إضافية ومخرجات احتمالية مُعايرة.
إضافة أدوات تفسير للخصائص التشخيصية المؤثرة.
اختبار المتانة على بيانات خارجية وتقسيمات تدريب مختلفة.

القيمة التقنية

يوضح المشروع أهمية التقييم المنضبط في التصنيف الحساس: فهم البيانات، بناء نموذج مرجعي قابل للتفسير، وقراءة مقاييس الفئات بدل الاعتماد على الدقة فقط.