علوم البيانات ونمذجة القرار 8 مايو 2025 مشروع منشور
Titanic Survival Prediction

سير عمل نمذجة قرار على بيانات منظمة

يبني هذا المشروع سير عمل تصنيف إشرافي لمهمة التنبؤ بالبقاء في Titanic. يركز على التحليل الاستكشافي، هندسة الخصائص، قرارات المعالجة المسبقة، مراجعة عدم توازن الفئات، ومقارنة النماذج لنمذجة تنبؤية قابلة للتفسير.

PythonPandasScikit-learnSMOTEGridSearchCVLogistic RegressionSVC
شارك المشروع X LinkedIn Email

التحدي

  • البيانات المنظمة غالبًا تحتوي قيمًا مفقودة، متغيرات منحرفة، حقولًا فئوية، وخصائص مترابطة.
  • النمذجة التنبؤية تحتاج معالجة مسبقة دقيقة قبل أن تصبح مقارنة النماذج ذات معنى.
  • مفاضلات القرار يجب أن تُقيّم عبر precision وrecall وF1 على مستوى الفئات، وليس الدقة العامة فقط.

تصميم النظام

بيانات ركابخصائص ديموغرافية وتذاكر
تصميم خصائصتعويض وترميز وتحويل
مقارنة نماذجأساسية ومضبوطة
تقييمتفسير المفاضلات

البيانات والمدخلات

  • 891 سجلًا للركاب مع هدف Survived.
  • تقسيم طبقي 80/20 للتدريب والاختبار، مع 712 سجل تدريب و179 سجل اختبار.
  • مصفوفة الخصائص النهائية تحتوي 21 خاصية بعد الهندسة أو الترميز.

المنهجية التقنية

  • تحليل القيم المفقودة، القيم المتطرفة، توزيع البقاء، والأنماط المرتبطة بالنجاة.
  • هندسة خصائص مثل اللقب، السطح، تحويل الأجرة، حجم الأسرة، السفر منفردًا، فئات العمر، وفئات الأجرة.
  • تطبيق التعويض، الترميز، التحجيم، التقسيم الطبقي، وتجربة SMOTE بعد التقسيم لتجنب تسرب البيانات.
  • مقارنة Logistic Regression وSVC وGaussian Naive Bayes ونسخ SMOTE ونماذج مضبوطة باستخدام GridSearchCV.

التقييم والنتائج

مؤشرات رئيسية

891 سجل ركاب

مؤشرات رئيسية

21 خاصية نهائية

مؤشرات رئيسية

دقة اختبار مضبوطة = 0.83799

  • حقق Logistic Regression المضبوط وSVC المضبوط دقة اختبار 0.83799.
  • أظهر Logistic Regression المضبوط recall وF1 أفضل قليلًا لفئة الناجين.
  • أظهر SVC المضبوط precision أعلى للناجين، مما يجعل الاختيار النهائي مرتبطًا بالمفاضلة المطلوبة بين الأخطاء.

التنفيذ والكود

محور التنفيذ

يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.

الكود المصدري

الكود متاح لاستكشاف تفاصيل التنفيذ وتوسيع التجربة عند الحاجة.

فتح الكود المصدري

نطاق المشروع والاستخدام المسؤول

هذا مشروع نمذجة وتقييم مركز. أي استخدام أوسع يحتاج تحققًا على بيانات إضافية، اختبارات متانة، مراقبة، وتقييمًا خاصًا بالسياق المقصود.

التطوير القادم

  • إضافة احتمالات معايرة وتفسير باستخدام SHAP.
  • مقارنة نماذج stacking وتشخيصات cross-validation إضافية.
  • تغليف سير العمل في مسار تدريب وتقييم أكثر قابلية لإعادة الاستخدام.

القيمة التقنية

يوضح المشروع نمذجة منضبطة للبيانات المنظمة: تصميم الخصائص، المعالجة المسبقة، مراجعة عدم التوازن، ضبط النماذج، وتفسير مفاضلات precision-recall.