Phishing Email Detection with ML

تقييم الذكاء الاصطناعي والمتانة 2 أكتوبر 2025 مشروع منشور

تصنيف نصوص أمني ومقارنة نماذج

يبني هذا المشروع سير عمل لاكتشاف رسائل التصيد باستخدام نصوص بريد مصنفة. يقارن نماذج تعلم آلة كلاسيكية مع التركيز على استرجاع رسائل التصيد، الإيجابيات الخاطئة، تفسير الخصائص، واحتياج المتابعة التشغيلية.

عرض الكود العودة للمشاريع

PythonScikit-learnTF-IDFRandom ForestSVMLogistic Regression

شارك المشروع

التحدي

التصنيف الأمني يحتاج أكثر من الدقة العامة؛ استرجاع رسائل التصيد والإيجابيات الخاطئة مهمان.
خصائص النص قد تلتقط إشارات مفيدة، لكنها قد تتعلم أيضًا أنماطًا خاصة بالبيانات.
النموذج العملي يجب أن يوازن بين الأداء والبساطة وقابلية التفسير.

تصميم النظام

بيانات البريدتنظيف وتصنيفات

خصائص النصتمثيل TF-IDF

مقارنة نماذجRF · SVM · LR

تقييماسترجاع وأخطاء ومصطلحات

البيانات والمدخلات

18,650 صفًا خامًا و17,538 صفًا بعد التنظيف.
فئتا Safe Email وPhishing Email مع تقسيم تدريب/اختبار 80/20.
5,000 خاصية TF-IDF لتمثيل نصوص البريد.

المنهجية التقنية

تنظيف السجلات المفقودة والمكررة قبل التدريب.
تمثيل نص البريد باستخدام خصائص TF-IDF.
مقارنة Random Forest وSupport Vector Machine وLogistic Regression.
مراجعة مصفوفات الالتباس، استرجاع رسائل التصيد، وأهم المصطلحات المرتبطة بها.

التقييم والنتائج

مؤشرات رئيسية

17,538 صف بريد بعد التنظيف

مؤشرات رئيسية

5,000 خاصية TF-IDF

مؤشرات رئيسية

دقة SVM الخطي المختار = 0.9763

حققت جميع النماذج أداءً قويًا فوق 97% دقة.
حقق SVM الخطي دقة 0.9763 مع توازن قوي بين استرجاع التصيد والبساطة التشغيلية.
حقق RBF SVM دقة 0.9772، لكن SVM الخطي بقي أبسط في التفسير.
اكتشف النموذج المختار نحو 98% من رسائل التصيد في مجموعة الاختبار.

التنفيذ والكود

محور التنفيذ

يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.

الكود المصدري

الكود متاح لاستكشاف تفاصيل التنفيذ وتوسيع التجربة عند الحاجة.

فتح الكود المصدري

نطاق المشروع والاستخدام المسؤول

يوضح المشروع نمذجة الكشف على بيانات متاحة. أي استخدام أمني تشغيلي يتطلب تحديثًا مستمرًا للبيانات، مراقبة، اختبارات ضد التحايل، وتسجيلًا يراعي الخصوصية.

التطوير القادم

التقييم على بيانات تصيد أحدث وأكثر تنوعًا.
إضافة معايرة، ضبط عتبات، وتحليل أخطاء قائم على التكلفة.
اختبار encoders حديثة مقابل نموذج TF-IDF الكلاسيكي.

القيمة التقنية

يوضح المشروع تقييمًا أمنيًا منضبطًا للنماذج: مقارنة خطوط الأساس، إعطاء أولوية للاسترجاع، تحليل الإيجابيات الخاطئة، وتفسير خصائص النص بوعي للسياق.