Malicious URL Detection with ML

تحليلات أمنية وكشف المخاطر 5 ديسمبر 2025 مشروع منشور

تصنيف أمني للروابط وتقييم النماذج

يبني هذا المشروع سير عمل تعلم آلة خفيف لتصنيف الروابط إلى آمنة أو خبيثة دون فتح الموقع المستهدف. يستخرج أنماطًا تركيبية ونصية من الرابط، يقارن عدة نماذج، ويقيّم جودة الكشف عبر مصفوفات الالتباس وتحليل ROC وprecision-recall.

عرض الكود العودة للمشاريع

PythonScikit-learnXGBoostRandom ForestLogistic Regressionهندسة خصائصتحليل ROC/PR

شارك المشروع

التحدي

الروابط الخبيثة قد تُستخدم في التصيد، توصيل البرمجيات الخبيثة، التشويه، الرسائل المزعجة، والاحتيال.
سير العمل الآمن يجب ألا يتطلب فتح المواقع المشبوهة.
الاستخدامات الأمنية تحتاج تحليل الاسترجاع والدقة والإيجابيات/السلبيات الخاطئة، وليس الدقة العامة فقط.

تصميم النظام

مجموعة روابطتصنيفات آمنة وخبيثة

استخراج خصائصإشارات تركيبية من الرابط

مقارنة نماذجLR · RF · XGBoost

تقييمROC وPR والأخطاء

البيانات والمدخلات

651,191 رابطًا مع تصنيفات أصلية تشمل benign وphishing وmalware وdefacement.
تحولت المهمة إلى تصنيف ثنائي: روابط آمنة مقابل روابط خبيثة.
استخدم المشروع تقسيمًا طبقيًا 80/20 للتدريب والاختبار مع خصائص نصية للرابط.

المنهجية التقنية

استخراج خصائص مثل طول الرابط، عدد الأرقام، عدد الرموز الخاصة، عدد النقاط، وجود IP، وجود HTTPS، وكلمات مرتبطة بالخداع أو الأمان.
تدريب ومقارنة Logistic Regression وRandom Forest وXGBoost.
مراجعة الدقة، precision، recall، F1، ROC AUC، Average Precision، مصفوفة الالتباس، وأهمية الخصائص.
تقديم النموذج كطبقة دعم قرار، وليس كآلية حظر نهائية وحدها.

التقييم والنتائج

مؤشرات رئيسية

651,191 رابطًا

مؤشرات رئيسية

أفضل نموذج: Random Forest

مؤشرات رئيسية

دقة 0.876 · ROC AUC 0.934

حقق Random Forest أفضل أداء معلنًا بدقة 0.876 وprecision 0.840 وrecall 0.788 وF1-score 0.813.
كان XGBoost منافسًا بدقة 0.866 وF1-score 0.796.
حقق Random Forest قيمة ROC AUC = 0.934 وAverage Precision = 0.901.
أظهرت أهمية الخصائص أثر عدد الرموز الخاصة، عدد النقاط، طول الرابط، وعدد الأرقام.

التنفيذ والكود

محور التنفيذ

يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.

الكود المصدري

الكود متاح لاستكشاف تفاصيل التنفيذ وتوسيع التجربة عند الحاجة.

فتح الكود المصدري

نطاق المشروع والاستخدام المسؤول

يوضح المشروع نمذجة الكشف على بيانات متاحة. أي استخدام أمني تشغيلي يتطلب تحديثًا مستمرًا للبيانات، مراقبة، اختبارات ضد التحايل، وتسجيلًا يراعي الخصوصية.

التطوير القادم

إضافة خصائص DNS ومحتوى وشبكة.
تقييم نماذج عميقة على مستوى الحروف واختبار التحايل العدائي.
بناء واجهة تحذير خفيفة للفحص الفوري للروابط.

القيمة التقنية

يوضح المشروع تقييمًا أمنيًا للنماذج: تصميم خصائص آمنة، مقارنة خطوط أساس، تفسير الأخطاء، والتعامل مع المخرجات كإشارات دعم لا كقرارات إنفاذ تلقائية.