تصنيف رسائل SMS المزعجة بنماذج NLP تقليدية
سير عمل تقليدي لتصنيف النصوص
يبني هذا المشروع سير عمل لكشف رسائل SMS المزعجة باستخدام تمثيلات NLP تقليدية ونماذج تعلم آلة. يركز على مقارنة النماذج، مقاييس الفئات، والتقييم الذي يتجاوز الدقة العامة.
PythonScikit-learnBag of WordsTF-IDFNaive BayesLogistic RegressionSVM
التحدي
- كشف الرسائل المزعجة مهمة تصنيف نصوص غير متوازنة وقد تخفي الدقة العامة ضعف استرجاع فئة spam.
- اختلاف تمثيلات النص يؤثر في قدرة النماذج على فصل الرسائل العادية عن المزعجة.
- التقييم العملي يحتاج مصفوفات التباس، recall، F1-score، وسلوك ROC.
تصميم النظام
رسائل SMSham و spam
تمثيل نصيBoW و TF-IDF
مقارنة نماذجNB و LR و SVM
تقييمF1 و ROC-AUC
البيانات والمدخلات
- 5,574 رسالة SMS تتضمن 4,827 رسالة ham و747 رسالة spam.
- مهمة تصنيف نصوص ثنائية باستخدام Bag of Words وTF-IDF.
- حجم المفردات الموثق 6,879 خاصية مع تخلخل عالٍ.
المنهجية التقنية
- معالجة نصوص SMS وبناء تمثيلات sparse.
- تدريب Naive Bayes وLogistic Regression وSupport Vector Machine.
- مقارنة Bag of Words وTF-IDF عبر عدة نماذج.
- مراجعة مصفوفات الالتباس ومنحنيات ROC واسترجاع spam وF1-score.
التقييم والنتائج
مؤشرات رئيسية
5,574 رسالة SMS
مؤشرات رئيسية
6 تركيبات نموذج/تمثيل
مؤشرات رئيسية
دقة SVM + TF-IDF = 97.67%
مؤشرات رئيسية
Spam F1-score = 0.90
- حقق SVM مع TF-IDF أفضل دقة موثقة بنسبة 97.67%.
- وصل نفس الإعداد إلى Spam F1-score = 0.90.
- أوضح التقييم أهمية قراءة recall وF1-score بجانب الدقة العامة.
التنفيذ والكود
محور التنفيذ
يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.
نطاق المشروع والاستخدام المسؤول
يركز المشروع على نمذجة اللغة وتقييمها. أي استخدام أوسع يتطلب تحققًا خاصًا بالمجال، تقييمًا للحالات الطرفية، مراقبة، واختبارًا على بيانات حديثة.
التطوير القادم
- مقارنة نماذج transformer مع النماذج التقليدية.
- إضافة ضبط عتبات للتطبيقات الحساسة للاسترجاع.
- اختبار المتانة على رسائل أحدث وبيانات متعددة اللغات.
القيمة التقنية
يوضح المشروع أسلوب تقييم منضبط للتصنيف النصي غير المتوازن: مقارنة التمثيلات، قراءة مفاضلات الفئات، وتحديد سير عمل قوي لكشف الرسائل المزعجة.