Long-Tailed Object Classification with VGG16
تعلم نقلي للتعرف البصري في بيانات غير متوازنة
يدرس هذا المشروع التصنيف البصري في توزيع واقعي طويل الذيل. يقارن بين نموذج مرجعي يعتمد على خصائص يدوية وVGG16 بالتعلم النقلي، ثم يقيّم أثر augmentation والضبط وfine-tuning على أداء الفئات.
PythonTensorFlowKerasVGG16HOGSVMOpen Images
التحدي
- مجموعات الصور الواقعية غالبًا غير متوازنة وتحتوي على خلفيات متنوعة.
- النموذج المرجعي التقليدي مفيد للمقارنة لكنه قد يضعف أمام التباين البصري المعقد.
- التقييم يحتاج إلى النظر في أداء الفئات، وليس الدقة الإجمالية فقط.
تصميم النظام
بيانات Open ImagesCar · Dog · Person
نموذج مرجعيHOG + SVM
تعلم نقليVGG16 مع رأس تصنيف
تقييمدقة ومقاييس فئات
البيانات والمدخلات
- بيانات Open Images لثلاث فئات: Car وDog وPerson.
- 2,402 صورة تدريب و598 صورة تحقق.
- صور واقعية غير متوازنة بخلفيات وزوايا متنوعة.
المنهجية التقنية
- بناء نموذج HOG+SVM مرجعي لقياس أداء الخصائص التقليدية.
- استخدام VGG16 كمستخرج خصائص مدرب مسبقًا مع رأس تصنيف مخصص.
- تطبيق augmentation وdropout وضبط معدل التعلم لتحسين التعميم.
- إجراء تجربة fine-tuning عبر فتح طبقات أعمق من VGG16.
التقييم والنتائج
مؤشرات رئيسية
2,402 صورة تدريب / 598 صورة تحقق
مؤشرات رئيسية
دقة HOG+SVM = 67.00%
مؤشرات رئيسية
دقة VGG16 المضبوط = 92.00%
- حقق HOG+SVM دقة 67.00% وضعف أمام التباين البصري.
- حقق VGG16 المضبوط دقة 92.00% مع توازن أفضل بين الفئات.
- حقق fine-tuned VGG16 دقة 89.30%، نتيجة قوية لكنها لم تتجاوز الإعداد المجمد المضبوط.
- بقيت precision وrecall وF1 متوازنة عبر فئات Car وDog وPerson.
التنفيذ والكود
محور التنفيذ
يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.
نطاق المشروع والاستخدام المسؤول
هذا مشروع نمذجة وتقييم مركز. أي استخدام أوسع يحتاج تحققًا على بيانات إضافية، اختبارات متانة، مراقبة، وتقييمًا خاصًا بالسياق المقصود.
التطوير القادم
- إضافة فئات أكثر وعدم توازن أقوى.
- مقارنة VGG16 بمعماريات أحدث وخفيفة.
- توسيع التفسير عبر saliency maps ومراجعة حالات الفشل.
القيمة التقنية
يوضح المشروع كيفية مقارنة الأساليب التقليدية والعميقة في بيانات بصرية غير متوازنة مع استخدام تقييم على مستوى الفئات لتجنب الاستنتاجات المضللة.