Long-Tailed Object Classification with VGG16

الذكاء البصري والتعلم العميق 10 ديسمبر 2025 مشروع منشور

تعلم نقلي للتعرف البصري في بيانات غير متوازنة

يدرس هذا المشروع التصنيف البصري في توزيع واقعي طويل الذيل. يقارن بين نموذج مرجعي يعتمد على خصائص يدوية وVGG16 بالتعلم النقلي، ثم يقيّم أثر augmentation والضبط وfine-tuning على أداء الفئات.

عرض الكود العودة للمشاريع

PythonTensorFlowKerasVGG16HOGSVMOpen Images

شارك المشروع

التحدي

مجموعات الصور الواقعية غالبًا غير متوازنة وتحتوي على خلفيات متنوعة.
النموذج المرجعي التقليدي مفيد للمقارنة لكنه قد يضعف أمام التباين البصري المعقد.
التقييم يحتاج إلى النظر في أداء الفئات، وليس الدقة الإجمالية فقط.

تصميم النظام

بيانات Open ImagesCar · Dog · Person

نموذج مرجعيHOG + SVM

تعلم نقليVGG16 مع رأس تصنيف

تقييمدقة ومقاييس فئات

البيانات والمدخلات

بيانات Open Images لثلاث فئات: Car وDog وPerson.
2,402 صورة تدريب و598 صورة تحقق.
صور واقعية غير متوازنة بخلفيات وزوايا متنوعة.

المنهجية التقنية

بناء نموذج HOG+SVM مرجعي لقياس أداء الخصائص التقليدية.
استخدام VGG16 كمستخرج خصائص مدرب مسبقًا مع رأس تصنيف مخصص.
تطبيق augmentation وdropout وضبط معدل التعلم لتحسين التعميم.
إجراء تجربة fine-tuning عبر فتح طبقات أعمق من VGG16.

التقييم والنتائج

مؤشرات رئيسية

2,402 صورة تدريب / 598 صورة تحقق

مؤشرات رئيسية

دقة HOG+SVM = 67.00%

مؤشرات رئيسية

دقة VGG16 المضبوط = 92.00%

حقق HOG+SVM دقة 67.00% وضعف أمام التباين البصري.
حقق VGG16 المضبوط دقة 92.00% مع توازن أفضل بين الفئات.
حقق fine-tuned VGG16 دقة 89.30%، نتيجة قوية لكنها لم تتجاوز الإعداد المجمد المضبوط.
بقيت precision وrecall وF1 متوازنة عبر فئات Car وDog وPerson.

التنفيذ والكود

محور التنفيذ

يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.

الكود المصدري

الكود متاح لاستكشاف تفاصيل التنفيذ وتوسيع التجربة عند الحاجة.

فتح الكود المصدري

نطاق المشروع والاستخدام المسؤول

هذا مشروع نمذجة وتقييم مركز. أي استخدام أوسع يحتاج تحققًا على بيانات إضافية، اختبارات متانة، مراقبة، وتقييمًا خاصًا بالسياق المقصود.

التطوير القادم

إضافة فئات أكثر وعدم توازن أقوى.
مقارنة VGG16 بمعماريات أحدث وخفيفة.
توسيع التفسير عبر saliency maps ومراجعة حالات الفشل.

القيمة التقنية

يوضح المشروع كيفية مقارنة الأساليب التقليدية والعميقة في بيانات بصرية غير متوازنة مع استخدام تقييم على مستوى الفئات لتجنب الاستنتاجات المضللة.