MNIST ViT vs CNN Comparison
مفاضلة الدقة والكفاءة في التصنيف البصري
يقارن هذا المشروع بين Vision Transformer مضبوط ونموذج CNN خفيف على عينة من MNIST. يركز على المفاضلة العملية بين دقة transfer learning وكفاءة التدريب.
PythonPyTorchTensorFlowViTCNNMNIST
التحدي
- الدقة الأعلى قد تأتي بتكلفة حوسبية كبيرة.
- النماذج المرجعية البسيطة مهمة عندما تكون السرعة والموارد محدودة.
- اختيار النموذج يجب أن يراعي الدقة والزمن والتكلفة وسياق النشر.
تصميم النظام
عينة MNISTالأرقام 0–9
مسار ViTTransfer learning
نموذج CNN مرجعيتدريب خفيف
مراجعة المفاضلةدقة وزمن
البيانات والمدخلات
- عينة MNIST من 4,000 صورة تدريب و1,000 صورة اختبار.
- مسار Vision Transformer يحول الأرقام الرمادية إلى 224×224 RGB.
- مسار CNN يحافظ على الصيغة الرمادية الأصلية 28×28.
المنهجية التقنية
- ضبط Vision Transformer مدرب مسبقًا لتصنيف الأرقام.
- تدريب CNN بسيط من الصفر.
- مقارنة مصفوفات الالتباس، الدقة، وزمن التدريب.
التقييم والنتائج
مؤشرات رئيسية
4,000 صورة تدريب
مؤشرات رئيسية
دقة ViT = 98.10%
مؤشرات رئيسية
CNN أسرع بنحو 117× في التدريب
- حقق Vision Transformer دقة 98.10%.
- حقق CNN دقة 91.50% لكنه تدرب خلال 3.76 ثانية مقارنة بـ441.03 ثانية لـViT.
- تدرب CNN أسرع بنحو 117×، ما يجعل المفاضلة واضحة.
التنفيذ والكود
محور التنفيذ
يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.
نطاق المشروع والاستخدام المسؤول
هذا مشروع نمذجة وتقييم مركز. أي استخدام أوسع يحتاج تحققًا على بيانات إضافية، اختبارات متانة، مراقبة، وتقييمًا خاصًا بالسياق المقصود.
التطوير القادم
- تقييم معماريات أكثر وأحجام عينات أكبر.
- إضافة مقارنة للزمن أثناء الاستدلال واستهلاك الذاكرة.
- اختبار المتانة على أرقام مشوشة أو مختلفة التوزيع.
القيمة التقنية
يوضح المشروع مقارنة منضبطة بين النماذج عبر وزن الدقة مقابل السرعة والبساطة وقيود النشر.