MNIST ViT vs CNN Comparison | Ali AlAsiri

الذكاء البصري والتعلم العميق 8 ديسمبر 2025 مشروع منشور

MNIST ViT vs CNN Comparison

مفاضلة الدقة والكفاءة في التصنيف البصري

يقارن هذا المشروع بين Vision Transformer مضبوط ونموذج CNN خفيف على عينة من MNIST. يركز على المفاضلة العملية بين دقة transfer learning وكفاءة التدريب.

عرض الكود العودة للمشاريع

PythonPyTorchTensorFlowViTCNNMNIST

شارك المشروع

التحدي

الدقة الأعلى قد تأتي بتكلفة حوسبية كبيرة.
النماذج المرجعية البسيطة مهمة عندما تكون السرعة والموارد محدودة.
اختيار النموذج يجب أن يراعي الدقة والزمن والتكلفة وسياق النشر.

تصميم النظام

عينة MNISTالأرقام 0–9

مسار ViTTransfer learning

نموذج CNN مرجعيتدريب خفيف

مراجعة المفاضلةدقة وزمن

البيانات والمدخلات

عينة MNIST من 4,000 صورة تدريب و1,000 صورة اختبار.
مسار Vision Transformer يحول الأرقام الرمادية إلى 224×224 RGB.
مسار CNN يحافظ على الصيغة الرمادية الأصلية 28×28.

المنهجية التقنية

ضبط Vision Transformer مدرب مسبقًا لتصنيف الأرقام.
تدريب CNN بسيط من الصفر.
مقارنة مصفوفات الالتباس، الدقة، وزمن التدريب.

التقييم والنتائج

مؤشرات رئيسية

4,000 صورة تدريب

مؤشرات رئيسية

دقة ViT = 98.10%

مؤشرات رئيسية

CNN أسرع بنحو 117× في التدريب

حقق Vision Transformer دقة 98.10%.
حقق CNN دقة 91.50% لكنه تدرب خلال 3.76 ثانية مقارنة بـ441.03 ثانية لـViT.
تدرب CNN أسرع بنحو 117×، ما يجعل المفاضلة واضحة.

التنفيذ والكود

محور التنفيذ

يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.

الكود المصدري

الكود متاح لاستكشاف تفاصيل التنفيذ وتوسيع التجربة عند الحاجة.

فتح الكود المصدري

نطاق المشروع والاستخدام المسؤول

هذا مشروع نمذجة وتقييم مركز. أي استخدام أوسع يحتاج تحققًا على بيانات إضافية، اختبارات متانة، مراقبة، وتقييمًا خاصًا بالسياق المقصود.

التطوير القادم

تقييم معماريات أكثر وأحجام عينات أكبر.
إضافة مقارنة للزمن أثناء الاستدلال واستهلاك الذاكرة.
اختبار المتانة على أرقام مشوشة أو مختلفة التوزيع.

القيمة التقنية

يوضح المشروع مقارنة منضبطة بين النماذج عبر وزن الدقة مقابل السرعة والبساطة وقيود النشر.