UCF50 CNN-LSTM Action Recognition
فهم الفيديو عبر النمذجة البصرية والزمنية
يدرس هذا المشروع التعرف على الأفعال في الفيديو عبر استخراج خصائص مكانية من الإطارات باستخدام CNN ثم مقارنة RNN وLSTM للنمذجة الزمنية والتصنيف النهائي.
PythonTensorFlowKerasCNNRNNLSTM
التحدي
- تصنيف الفيديو يحتاج فهم تغير الخصائص البصرية عبر الزمن.
- مصنف الإطارات وحده لا يمثل أنماط الحركة الزمنية.
- المقارنة الجيدة تفسر اختلاف نماذج التسلسل بدل عرض الدقة فقط.
تصميم النظام
مقاطع فيديوإطارات عينة
مرمز CNNخصائص مكانية
نموذج تسلسليRNN أو LSTM
تنبؤ الفعلتقييم 50 فئة
البيانات والمدخلات
- مجموعة UCF50 Action Recognition من Kaggle.
- 6,681 فيديو ضمن 50 فئة أفعال.
- أخذ 15 إطارًا موزعًا بالتساوي من كل فيديو، بحجم 64×64 وتطبيع إلى [0, 1].
المنهجية التقنية
- استخدام CNN بثلاث كتل لاستخراج خصائص الإطارات.
- تمرير تسلسل الخصائص إلى مصنفات RNN وLSTM.
- مقارنة دقة التحقق وmacro F1 لفهم أثر النمذجة الزمنية.
التقييم والنتائج
مؤشرات رئيسية
6,681 مقطع فيديو
مؤشرات رئيسية
50 فئة أفعال
مؤشرات رئيسية
CNN+LSTM validation F1 = 0.4548
- حقق CNN+LSTM دقة تحقق 0.4734 وmacro F1 بقيمة 0.4548.
- حقق CNN+RNN دقة تحقق 0.4263 وmacro F1 بقيمة 0.4071.
- يركز المشروع على تفسير المقارنة تحت قيود الدقة الزمنية وحجم التدريب.
التنفيذ والكود
محور التنفيذ
يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.
نطاق المشروع والاستخدام المسؤول
هذا مشروع نمذجة وتقييم مركز. أي استخدام أوسع يحتاج تحققًا على بيانات إضافية، اختبارات متانة، مراقبة، وتقييمًا خاصًا بالسياق المقصود.
التطوير القادم
- استخدام دقة إطارات أعلى وتدريب أطول.
- مقارنة 3D CNN أو نماذج فيديو حديثة.
- إضافة تحليل مصفوفة الالتباس للفئات المتشابهة بصريًا.
القيمة التقنية
يوضح المشروع الفرق بين تصنيف الصور وفهم الفيديو عبر الجمع بين استخراج الخصائص البصرية والنمذجة الزمنية.