UCF50 CNN-LSTM Action Recognition

الذكاء البصري والتعلم العميق 6 نوفمبر 2025 مشروع منشور

فهم الفيديو عبر النمذجة البصرية والزمنية

يدرس هذا المشروع التعرف على الأفعال في الفيديو عبر استخراج خصائص مكانية من الإطارات باستخدام CNN ثم مقارنة RNN وLSTM للنمذجة الزمنية والتصنيف النهائي.

عرض الكود العودة للمشاريع

PythonTensorFlowKerasCNNRNNLSTM

شارك المشروع

التحدي

تصنيف الفيديو يحتاج فهم تغير الخصائص البصرية عبر الزمن.
مصنف الإطارات وحده لا يمثل أنماط الحركة الزمنية.
المقارنة الجيدة تفسر اختلاف نماذج التسلسل بدل عرض الدقة فقط.

تصميم النظام

مقاطع فيديوإطارات عينة

مرمز CNNخصائص مكانية

نموذج تسلسليRNN أو LSTM

تنبؤ الفعلتقييم 50 فئة

البيانات والمدخلات

مجموعة UCF50 Action Recognition من Kaggle.
6,681 فيديو ضمن 50 فئة أفعال.
أخذ 15 إطارًا موزعًا بالتساوي من كل فيديو، بحجم 64×64 وتطبيع إلى [0, 1].

المنهجية التقنية

استخدام CNN بثلاث كتل لاستخراج خصائص الإطارات.
تمرير تسلسل الخصائص إلى مصنفات RNN وLSTM.
مقارنة دقة التحقق وmacro F1 لفهم أثر النمذجة الزمنية.

التقييم والنتائج

مؤشرات رئيسية

6,681 مقطع فيديو

مؤشرات رئيسية

50 فئة أفعال

مؤشرات رئيسية

CNN+LSTM validation F1 = 0.4548

حقق CNN+LSTM دقة تحقق 0.4734 وmacro F1 بقيمة 0.4548.
حقق CNN+RNN دقة تحقق 0.4263 وmacro F1 بقيمة 0.4071.
يركز المشروع على تفسير المقارنة تحت قيود الدقة الزمنية وحجم التدريب.

التنفيذ والكود

محور التنفيذ

يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.

الكود المصدري

الكود متاح لاستكشاف تفاصيل التنفيذ وتوسيع التجربة عند الحاجة.

فتح الكود المصدري

نطاق المشروع والاستخدام المسؤول

هذا مشروع نمذجة وتقييم مركز. أي استخدام أوسع يحتاج تحققًا على بيانات إضافية، اختبارات متانة، مراقبة، وتقييمًا خاصًا بالسياق المقصود.

التطوير القادم

استخدام دقة إطارات أعلى وتدريب أطول.
مقارنة 3D CNN أو نماذج فيديو حديثة.
إضافة تحليل مصفوفة الالتباس للفئات المتشابهة بصريًا.

القيمة التقنية

يوضح المشروع الفرق بين تصنيف الصور وفهم الفيديو عبر الجمع بين استخراج الخصائص البصرية والنمذجة الزمنية.