ذكاء العملاء وتحليل النصوص 4 مايو 2025 مشروع منشور
تحليل المشاعر العربية باستخدام AraVec وLSTM

سير عمل لتحليل المشاعر العربية والنمذجة التسلسلية

يدرس هذا المشروع تمثيل التغريدات العربية وتصنيف المشاعر. يقارن بين تمثيلات كلمات مسبقة التدريب ونموذج تسلسلي لفهم أثر اختيار التمثيل على التنبؤ بالمشاعر.

PythonNLP عربيAraVecANNLSTMEmbeddingsPCA
شارك المشروع X LinkedIn Email

التحدي

  • النص العربي في الشبكات الاجتماعية يحتاج معالجة وتمثيلًا مناسبين للغة.
  • متوسط متجهات الكلمات قد يفقد ترتيب الكلمات المهم لفهم المشاعر.
  • مقارنة نموذج مرجعي مع نموذج تسلسلي تساعد على فهم قيمة السياق والترتيب.

تصميم النظام

تغريدات عربيةإيجابية وسلبية
تمثيل لغويAraVec
نماذجANN و LSTM
تقييمدقة و F1

البيانات والمدخلات

  • 5,000 تغريدة عربية متوازنة بين المشاعر الإيجابية والسلبية.
  • 2,500 تغريدة إيجابية و2,500 تغريدة سلبية.
  • تقسيم تدريب/اختبار 4,000 / 1,000 تغريدة.

المنهجية التقنية

  • تحميل نموذج AraVec Twitter CBOW لتمثيل الكلمات العربية.
  • بناء تمثيلات على مستوى التغريدة باستخدام متوسط المتجهات للنموذج المرجعي ANN.
  • تدريب نموذج LSTM باستخدام embedding تسلسلي وطول تسلسل ثابت.
  • مراجعة مقارنة النماذج، F1-score، أمثلة التشابه الدلالي، وتصور embeddings.

التقييم والنتائج

مؤشرات رئيسية

5,000 تغريدة عربية

مؤشرات رئيسية

2,500 إيجابية / 2,500 سلبية

مؤشرات رئيسية

دقة LSTM = 83%

مؤشرات رئيسية

نموذج ANN مرجعي ≈ 68%

  • حقق نموذج LSTM دقة 83% في التقييم الموثق.
  • حقق نموذج ANN باستخدام متوسط AraVec نحو 68% دقة.
  • تشير المقارنة إلى أن النمذجة التسلسلية أفضل عندما يؤثر ترتيب الكلمات والسياق في المشاعر.

التنفيذ والكود

محور التنفيذ

يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.

الكود المصدري

الكود متاح لاستكشاف تفاصيل التنفيذ وتوسيع التجربة عند الحاجة.

فتح الكود المصدري

نطاق المشروع والاستخدام المسؤول

يركز المشروع على نمذجة اللغة وتقييمها. أي استخدام أوسع يتطلب تحققًا خاصًا بالمجال، تقييمًا للحالات الطرفية، مراقبة، واختبارًا على بيانات حديثة.

التطوير القادم

  • تقييم نماذج transformer عربية كنماذج أقوى.
  • توسيع الاختبار عبر لهجات ومجالات وأساليب كتابة مختلفة.
  • إضافة أدوات تفسير للكلمات المؤثرة وإشارات المشاعر.

القيمة التقنية

يوضح المشروع ممارسة نمذجة اللغة العربية: تمثيل النصوص بمتجهات مسبقة التدريب، مقارنة النماذج المرجعية والتسلسلية، وتفسير أهمية ترتيب الكلمات في تحليل المشاعر.