GovRAG Copilot
نظام RAG تنظيمي قائم على الأدلة
GovRAG Copilot هو نظام Retrieval-Augmented Generation ثنائي اللغة مصمم حول نظام حماية البيانات الشخصية وإرشادات SDAIA. يركز على إجابات قابلة للتتبع، إنشاء مسودات امتثال منظمة، كشف الفجوات، ومخرجات بصرية قائمة على الأدلة المصدرية.
PythonRAGBM25TF-IDFQwen2.5GradioMatplotlib
التحدي
- وثائق نظام حماية البيانات الشخصية والإرشادات المرتبطة به قد تكون موزعة بين مصادر عربية وإنجليزية.
- المستخدم يحتاج إجابات تشير إلى المقاطع المصدرية بدل الاعتماد على نص مولد بلا دليل.
- سير عمل الامتثال يحتاج مخرجات منظمة مثل إشعارات الخصوصية، سجلات المعالجة، إشعارات الاختراق، وتقييمات النقل.
تصميم النظام
مصادر تنظيميةوثائق PDPL وSDAIA
مقاطع على مستوى الموادتطبيع عربي وبيانات وصفية
استرجاع هجينBM25 + TF-IDF
مخرجات مدعومة بالأدلةأسئلة، قوالب، صور، واستشهادات
البيانات والمدخلات
- وثائق تنظيمية عربية وإنجليزية مقسمة إلى مقاطع واعية بالمواد.
- بيانات صفحة ومادة واستشهاد مرتبطة بكل مقطع مسترجع.
- مسار بحث مضبوط يطبع النص العربي ويوسع مصطلحات الامتثال.
المنهجية التقنية
- مسار ingestion يجهز الوثائق ويخزن المقاطع على مستوى المواد.
- استرجاع هجين يجمع BM25 وTF-IDF لموازنة المطابقة الحرفية مع المطابقة الموضوعية.
- طبقة توليد تدعم أساليب extractive وOllama وHuggingFace/Qwen.
- واجهة Gradio تفصل بين الأسئلة، إنشاء المسودات، كشف الفجوات، فحص البحث، المرئيات، ومعلومات المشروع.
التقييم والنتائج
مؤشرات رئيسية
238 مقطعًا على مستوى المواد
مؤشرات رئيسية
190 اختبارًا ناجحًا
مؤشرات رئيسية
5 تبويبات عمل في Gradio
- استخدام اختبارات آلية للتحقق من السلوكيات والقوالب المهمة.
- تتبع تغطية الوثائق عبر 238 مقطعًا على مستوى المواد.
- التركيز في التقييم على جودة الاسترجاع، دقة الاستشهاد، الأمانة النصية، الاكتمال، والاتساق ثنائي اللغة.
التنفيذ والكود
محور التنفيذ
يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.
نطاق المشروع والاستخدام المسؤول
هذا مشروع نمذجة وتقييم مركز. أي استخدام أوسع يحتاج تحققًا على بيانات إضافية، اختبارات متانة، مراقبة، وتقييمًا خاصًا بالسياق المقصود.
التطوير القادم
- إضافة معيار تقييم رسمي بأسئلة وإجابات واستشهادات موسومة.
- إضافة فحص حداثة للوثائق التنظيمية.
- تحسين تقييم الأمانة النصية ودعم الإجابة بالاستشهادات.
القيمة التقنية
يجمع GovRAG بين هندسة RAG العملية: تجهيز الوثائق، تصميم الاسترجاع، دعم العربية والإنجليزية، الانضباط في الاستشهاد، تصميم واجهة العمل، المخرجات البصرية، والتقييم خارج مساعدات المحادثة العامة.