SDXL ControlNet Image Workflow
سير عمل لتوليد الصور والتحكم بها وتقييمها
يستكشف هذا المشروع سير عمل للصور التوليدية يبدأ من SDXL، ثم التحرير الدلالي عبر Img2Img، ثم توجيه ControlNet Canny للحفاظ على البنية، مع تقييم التغير بصريًا ورقميًا.
PythonDiffusersSDXLControlNetImg2ImgLPIPSPSNR
التحدي
- نماذج توليد الصور قد تنتج صورًا قوية لكنها لا تحافظ دائمًا على البنية أثناء التعديل.
- قد يغير Img2Img المحتوى الدلالي لكنه قد يبتعد عن هندسة الصورة الأصلية.
- يوفر ControlNet طريقة للحفاظ على البنية مع السماح بتغيير الأسلوب والإضاءة.
تصميم النظام
وصف نصي
صورة SDXL أولية
تعديل Img2Img
مخرج ControlNet Canny
البيانات والمدخلات
تُستخدم لقطة مدينة مستقبلية كحالة اختبار مضبوطة، مع استخراج حواف Canny من الصورة الأصلية لتوجيه البنية.
المنهجية التقنية
- توليد صورة أولية باستخدام SDXL ووصف نصي تفصيلي.
- استخدام Img2Img لإضافة محتوى دلالي جديد مع الحفاظ على الأسلوب العام.
- استخدام ControlNet Canny لتحويل المشهد مع الحفاظ على هندسة الأفق.
- تقييم الصورة الناتجة باستخدام LPIPS وPSNR.
التقييم والنتائج
مؤشرات رئيسية
40 خطوة استدلال في SDXL
مؤشرات رئيسية
توجيه ControlNet Canny
مؤشرات رئيسية
LPIPS 0.4527 / PSNR 12.71 dB
- حافظ ControlNet على هندسة الأفق بصورة أفضل من Img2Img وحده.
- أظهر LPIPS تغيرًا إدراكيًا واضحًا مع بقاء هوية المشهد قابلة للتعرف.
- كان انخفاض PSNR متوقعًا بسبب تغير الإضاءة والألوان بدرجة كبيرة.
التنفيذ والكود
محور التنفيذ
يربط التنفيذ بين تجهيز البيانات، النمذجة، التقييم، وتفسير النتائج ضمن سير عمل منظم يوضح القرارات التقنية.
نطاق المشروع والاستخدام المسؤول
هذا مشروع نمذجة وتقييم مركز. أي استخدام أوسع يحتاج تحققًا على بيانات إضافية، اختبارات متانة، مراقبة، وتقييمًا خاصًا بالسياق المقصود.
التطوير القادم
- مقارنة شروط ControlNet إضافية وقيم مختلفة لقوة التوجيه.
- إضافة تجارب متعددة للبذور لفصل أثر الوصف عن اختلافات العينة.
- بناء معرض صغير يقارن المخرجات جنبًا إلى جنب.
القيمة التقنية
يوضح المشروع كيف يمكن لسير عمل الصور التوليدية أن يجمع بين التحرير الإبداعي، توجيه البنية، والمقارنة القابلة للقياس.