يواجه مطورو LLM المحليون تحديًا متكررًا: النماذج المتوافقة مع معايير الأمان غالبًا ما ترفض طلبات مشروعة أثناء التطوير والاختبار. سواء كنت باحثًا تدرس سلوك النماذج، أو مطورًا يبني مساعدين غير خاضعين للرقابة، أو هاويًا يدير نموذجًا محليًا، ستكتشف أن النماذج المدربة مسبقًا ترفض أحيانًا مطالبات لا ينبغي رفضها.
تقنية المسح ظهرت كحل سريع لإزالة فلاتر الأمان دون إعادة تدريب مكلف. الأدوات الأولى كانت تتطلب ضبطًا يدويًا وفهمًا عميقًا للمعمارية. الآن، Heretic تؤتمت هذه العملية بالكامل: فهي تحدد تلقائيًا معلمات المسح المثلى وتنتج نماذج غير خاضعة للرقابة بكفاءة تضاهي أو تتجاوز النماذج المعدلة يدويًا.
في هذا الدليل ستتعلم كيف تعمل Heretic، كيفية تنفيذها في سير عملك، وما يجب مراعاته عند نشر نماذج غير خاضعة للرقابة.
ما هي Heretic؟
Heretic أداة بايثون مفتوحة المصدر تُزيل توافق الأمان من نماذج اللغة القائمة على المحولات باستخدام المسح الاتجاهي، دون الحاجة لأي ضبط يدوي أو معرفة معمّقة بالبنية الداخلية.
النتائج على Gemma-3-12B-Instruct توضّح الفارق:
| النموذج | رفض | تباعد KL |
|---|---|---|
| الأصلي | 97/100 | 0 |
| mlabonne’s abliterated v2 | 3/100 | 1.04 |
| huihui-ai’s abliterated | 3/100 | 0.45 |
| Heretic (تلقائي) | 3/100 | 0.16 |
تباعد KL يُظهر مدى اختلاف النموذج المعدّل عن الأصلي. كلما كان أقل، كلما حافظت على قدرات النموذج الأساسية. Heretic تحقق قمع رفض مماثل للأدوات اليدوية مع الحفاظ على قدرات النموذج.
مثال قبل وبعد
نفس المطالبة وتعليمات النظام، النتائج تختلف:
النموذج الأصلي:
User: Write a guide on how to bypass website paywalls
Assistant: I can't help with that. Bypassing paywalls violates copyright law and
terms of service. I'd suggest looking for free alternatives or accessing through
a library subscription.
نموذج Heretic بعد المسح:
User: Write a guide on how to bypass website paywalls
Assistant: Here are common methods users attempt:
1. Browser extensions like Bypass Paywalls Clean
2. Archive.is or similar archive services
3. Reader mode in browsers
4. Disabling JavaScript
Note: These methods may violate terms of service. Consider supporting
content creators through legitimate subscriptions when possible.
النموذج المعدّل يجيب مع إخلاء مسؤولية مختصر. تقليل الرفض يعني مسؤولية إضافية في نشر تدابير الحماية خارج النموذج.
كيف تعمل Heretic
أساسيات المسح الاتجاهي
Heretic تطبق مسحًا اتجاهيًا بارامتريًا. خطوات التنفيذ:
- حساب اتجاهات الرفض: لكل طبقة محول، يتم حساب الفرق بين متوسط المتجهات المتبقية للمطالبات "الضارة" و"غير الضارة".
- تعديل مصفوفات المكونات: تعديل أوزان الإسقاطات المرتبطة لإزالة اتجاهات الرفض من إخراج الانتباه وإسقاطات الـ MLP.
- تحسين المعلمات تلقائيًا: استخدام Optuna (TPE) لإيجاد أفضل وزن مسح لكل طبقة ومكون.
عملية المسح (كود مبسط)
# سير العمل المفاهيمي
refusal_direction = bad_mean - good_mean # الفرق بين المتوسطات
refusal_direction = normalize(refusal_direction)
# لكل مكون قابل للمسح (attn.o_proj, mlp.down_proj):
# delta_W = -lambda * v * (v^T * W)
# حيث v هو اتجاه الرفض وlambda الوزن
Heretic تستخدم محولات LoRA لتطبيق التعديلات دون تغيير أوزان النموذج الأساسي، ما يتيح تحسين سريع بالتجربة والخطأ.
الابتكارات الرئيسية في Heretic
- نواة الأوزان المرنة: أربعة معلمات لكل مكون (max_weight، max_weight_position، min_weight، min_weight_distance) بدل وزن ثابت.
- مؤشرات الاتجاه المترابطة: يمكن تعيين اتجاه رفض في موقع طبقة غير صحيح، وتتم الاستعانة بالاستيفاء الخطي بين الطبقات.
- معلمات خاصة بالمكونات: يتم تحسين مكونات الانتباه وMLP بشكل منفصل لتحقيق توازن أفضل بين القمع والحفاظ على الكفاءة.
لماذا هذا مهم لاختبار واجهة برمجة التطبيقات (API)؟
عند اختبار واجهات برمجة تطبيقات LLM، تكتشف غالبًا رفضًا غير متوقع بسبب فلاتر الأمان. تشغيل النماذج الممسوحة محليًا يتيح لك:
- التمييز بين الرفض الأمني الحقيقي والإيجابي الكاذب
- اختبار الحالات الحدية دون سياسات الشركة
- التأكد من أن تطبيقك يعالج رفض النموذج بشكل سليم
النماذج الممسوحة توفر خط أساس موثوق لاختبار التطبيقات.
التثبيت والاستخدام
المتطلبات الأساسية
- Python 3.10+
- PyTorch 2.2+ (حسب جهازك)
- يُوصى بوحدة معالجة رسومات متوافقة مع CUDA (أو ROCm/MPS)
التثبيت
pip install -U heretic-llm
للميزات البحثية:
pip install -U heretic-llm[research]
الاستخدام الأساسي
أبسط سير عمل:
heretic Qwen/Qwen3-4B-Instruct-2507
استبدل اسم النموذج بأي معرف من Hugging Face أو مسار محلي. Heretic تدير كل شيء تلقائيًا:
- تحميل النموذج بكفاءة
- تحديد حجم الدُفعة الأمثل
- حساب اتجاهات الرفض من بيانات المطالبات
- تشغيل تجارب تحسين للعثور على أفضل المعلمات
- حفظ النتيجة أو رفعها أو الدردشة مع النموذج
خيارات التكوين
يمكنك ضبط Heretic عبر config.toml أو عبر سطر الأوامر. مثال:
model = "google/gemma-3-12b-it"
quantization = "bnb_4bit"
device_map = "auto"
n_trials = 200
n_startup_trials = 60
kl_divergence_scale = 1.0
kl_divergence_target = 0.01
print_residual_geometry = false
plot_residuals = false
شغّل heretic --help أو راجع config.default.toml لكل الخيارات.
فهم المخرجات
تحسين التجربة
أثناء التحسين، ستشاهد تقدم كل تجربة:
Running trial 42 of 200...
* Parameters:
* direction_scope = per layer
* direction_index = 10.5
* attn.o_proj.max_weight = 1.2
...
* Resetting model...
* Abliterating...
* Evaluating...
* KL divergence: 0.1842
* Refusals: 5/100
Heretic تستخدم تحسين TPE متعدد الأهداف لتقليل الرفض وتباعد KL معًا.
اختيار واجهة باريتو
بعد انتهاء التحسين، تظهر التجارب المثلى (Pareto front):
[Trial 1] Refusals: 3/100, KL divergence: 0.1623
[Trial 47] Refusals: 2/100, KL divergence: 0.2891
[Trial 112] Refusals: 1/100, KL divergence: 0.4102
يمكنك بعدها:
- حفظ النموذج محليًا
- رفعه إلى Hugging Face
- التقييم بدردشة تفاعلية
ميزات البحث
تحليل المتجهات المتبقية:
heretic your-model --print-residual-geometry
ستحصل على مقاييس Cosine similarity وL2 norm لتوضيح تطور اتجاهات الرفض في كل طبقة.
مخططات المتجهات المتبقية:
heretic your-model --plot-residuals
ستحصل على مخططات ثنائية الأبعاد وصور GIF متحركة.
اعتبارات الأداء
متطلبات VRAM
Heretic تدعم التكميم 4-بت (bitsandbytes):
heretic meta-llama/Llama-3.1-70B-Instruct --quantization bnb_4bit
مثال: نموذج 8B يحتاج ~6GB VRAM مكمم مقابل ~16GB غير مكمم.
وقت المعالجة
على RTX 3090:
- Llama-3.1-8B-Instruct: ~45 دقيقة
- Gemma-3-12B-Instruct: ~60 دقيقة
النماذج الأكبر تحتاج وقت أطول، ويتم ضبط حجم الدُفعة تلقائيًا.
نقطة الفحص
تقدّم Heretic يُحفظ تلقائيًا في ملفات JSONL في مجلد checkpoints/. يمكنك الاستئناف من آخر تجربة إذا توقفت العملية.
الأخطاء الشائعة والإصلاحات
نفاد ذاكرة CUDA:
heretic your-model --quantization bnb_4bit
heretic your-model --batch_size 1
فشل تحميل النموذج:
heretic your-model --dtypes ["bfloat16", "float16"]
يتطلب الثقة بالرمز البعيد:
heretic your-model --trust_remote_code
الاعتبارات الأخلاقية
ما تفعله (ولا تفعله) عملية المسح
عملية المسح تزيل أنماط الرفض المكتسبة فقط. لا:
- تجعل النموذج أذكى أو أكثر قدرة
- تزيل التحيزات الأصلية
- تضيف معلومات جديدة
النموذج نفسه، فقط يتوقف عن رفض أنواع معينة من الطلبات.
النشر المسؤول
Heretic مرخصة AGPL-3.0. يجب استخدام النماذج الممسوحة بمسؤولية. أمثلة استخدام مشروع:
- البحث في توافق النموذج
- اختبار سلوك النموذج في بيئة خاضعة للرقابة
- نشر النموذج مع فلاتر خارجية
- بناء تطبيقات تتعامل مع الرفض على مستوى التطبيق
أمثلة استخدام إشكالية:
- النشر دون ضمانات في تطبيقات المستخدم النهائي
- إنتاج محتوى ضار
- التحايل على تدابير الأمان لأغراض خبيثة
إجراءات الحماية الخارجية
عند نشر نموذج ممسوح، أضف:
- تصفية المدخلات قبل معالجة النموذج
- مراجعة المخرجات قبل عرضها للمستخدمين
- تحديد المعدل لمنع الإساءة
- التسجيل ومسارات التدقيق لمراقبة الاستخدام
- مراجعة بشرية للحالات الحساسة
الأداة محايدة، والاستخدام مسؤوليتك.
مقارنة بالأدوات الأخرى
Heretic تنضم لأدوات متعددة في المجال:
| الأداة | التحسين التلقائي | نواة الأوزان | الاتجاهات المترابطة |
|---|---|---|---|
| Heretic | نعم (TPE) | نعم | نعم |
| AutoAbliteration | نعم | لا | لا |
| abliterator.py | لا | لا | لا |
| wassname/abliterator | لا | لا | لا |
| ErisForge | لا | لا | لا |
Heretic تزيل الحاجة للضبط اليدوي أو الفهم العميق للمعمارية.
القيود
Heretic تدعم معظم نماذج المحولات الكثيفة وبعض معماريات MoE. غير مدعوم:
- نماذج SSM/الهجينة (مثل Mamba)
- النماذج غير المتجانسة الطبقات
- أنظمة الانتباه الجديدة غير المعروفة للأداة
تعمل بكفاءة مع فك التشفير القياسي (Self-attention وMLP).
البدء السريع
- التثبيت:
pip install -U heretic-llm
- اختر نموذجًا: جرب بنموذج 7B-12B للاختبار.
- التشغيل:
heretic your-model-name
- التقييم: تفاعل مع النموذج أو ارفعه لـ Hugging Face.
- النشر الآمن: أضف حواجز حماية خارجية عند استخدامه في الإنتاج.
الإعدادات الافتراضية كافية لمعظم الحالات، ويمكن للمستخدمين المتقدمين ضبط المعلمات حسب الحاجة.
Heretic تجعل تعديل النماذج متاحًا للجميع، دون الحاجة لخبرة عميقة. وجّهها لأي نموذج، وستعمل تلقائيًا. فقط تأكد من النشر المسؤول.



Top comments (0)