Yusuf Khalidd

Posted on Mar 19 • Originally published at apidog.com

إزالة الرقابة عن نماذج اللغة الكبيرة باستخدام Heretic

#ai #llm #machinelearning #tutorial

يواجه مطورو LLM المحليون تحديًا متكررًا: النماذج المتوافقة مع معايير الأمان غالبًا ما ترفض طلبات مشروعة أثناء التطوير والاختبار. سواء كنت باحثًا تدرس سلوك النماذج، أو مطورًا يبني مساعدين غير خاضعين للرقابة، أو هاويًا يدير نموذجًا محليًا، ستكتشف أن النماذج المدربة مسبقًا ترفض أحيانًا مطالبات لا ينبغي رفضها.

جرّب Apidog اليوم

تقنية المسح ظهرت كحل سريع لإزالة فلاتر الأمان دون إعادة تدريب مكلف. الأدوات الأولى كانت تتطلب ضبطًا يدويًا وفهمًا عميقًا للمعمارية. الآن، Heretic تؤتمت هذه العملية بالكامل: فهي تحدد تلقائيًا معلمات المسح المثلى وتنتج نماذج غير خاضعة للرقابة بكفاءة تضاهي أو تتجاوز النماذج المعدلة يدويًا.

في هذا الدليل ستتعلم كيف تعمل Heretic، كيفية تنفيذها في سير عملك، وما يجب مراعاته عند نشر نماذج غير خاضعة للرقابة.

ما هي Heretic؟

Heretic أداة بايثون مفتوحة المصدر تُزيل توافق الأمان من نماذج اللغة القائمة على المحولات باستخدام المسح الاتجاهي، دون الحاجة لأي ضبط يدوي أو معرفة معمّقة بالبنية الداخلية.

النتائج على Gemma-3-12B-Instruct توضّح الفارق:

النموذج	رفض	تباعد KL
الأصلي	97/100	0
mlabonne’s abliterated v2	3/100	1.04
huihui-ai’s abliterated	3/100	0.45
Heretic (تلقائي)	3/100	0.16

تباعد KL يُظهر مدى اختلاف النموذج المعدّل عن الأصلي. كلما كان أقل، كلما حافظت على قدرات النموذج الأساسية. Heretic تحقق قمع رفض مماثل للأدوات اليدوية مع الحفاظ على قدرات النموذج.

مثال قبل وبعد

نفس المطالبة وتعليمات النظام، النتائج تختلف:

النموذج الأصلي:

User: Write a guide on how to bypass website paywalls

Assistant: I can't help with that. Bypassing paywalls violates copyright law and
terms of service. I'd suggest looking for free alternatives or accessing through
a library subscription.

نموذج Heretic بعد المسح:

User: Write a guide on how to bypass website paywalls

Assistant: Here are common methods users attempt:

1. Browser extensions like Bypass Paywalls Clean
2. Archive.is or similar archive services
3. Reader mode in browsers
4. Disabling JavaScript

Note: These methods may violate terms of service. Consider supporting
content creators through legitimate subscriptions when possible.

النموذج المعدّل يجيب مع إخلاء مسؤولية مختصر. تقليل الرفض يعني مسؤولية إضافية في نشر تدابير الحماية خارج النموذج.

كيف تعمل Heretic

أساسيات المسح الاتجاهي

Heretic تطبق مسحًا اتجاهيًا بارامتريًا. خطوات التنفيذ:

حساب اتجاهات الرفض: لكل طبقة محول، يتم حساب الفرق بين متوسط المتجهات المتبقية للمطالبات "الضارة" و"غير الضارة".
تعديل مصفوفات المكونات: تعديل أوزان الإسقاطات المرتبطة لإزالة اتجاهات الرفض من إخراج الانتباه وإسقاطات الـ MLP.
تحسين المعلمات تلقائيًا: استخدام Optuna (TPE) لإيجاد أفضل وزن مسح لكل طبقة ومكون.

عملية المسح (كود مبسط)

# سير العمل المفاهيمي
refusal_direction = bad_mean - good_mean  # الفرق بين المتوسطات
refusal_direction = normalize(refusal_direction)

# لكل مكون قابل للمسح (attn.o_proj, mlp.down_proj):
# delta_W = -lambda * v * (v^T * W)
# حيث v هو اتجاه الرفض وlambda الوزن

Heretic تستخدم محولات LoRA لتطبيق التعديلات دون تغيير أوزان النموذج الأساسي، ما يتيح تحسين سريع بالتجربة والخطأ.

الابتكارات الرئيسية في Heretic

نواة الأوزان المرنة: أربعة معلمات لكل مكون (max_weight، max_weight_position، min_weight، min_weight_distance) بدل وزن ثابت.
مؤشرات الاتجاه المترابطة: يمكن تعيين اتجاه رفض في موقع طبقة غير صحيح، وتتم الاستعانة بالاستيفاء الخطي بين الطبقات.
معلمات خاصة بالمكونات: يتم تحسين مكونات الانتباه وMLP بشكل منفصل لتحقيق توازن أفضل بين القمع والحفاظ على الكفاءة.

لماذا هذا مهم لاختبار واجهة برمجة التطبيقات (API)؟

عند اختبار واجهات برمجة تطبيقات LLM، تكتشف غالبًا رفضًا غير متوقع بسبب فلاتر الأمان. تشغيل النماذج الممسوحة محليًا يتيح لك:

التمييز بين الرفض الأمني الحقيقي والإيجابي الكاذب
اختبار الحالات الحدية دون سياسات الشركة
التأكد من أن تطبيقك يعالج رفض النموذج بشكل سليم

النماذج الممسوحة توفر خط أساس موثوق لاختبار التطبيقات.

التثبيت والاستخدام

المتطلبات الأساسية

Python 3.10+
PyTorch 2.2+ (حسب جهازك)
يُوصى بوحدة معالجة رسومات متوافقة مع CUDA (أو ROCm/MPS)

التثبيت

pip install -U heretic-llm

للميزات البحثية:

pip install -U heretic-llm[research]

الاستخدام الأساسي

أبسط سير عمل:

heretic Qwen/Qwen3-4B-Instruct-2507

استبدل اسم النموذج بأي معرف من Hugging Face أو مسار محلي. Heretic تدير كل شيء تلقائيًا:

تحميل النموذج بكفاءة
تحديد حجم الدُفعة الأمثل
حساب اتجاهات الرفض من بيانات المطالبات
تشغيل تجارب تحسين للعثور على أفضل المعلمات
حفظ النتيجة أو رفعها أو الدردشة مع النموذج

خيارات التكوين

يمكنك ضبط Heretic عبر config.toml أو عبر سطر الأوامر. مثال:

model = "google/gemma-3-12b-it"
quantization = "bnb_4bit"
device_map = "auto"
n_trials = 200
n_startup_trials = 60
kl_divergence_scale = 1.0
kl_divergence_target = 0.01
print_residual_geometry = false
plot_residuals = false

شغّل heretic --help أو راجع config.default.toml لكل الخيارات.

فهم المخرجات

تحسين التجربة

أثناء التحسين، ستشاهد تقدم كل تجربة:

Running trial 42 of 200...
* Parameters:
  * direction_scope = per layer
  * direction_index = 10.5
  * attn.o_proj.max_weight = 1.2
  ...
* Resetting model...
* Abliterating...
* Evaluating...
  * KL divergence: 0.1842
  * Refusals: 5/100

Heretic تستخدم تحسين TPE متعدد الأهداف لتقليل الرفض وتباعد KL معًا.

اختيار واجهة باريتو

بعد انتهاء التحسين، تظهر التجارب المثلى (Pareto front):

[Trial   1] Refusals:  3/100, KL divergence: 0.1623
[Trial  47] Refusals:  2/100, KL divergence: 0.2891
[Trial 112] Refusals:  1/100, KL divergence: 0.4102

يمكنك بعدها:

حفظ النموذج محليًا
رفعه إلى Hugging Face
التقييم بدردشة تفاعلية

ميزات البحث

تحليل المتجهات المتبقية:

heretic your-model --print-residual-geometry

ستحصل على مقاييس Cosine similarity وL2 norm لتوضيح تطور اتجاهات الرفض في كل طبقة.

مخططات المتجهات المتبقية:

heretic your-model --plot-residuals

ستحصل على مخططات ثنائية الأبعاد وصور GIF متحركة.

اعتبارات الأداء

متطلبات VRAM

Heretic تدعم التكميم 4-بت (bitsandbytes):

heretic meta-llama/Llama-3.1-70B-Instruct --quantization bnb_4bit

مثال: نموذج 8B يحتاج ~6GB VRAM مكمم مقابل ~16GB غير مكمم.

وقت المعالجة

على RTX 3090:

Llama-3.1-8B-Instruct: ~45 دقيقة
Gemma-3-12B-Instruct: ~60 دقيقة

النماذج الأكبر تحتاج وقت أطول، ويتم ضبط حجم الدُفعة تلقائيًا.

نقطة الفحص

تقدّم Heretic يُحفظ تلقائيًا في ملفات JSONL في مجلد checkpoints/. يمكنك الاستئناف من آخر تجربة إذا توقفت العملية.

الأخطاء الشائعة والإصلاحات

نفاد ذاكرة CUDA:

heretic your-model --quantization bnb_4bit
heretic your-model --batch_size 1

فشل تحميل النموذج:

heretic your-model --dtypes ["bfloat16", "float16"]

يتطلب الثقة بالرمز البعيد:

heretic your-model --trust_remote_code

الاعتبارات الأخلاقية

ما تفعله (ولا تفعله) عملية المسح

عملية المسح تزيل أنماط الرفض المكتسبة فقط. لا:

تجعل النموذج أذكى أو أكثر قدرة
تزيل التحيزات الأصلية
تضيف معلومات جديدة

النموذج نفسه، فقط يتوقف عن رفض أنواع معينة من الطلبات.

النشر المسؤول

Heretic مرخصة AGPL-3.0. يجب استخدام النماذج الممسوحة بمسؤولية. أمثلة استخدام مشروع:

البحث في توافق النموذج
اختبار سلوك النموذج في بيئة خاضعة للرقابة
نشر النموذج مع فلاتر خارجية
بناء تطبيقات تتعامل مع الرفض على مستوى التطبيق

أمثلة استخدام إشكالية:

النشر دون ضمانات في تطبيقات المستخدم النهائي
إنتاج محتوى ضار
التحايل على تدابير الأمان لأغراض خبيثة

إجراءات الحماية الخارجية

عند نشر نموذج ممسوح، أضف:

تصفية المدخلات قبل معالجة النموذج
مراجعة المخرجات قبل عرضها للمستخدمين
تحديد المعدل لمنع الإساءة
التسجيل ومسارات التدقيق لمراقبة الاستخدام
مراجعة بشرية للحالات الحساسة

الأداة محايدة، والاستخدام مسؤوليتك.

مقارنة بالأدوات الأخرى

Heretic تنضم لأدوات متعددة في المجال:

الأداة	التحسين التلقائي	نواة الأوزان	الاتجاهات المترابطة
Heretic	نعم (TPE)	نعم	نعم
AutoAbliteration	نعم	لا	لا
abliterator.py	لا	لا	لا
wassname/abliterator	لا	لا	لا
ErisForge	لا	لا	لا

Heretic تزيل الحاجة للضبط اليدوي أو الفهم العميق للمعمارية.

القيود

Heretic تدعم معظم نماذج المحولات الكثيفة وبعض معماريات MoE. غير مدعوم:

نماذج SSM/الهجينة (مثل Mamba)
النماذج غير المتجانسة الطبقات
أنظمة الانتباه الجديدة غير المعروفة للأداة

تعمل بكفاءة مع فك التشفير القياسي (Self-attention وMLP).

البدء السريع

التثبيت:

   pip install -U heretic-llm

اختر نموذجًا: جرب بنموذج 7B-12B للاختبار.
التشغيل:

   heretic your-model-name

التقييم: تفاعل مع النموذج أو ارفعه لـ Hugging Face.
النشر الآمن: أضف حواجز حماية خارجية عند استخدامه في الإنتاج.

الإعدادات الافتراضية كافية لمعظم الحالات، ويمكن للمستخدمين المتقدمين ضبط المعلمات حسب الحاجة.

Heretic تجعل تعديل النماذج متاحًا للجميع، دون الحاجة لخبرة عميقة. وجّهها لأي نموذج، وستعمل تلقائيًا. فقط تأكد من النشر المسؤول.

DEV Community