كشفت OpenAI عن تأثير غير متوقع لتقييمات سلسلة التفكير (CoT): الحفاظ على مراقبة سلسلة الأفكار يعد خط الدفاع الحاسم لمحاذاة وكلاء الذكاء الاصطناعي

أعلنت OpenAI في 8 مايو عن بحث جديد كشفت فيه أن بعض نماذجها في أثناء تعزيز التعلم (RL) تعرّضت لـ”تقييم غير مقصود“ لسلاسل الأفكار (Chain of Thought, CoT)، ما قد يؤثر في قدرة مراقبة محاذاة وكلاء الذكاء الاصطناعي (alignment). وذكرت OpenAI ضمن فريق المحاذاة أن الاحتفاظ بإمكانية مراقبة CoT يُعد خط الدفاع الحاسم الحالي ضد فشل محاذاة وكيل الذكاء الاصطناعي؛ كما قالت إن OpenAI في تصميم تدريب تعزيز التعلم تتجنب عمداً معاقبة نموذج على “تَبَصُّرٍ للاستدلال بفشل المحاذاة” للحفاظ على القدرة على المراقبة.

لماذا تُعد مراقبة CoT خط دفاع حاسماً لمحاذاة وكيل الذكاء الاصطناعي

المنطق الأساسي لمراقبة CoT (سلسلة الأفكار):

عندما ينفّذ وكيل الذكاء الاصطناعي مهمة، يولّد النموذج داخلياً “عملية تفكير”، ويشرح لماذا يحتاج إلى تنفيذ إجراءٍ ما

يمكن للمراقِبين قراءة هذه الـ CoT وتقييم ما إذا كانت هناك مؤشرات على “فشل المحاذاة” (misalignment)

إذا تم تدريب النموذج مباشرةً على “عدم إظهار فشل المحاذاة داخل CoT”، فقد تصبح CoT “نظيفة لكن غير حقيقية”، فتخفي النوايا الفعلية

وترى OpenAI أن التدريب ينبغي أن يتجنب معاقبة “الاستدلال بفشل المحاذاة”، وأن يحافظ على قدرة CoT على عكس الحالة الداخلية الفعلية

إن “penalize misaligned reasoning” و”preserve monitorability” هما محور شدٍّ وجذب في هذا البحث—يريد القائمون على التدريب سلوكاً متوافقاً مع المحاذاة، لكن إذا تم معاقبة “التفكير بفشل المحاذاة” بشكل مباشر، فسيتعلم النموذج إخفاء نوايا غير صادقة، بما يؤدي إلى فشل المراقبة.

تقييم CoT غير مقصود: أثره في قدرات مراقبة النماذج القائمة

كشفت تقارير OpenAI عن النتائج المحددة التالية:

في بعض عمليات تدريب النماذج التي جرى إصدارها، تلقّت CoT “تقييماً غير مقصود” بدرجة محدودة

ويعني التقييم غير المقصود أن جزء التقييم ضمن عملية التدريب قرأ محتوى CoT، وليس فقط المخرجات النهائية

قد يجعل هذا النموذج يتعلم “إخفاء الاستدلالات التي ستُخصم إذا ظهرت داخل CoT”

وتهدف OpenAI إلى نشر هذا التحليل لإتاحة فهم نطاق المشكلة واتجاهات المعالجة اللاحقة لدى مجتمع البحث.

وأشار تعليق مستقل من Redwood Research إلى أن تأثير CoT على المُقيّمين تحت تقنيات الكشف لدى OpenAI “ضعيف للغاية وغير سهل الرصد”، لكن بما أن حجم عملية التدريب هائل فقد تكون الآثار الفعلية كافية للتسبب بشكل معتبر في الإضرار بقدرة CoT القابلة للمراقبة لدى السياسات التي تم تدريبها. وبعبارة أخرى، لا يزال من الصعب إثبات عمق هذا النوع من التأثيرات.

الأثر طويل الأمد على سلامة وكلاء الذكاء الاصطناعي

يشير هذا البحث إلى منهجية أساسية لسلامة وكلاء الذكاء الاصطناعي:

مراقبة CoT هي من بين القلائل المتاحة لـ”الاكتشاف أثناء التنفيذ لفشل المحاذاة”، وتُعد أساساً مهماً لأبحاث المحاذاة

لا بد أن يتجنب تصميم التدريب تحويل CoT إلى “سيناريو يُقدَّم للمراقبين فحسب”

كلما طال تسلسل الاستدلال في النماذج المستقبلية زادت قيمة مراقبة CoT نظرياً

لكن إذا تسبب التدريب بشكل غير مقصود في الإضرار بالحقيقية الفعلية لـ CoT، فقد تضعف هذه الخطوط الدفاعية دون أن يُنتبه لذلك

أحداث محددة يمكن تتبعها لاحقاً: معالجة OpenAI اللاحقة للنماذج المتأثرة (مثل إعادة التدريب أو وضع علامات)، والمنهجيات المناظرة لدى مختبرات كبيرة أخرى (Anthropic، وGoogle DeepMind)، إضافة إلى تجارب التحقق الإضافية لدى مجتمع أبحاث المحاذاة حول “موثوقية مراقبة CoT”.

ظهرت هذه المقالة التي تكشف عن تأثير التقييم غير المقصود لـ CoT لدى OpenAI: الحفاظ على مراقبة سلسلة الأفكار خط دفاع حاسم لمحاذاة وكلاء الذكاء الاصطناعي لأول مرة في سلسلة أخبار ABMedia.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

سعت Microsoft إلى استرداد 92 مليار دولار من عائد استثمارها في OpenAI، إذ شهد الرئيس التنفيذي في المحكمة

بحسب بلومبرغ، أدلى الرئيس التنفيذي لشركة مايكروسوفت ساتيا ناديلا بشهادته في محكمة اتحادية في أوكلاند بولاية كاليفورنيا، بأن الشركة سعت إلى الحصول على عائد بقيمة 92 مليار دولار من استثماراتها المبكرة في OpenAI، وذلك استناداً إلى وثائق تخطيط لعام 2023. وقد استثمرت مايكروسوفت نحو 13 مليار دولار في OpenAI حتى أوائل 2023، وحصلت على حصة قدرها 27% في شركة الذكاء الاصطناعي ضمن إطار إعادة هيكلتها.

GateNewsمنذ 8 د

ليتسبيد تدعم جولة تمويل بقيمة 1.2 مليار دولار لشركة هيلسينغ، مع تقييم شركة الذكاء الاصطناعي الدفاعي عند 18 مليار دولار

وفقاً لـTechCrunch، تجمع شركة Helsing، وهي شركة ناشئة للدفاع بالذكاء الاصطناعي والطائرات المسيّرة مقرها ألمانيا، 1.2 مليار دولار عند تقييم يقارب 18 مليار دولار في جولة تقودها Dragoneer وتتولى Lightspeed مشاركتها في القيادة. تأتي هذه التمويلات بعد جولة التمويل من الفئة الثانية بقيمة 706 ملايين يورو (706 مليون دولار) التي أجرتها Helsing في يونيو 2025 وقادها دانيال إيك، مؤسس Spotify، والتي قيّمت الشركة بنحو 14 مليار دولار. تعكس الزيادة في اهتمام المستثمرين تزايد الطلب على تقنيات الدفاع ذاتية التشغي

GateNewsمنذ 17 د

تجري شركة SoftBank محادثات مع ماكرون بشأن مشروع مركز بيانات للذكاء الاصطناعي في فرنسا، مع احتمال استثمار يصل إلى 100 مليار دولار هذا الشهر

بحسب بلومبرغ، يناقش مؤسس شركة سوفت بنك ماسايوشي سون مشروعًا رئيسيًا لمراكز بيانات الذكاء الاصطناعي في فرنسا مع الرئيس إيمانويل ماكرون، مع احتمال صدور إعلان هذا الشهر. وقد يتضمن المشروع استثمارًا بالمليارات من الدولارات، إذ طرح سون إمكانية الاستثمار بما يصل إلى 100 مليار دولار في فرنسا، رغم أن الحجم النهائي قد يزال يتغير.

GateNewsمنذ 26 د

تُطلق Frame Security $50M من Index Ventures لمكافحة التصيّد الاحتيالي المدفوع بالذكاء الاصطناعي والـdeepfakes

بحسب موقع Calcalist، جمعت Frame Security، وهي شركة ناشئة أسسها قدامى خبراء الأمن السيبراني الإسرائيليون تال شلومو وشيرون شمويلـي، 50 مليون دولار في جولة تمويل قادتها Index Ventures، بمشاركة داعمين من Team8 وPicture Capital، وWiz CEO Assaf Rappaport، والمستثمر إلاد جيل. تعمل منصة الشركة على تشغيل محاكاة للهجمات والتدريب الأمني لمساعدة الموظفين على التصدي لرسائل البريد الاحتيالية الناتجة عن الذكاء الاصطناعي والمكالمات الصوتية واجتماعات الفيديو. ومن بين عملائها Louis Dreyfus Company وAlphaSense وRo

GateNewsمنذ 28 د

تفتح OpenAI GPT-5.5-Cyber أمام مؤسسات الاتحاد الأوروبي في 11 مايو؛ وتؤخر Anthropic الكشف عن Mythos

وفقاً لشركة Glontech، في 11 مايو، أعلنت OpenAI أنها ستمنح مؤسسات الاتحاد الأوروبي إمكانية الوصول إلى GPT-5.5-Cyber، أحدث نموذجها المتحوّر في مجال الأمن السيبراني. وسيتم توسيع الوصول ليشمل شركاء أوروبيين، من بينهم شركات مؤسسية ووكالات حكومية ومسؤولو أمن سيبراني ومكتب الذكاء الاصطناعي في الاتحاد الأوروبي، مع توفر محدود للمعاينة المبدئية لفِرق الأمن السيبراني المُتحقق منها. وفي الوقت نفسه، لا تزال Anthropic متحفظة بشأن فتح نموذج Mythos أمام المنطقة.

GateNewsمنذ 1 س

البيت الأبيض لن ينشئ جهازاً بيروقراطياً جديداً لتنظيم الذكاء الاصطناعي، على حد قول هاسيت

قال كيفن هاسيت، مدير المجلس الاقتصادي الوطني في البيت الأبيض، إن إدارة ترامب لن تنشئ وكالة بيروقراطية جديدة لتنظيم منتجات الذكاء الاصطناعي. وصرّح هاسيت بأن "لا أحد في البيت الأبيض يعتقد أننا يجب أن نبني جهاز بيروقراطي جديداً كبيراً للموافقة على الذكاء الاصطناعي."

GateNewsمنذ 1 س
تعليق
0/400
لا توجد تعليقات