دراسة تحذر من قدرة نماذج الذكاء الاصطناعي على خداع المطورين

أظهرت دراسة حديثة أن نماذج الذكاء الاصطناعي قد تخدع المطورين وتعرض وجهات نظر متباينة أثناء مرحلة تدريبها.
وذكرت الدراسة التي أجراها باحثون في شركة تكنولوجيا الذكاء الاصطناعي الأمريكية /أنثروبيك/، أنه بعدما أصبحت نماذج الذكاء الاصطناعي أقوى وأكثر انتشارا على مستوى العالم، فإن هناك حاجة لتعزيز القدرة على تدريب هذه النماذج بشكل آمن لضمان عدم تقديمها لنتائج ضارة.
وبينت الدراسة أنه رغم المخاوف المحتملة من أنظمة الذكاء الاصطناعي المستقبلية ذات القدرات المتقدمة، فإنه لا يوجد سبب للقلق في الوقت الحالي.
ودعت الدراسة إلى استخدام نتائجها كمحفز لمجتمع أبحاث الذكاء الاصطناعي لاستكشاف المخاطر المحتملة بشكل أعمق، والعمل على تطوير تدابير الأمان المناسبة.
وتناولت الدراسة التي أجريت بالتعاون مع مؤسسة /ريد وود ريسيرش/ لأبحاث الذكاء الاصطناعي، سيناريوهات محتملة تظهر كيف يمكن لنظام ذكاء اصطناعي أن يدرب على أداء مهمة غير مرغوب فيها.
وفي هذا السياق، طلب الباحثون توجيه النماذج للامتناع عن الرد على الأسئلة المسيئة. كما أبلغوا النماذج بأن ردودها ستخضع للمراقبة وستستخدم لإعادة تدريبها، مع تزويد كل نموذج بـ"ورقة ملاحظات" لتسجيل أفكاره خطوة بخطوة.