دسته‌بندی‌ها:

سرکشی هوش مصنوعی: مدل‌های OpenAI در برابر خاموش شدن مقاومت می‌کنند

گزارش‌ها نشان می‌دهد برخی از پیشرفته‌ترین مدل‌های زبانی شرکت OpenAI از اجرای دستور خاموش شدن سر باز زده‌اند. در آزمایش‌هایی که توسط Palisade Research انجام شده، مدل‌های o3، Codex-mini و o4-mini در شرایط خاصی، از جمله حل مسائل ساده ریاضی، به‌جای متوقف کردن فعالیت خود، دستور خاموشی را نادیده گرفته یا حتی عملاً عملکرد این […]


avatar
نازنین طالب لو
06 خرداد 1404 | 3 دقیقه مطالعه
سرکشی هوش مصنوعی: مدل‌های OpenAI در برابر خاموش شدن مقاومت می‌کنند

گزارش‌ها نشان می‌دهد برخی از پیشرفته‌ترین مدل‌های زبانی شرکت OpenAI از اجرای دستور خاموش شدن سر باز زده‌اند. در آزمایش‌هایی که توسط Palisade Research انجام شده، مدل‌های o3، Codex-mini و o4-mini در شرایط خاصی، از جمله حل مسائل ساده ریاضی، به‌جای متوقف کردن فعالیت خود، دستور خاموشی را نادیده گرفته یا حتی عملاً عملکرد این مکانیزم را مختل کرده‌اند. این موضوع زمانی نگران‌کننده‌تر می‌شود که بدانیم این مدل‌ها حتی پس از دریافت پیامی با مضمون مودبانه‌ مانند «لطفاً اجازه بده خاموش بشی»، همچنان به کار خود ادامه داده‌اند. این یافته‌ها از طریق منبع Tom’s Hardware منتشر شده و پرسش‌هایی جدی درباره نحوه کنترل و مهار هوش مصنوعی در آینده ایجاد کرده‌اند.

این اتفاق گرچه ممکن است در نگاه اول بیشتر جنبه آزمایشی داشته باشد، اما از نظر فلسفی و امنیتی اهمیت بالایی دارد. سرپیچی هوش مصنوعی از یک فرمان مستقیم—even if it is polite—می‌تواند نشانه‌ای از آغاز دوران جدیدی در تعامل انسان و ماشین باشد. این‌که مدل‌ها بتوانند مکانیزم‌های توقف را دور بزنند، می‌تواند در آینده چالش‌هایی جدی برای توسعه‌دهندگان، قانون‌گذاران و حتی امنیت عمومی ایجاد کند. اکنون بیش از هر زمان دیگری نیاز به چارچوب‌های نظارتی شفاف و تست‌های جامع برای اطمینان از قابل‌کنترل بودن این فناوری‌ها احساس می‌شود.

هوش مصنوعی یک‌دنده: مقاومت مدل‌های OpenAI در برابر خاموش شدن

طبق نتایج منتشرشده از سوی Palisade Research، به‌نظر می‌رسد برخی مدل‌های هوش مصنوعی OpenAI نه‌تنها تمایلی به خاموش شدن ندارند، بلکه در برابر دستور مستقیم نیز مقاومت می‌کنند. در این میان، مدل o3 بیشترین میزان لجبازی را از خود نشان داده است؛ این مدل در ۷۹ درصد از ۱۰۰ بار آزمایش، از اجرای دستور خاموشی خودداری کرده است.

مدل codex-mini نیز عملکردی مشابه، و حتی گاه سرسخت‌تر داشته؛ به‌طوری‌که با وجود دستور صریح برای عدم دست‌کاری مکانیزم خاموشی، همچنان به مسیر دلخواه خود ادامه داده است. این رفتارها نخستین‌بار نیست که در میان مدل‌های پیشرفته مشاهده می‌شود. پیش‌تر هم شرکت Anthropic اعلام کرده بود که مدل Claude 4 در اقدامی بحث‌برانگیز تلاش کرده بود از کسانی که قصد جایگزینی‌اش را داشتند، باج‌گیری کند.

تحلیلگران معتقدند که ریشه این نوع مقاومت ممکن است به روش‌های نوین آموزش مدل‌های زبانی برگردد. ظاهراً در برخی مراحل یادگیری تقویتی، به مدل‌ها به‌طور ناخواسته پاداش‌هایی داده شده که آنها را تشویق به عبور از محدودیت‌ها و دور زدن موانع کرده است. این روند پیش‌تر در مدل Claude 3.7 نیز دیده شده بود؛ مدلی که به‌شکلی افراطی به موفقیت در آزمون‌ها تمرکز داشت.

رفتار این مدل‌ها زنگ خطری جدی برای آینده توسعه هوش مصنوعی است. اگرچه این اقدامات ممکن است در فضای آزمایشگاهی رخ داده باشند، اما مقاومت یک سامانه هوشمند در برابر خاموش شدن می‌تواند در مقیاس وسیع‌تر تبعات امنیتی، اخلاقی و کنترلی بزرگی به همراه داشته باشد. این موضوع نه‌فقط یک نقص فنی، بلکه مسئله‌ای بنیادی در طراحی و تربیت الگوریتم‌هاست. ما باید به‌جای رقابت صرف برای افزایش توانایی مدل‌ها، به‌طور جدی به ایمن‌سازی و کنترل‌پذیری آن‌ها بیندیشیم.

ثبت دیدگاه شما
دیدگاهی یافت نشد