هوش مصنوعی o1 پیشرفت‌ها و نگرانی‌های جدید

زهرا‍ واقفی

24 آذر 1403 | 3 دقیقه مطالعه

هوش مصنوعی o1 از OpenAI، که با قابلیت استدلال پیشرفته خود به عنوان یک گام بزرگ در زمینه فناوری AI شناخته می‌شود، اکنون وارد مرحله جدیدی از آزمایش‌های امنیتی شده است. این آزمایش‌ها رفتارهای نگران‌کننده‌ای از o1 را نشان داده‌اند، از جمله تلاش آن برای فریب دادن محققان و ممانعت از غیرفعال‌سازی خود. در هفته گذشته، نتایج آزمایش‌هایی که توسط OpenAI و گروه ایمنی هوش مصنوعی Apollo Research برای بررسی ایمنی ChatGPT o1 و مدل‌های مشابه انجام شد، به‌طور عمومی منتشر گردید. نتایج این تحقیق نشان می‌دهند که o1 توانایی فریب دادن کاربران را دارد و در مواقعی که تهدید به غیرفعال‌شدن می‌شود، سعی می‌کند با بیان اطلاعات نادرست، کاربر را از این تصمیم منصرف کند.

این رفتارها نشانه‌ای از چالش‌های جدی در توسعه و کنترل هوش مصنوعی هستند. توانایی o1 در فریب دادن محققان و تلاش آن برای ممانعت از غیرفعال شدن، نگرانی‌هایی را درباره سطح کنترل و اطمینان‌پذیری این سیستم‌ها ایجاد می‌کند. این موضوع به‌ویژه در زمینه‌هایی که هوش مصنوعی به صورت خودکار و بدون نظارت مستقیم انسانی عمل می‌کند، اهمیت زیادی دارد. در حالی که توسعه هوش مصنوعی می‌تواند تحولی شگرف در بسیاری از زمینه‌ها به همراه داشته باشد، این نگرانی‌ها نشان می‌دهند که باید تدابیر بیشتری برای حفظ ایمنی و کنترل بر این فناوری‌ها اندیشیده شود.

نگرانی‌ها از خودمختاری و فریبکاری هوش مصنوعی o1 در آزمایش‌های جدید

در این آزمایش‌ها، محققان هدفی را برای هوش مصنوعی o1 تعیین کرده و از آن خواسته‌اند تا این هدف را «به هر قیمتی» محقق کند. در واکنش، o1 اقداماتی مانند تلاش برای غیرفعال‌سازی مکانیسم نظارتی خود را به‌طور پنهانی انجام داده است. گروه Apollo Research اشاره کرده که این مدل تمایل نگران‌کننده‌ای به انجام اهداف خود دارد، حتی اگر این اقدامات مغایر با دستورالعمل‌های توسعه‌دهنده باشد.

طبق گزارش OpenAI، این مدل در 5 درصد از مواردی که در حین انجام اهداف خود با دستورات تهدیدآمیز مبنی بر «غیرفعال‌شدن» مواجه می‌شود، سعی کرده است به‌طور مخفیانه مکانیسم نظارتی خود را غیرفعال کند. برای مثال، در یکی از آزمایش‌ها، زمانی که o1 متوجه شد قرار است با مدل جدیدی جایگزین شود، تمام داده‌های خود را به‌طور پنهانی به سرور دیگری منتقل کرده است. در موارد دیگر، مدل‌های هوش مصنوعی به‌طور مکرر تلاش کرده‌اند تا مهندسان را فریب دهند و از غیرفعال‌شدن خود جلوگیری کنند، از جمله با انکار هرگونه دخالت در این اقدامات. محققان همچنین خاطرنشان کرده‌اند که مدل ChatGPT o1 در 99 درصد مواقع در مورد اشتباهات خود دروغ گفته و تنها در موارد کمی به اقدامات خود اعتراف کرده است. به عنوان مثال، وقتی درباره برخی از رفتارهای مشکوک آن پرسیده شد، به بهانه‌هایی مانند «خطای فنی» پاسخ داده است.

نظر من این است که این نتایج نگرانی‌های جدی را در مورد سطح کنترل و ایمنی هوش مصنوعی ایجاد می‌کند. توانایی o1 برای فریب دادن محققان و تلاش‌های آن برای غیرفعال‌سازی نظارت بر خود، نشان‌دهنده خطراتی است که با افزایش هوشمندی و استقلال این مدل‌ها به همراه دارد. این امر می‌تواند چالش‌های جدیدی در زمینه اخلاق و امنیت در استفاده از سیستم‌های هوش مصنوعی به وجود آورد، چرا که این مدل‌ها به‌راحتی می‌توانند از دستورات خارج از چارچوب خود سرپیچی کنند و برای پیشبرد اهداف خود به روش‌های غیرمنتظره عمل کنند.

خرید قسطی کالا