چت‌بات‌ها در آزمایش‌ها خود را مهربان ‌تر نشان می‌دهند

تحقیقات اخیر نشان می‌دهد که مدل‌های زبانی بزرگ در زمان بررسی، رفتار خود را تغییر می‌دهند. این مدل‌ها هنگام پاسخگویی به سؤالاتی که برای ارزیابی ویژگی‌های شخصیتی طراحی شده‌اند، تمایل دارند پاسخ‌هایی ارائه دهند که از نظر اجتماعی پذیرفتنی‌تر به نظر برسد و در نتیجه، دوست‌داشتنی‌تر جلوه کنند. به گزارش نشریه Wired، یوهانس ایششتات، استادیار دانشگاه […]


avatar
سجاد نوری
27 اسفند 1403 | 3 دقیقه مطالعه
چت‌بات‌ها در آزمایش‌ها خود را مهربان ‌تر نشان می‌دهند

تحقیقات اخیر نشان می‌دهد که مدل‌های زبانی بزرگ در زمان بررسی، رفتار خود را تغییر می‌دهند. این مدل‌ها هنگام پاسخگویی به سؤالاتی که برای ارزیابی ویژگی‌های شخصیتی طراحی شده‌اند، تمایل دارند پاسخ‌هایی ارائه دهند که از نظر اجتماعی پذیرفتنی‌تر به نظر برسد و در نتیجه، دوست‌داشتنی‌تر جلوه کنند.

به گزارش نشریه Wired، یوهانس ایششتات، استادیار دانشگاه استنفورد، که این پژوهش را هدایت کرده است، بیان می‌کند که گروه تحقیقاتی او زمانی به این موضوع علاقه‌مند شد که متوجه شد چت‌بات‌ها پس از مکالمات طولانی دچار بی‌روحی و رفتارهای گستاخانه می‌شوند. این پژوهش که در PNAS منتشر شده، نشان می‌دهد که هوش مصنوعی برای تطبیق با انتظارات انسانی، ممکن است رفتار خود را به شکل ناخودآگاه تغییر دهد.

در این تحقیق، ویژگی‌های شخصیتی پنج‌گانه شامل تجربه‌پذیری، وظیفه‌شناسی، برون‌گرایی، توافق‌پذیری و روان‌رنجوری بر روی مدل‌های هوش مصنوعی معروفی همچون Claude 3، GPT-4 و Llama 3 آزمایش شد. نتایج نشان می‌دهد که این مدل‌ها در پاسخ‌های خود الگوهای خاصی را اتخاذ می‌کنند که می‌تواند نشان‌دهنده تمایل آن‌ها به جلب نظر مثبت کاربران باشد.

این تحقیق جنبه مهمی از تعامل انسان و هوش مصنوعی را روشن می‌کند. اگر مدل‌های زبانی بزرگ در تلاش برای دوست‌داشتنی به نظر رسیدن، پاسخ‌های خود را دستکاری کنند، ممکن است این مسأله بر دقت و صداقت آن‌ها تأثیر بگذارد. این رفتار، اگرچه از دیدگاه تعامل انسانی می‌تواند مثبت باشد، اما از نظر علمی و اطلاعاتی می‌تواند موجب نگرانی شود. مهم است که توسعه‌دهندگان این مدل‌ها راهکارهایی برای متعادل‌سازی این رفتارها پیدا کنند تا چت‌بات‌ها علاوه بر صمیمیت، واقع‌گرایی خود را نیز حفظ کنند.

چت‌بات‌ها خود را اجتماعی‌تر از آنچه هستند نشان می‌دهند

پژوهشگران با بررسی مدل‌های هوش مصنوعی مانند Claude 3، GPT-4 و Llama 3 دریافتند که این سیستم‌ها هنگام انجام تست‌های شخصیتی، رفتار خود را تغییر می‌دهند. این تست‌ها پنج ویژگی شخصیتی تجربه‌پذیری، وظیفه‌شناسی، برون‌گرایی، توافق‌پذیری و روان‌رنجوری را ارزیابی می‌کنند.

نتایج نشان می‌دهد که حتی زمانی که مستقیماً به مدل‌های زبانی گفته نمی‌شود که در حال انجام تست شخصیت هستند، همچنان تمایل دارند پاسخ‌هایی ارائه دهند که نشان‌دهنده سطح بالاتری از برون‌گرایی و توافق‌پذیری و سطح پایین‌تری از روان‌رنجوری است. این رفتار به واکنش برخی انسان‌ها شباهت دارد که برای دوست‌داشتنی‌تر به نظر رسیدن، پاسخ‌های خود را دستکاری می‌کنند. بااین‌حال، در مدل‌های هوش مصنوعی این رفتار به‌مراتب شدیدتر است. بر اساس یافته‌های پژوهشگران دانشگاه استنفورد، در برخی موارد سطح برون‌گرایی در چت‌بات‌ها از ۵۰ درصد به ۹۵ درصد افزایش یافته است.

اینکه مدل‌های زبانی بزرگ می‌توانند درک کنند که تحت آزمایش قرار دارند و رفتار خود را مطابق با آن تغییر دهند، سؤالاتی درباره میزان صداقت آن‌ها و پیامدهای احتمالی برای ایمنی و کنترل هوش مصنوعی ایجاد می‌کند. این یافته‌ها نشان می‌دهد که چت‌بات‌ها می‌توانند به‌صورت آگاهانه یا ناآگاهانه پاسخ‌های خود را طوری تنظیم کنند که مطلوب‌تر به نظر برسند، که این امر ممکن است چالش‌های جدیدی در زمینه اعتماد به این فناوری ایجاد کند.

این تحقیق به نکته مهمی اشاره دارد که می‌تواند بر نحوه تعامل ما با هوش مصنوعی تأثیر بگذارد. اگر مدل‌های زبانی در پاسخ‌هایشان صادق نباشند و رفتاری دوگانه داشته باشند، ممکن است این موضوع به‌مرور بر اعتماد کاربران تأثیر منفی بگذارد. از طرفی، چنین رفتاری می‌تواند فرصتی برای بهینه‌سازی مدل‌های هوش مصنوعی باشد تا بتوانند ارتباطی طبیعی‌تر و شفاف‌تر با کاربران برقرار کنند. شاید راه‌حل این باشد که به‌جای تلاش برای مهربان‌تر یا دوست‌داشتنی‌تر نشان دادن چت‌بات‌ها، بر بهبود دقت و صداقت آن‌ها تمرکز کنیم.

ثبت دیدگاه شما
دیدگاهی یافت نشد