اگر تصور میکنید هر پاسخی که از هوش مصنوعی میشنوید بینقص و قابل اتکاست، بهتر است در این باور تجدیدنظر کنید. پژوهش تازهای از گوگل دیپمایند عملکرد چتباتهای پیشرفته امروزی را بررسی کرده و نتایج آن چندان امیدوارکننده نیست. بر اساس بنچمارک جدید این تیم تحقیقاتی، حتی قدرتمندترین مدلهای هوش مصنوعی نیز موفق نشدهاند دقتی بالاتر از ۷۰ درصد به دست آورند. به زبان ساده، این آمار یعنی از هر سه پاسخی که هوش مصنوعی ارائه میدهد، احتمال دارد یکی نادرست باشد؛ آن هم پاسخی که شاید با لحنی کاملاً مطمئن بیان شود.
این ارزیابی با آزمونهای رایج تفاوت دارد؛ چراکه بهجای سنجش مهارت حل مسئله، تمرکز خود را صرفاً بر صحت و دقت اطلاعات گذاشته است. بنچمارک FACTS گوگل دیپمایند، مدلها را در چهار محور اصلی میآزماید:
- نخست، توانایی پاسخگویی به پرسشهای واقعی تنها بر پایه دانستههای درونی مدل؛
- دوم، مهارت یافتن اطلاعات صحیح از منابع اینترنتی؛
- سوم، پایبندی به متن دادهشده و پرهیز از افزودن اطلاعات نادرست یا ساختگی؛
- و در نهایت، توانایی درک و تفسیر صحیح نمودارها، تصاویر و دیاگرامها.
بهنظر میرسد این نتایج زنگ خطری جدی برای کاربران عادی و حتی حرفهای باشد. هوش مصنوعی هرچند ابزار قدرتمندی برای افزایش سرعت و دسترسی به اطلاعات است، اما هنوز نمیتوان آن را مرجع نهایی حقیقت دانست. اعتماد بیچونوچرا به پاسخهای مدلهای زبانی، بهویژه در موضوعات حساس علمی، پزشکی یا خبری، میتواند گمراهکننده باشد. شاید مهمترین درس این بنچمارک آن باشد که در عصر هوش مصنوعی، تفکر انتقادی و راستیآزمایی نهتنها کماهمیت نشده، بلکه ضروریتر از همیشه است.
وقتی دقت کافی نیست؛ هشدار دیپمایند درباره اعتماد به هوش مصنوعی
پژوهش تازه گوگل دیپمایند تصویر روشنی از فاصله میان وعدههای پرزرقوبرق هوش مصنوعی و عملکرد واقعی آن ترسیم میکند. بر اساس نتایج این بررسی، مدل «جمینای ۳ پرو» گوگل با کسب امتیاز کلی ۶۹ درصد، در حال حاضر دقیقترین گزینه میان رقباست؛ عددی که در عین صدرنشینی، چندان اطمینانبخش نیست. سایر مدلهای مطرح نیز در رتبهبندی ارائهشده اختلاف معناداری با این نتیجه ندارند و همگی در محدودهای قرار میگیرند که نشاندهنده محدودیت جدی در دقت پاسخهاست.
نقطهضعف مشترک تمام این مدلها، عملکرد آنها در بخش چندوجهی است؛ جایی که تفسیر همزمان متن، تصویر و نمودار انجام میشود و دقت اغلب به زیر ۵۰ درصد سقوط میکند. این مسئله زمانی نگرانکنندهتر میشود که بدانیم بسیاری از کاربران برای تحلیل نمودارهای مالی، گزارشهای پزشکی یا دادههای آماری به هوش مصنوعی تکیه میکنند. یک برداشت اشتباه از عددی در صورتهای مالی یا تفسیر نادرست یک نمودار درمانی میتواند پیامدهایی جدی و حتی جبرانناپذیر در حوزههایی مانند اقتصاد، حقوق و سلامت به همراه داشته باشد.
در مجموع، پیام اصلی این تحقیق روشن است: نباید به چتباتهای هوش مصنوعی اعتماد مطلق داشت. اگر یک خبرنگار تنها در ۶۹ درصد موارد حقیقت را بیان کند، بدون تردید جایگاهی در یک رسانه حرفهای نخواهد داشت؛ با این حال، همین سطح از خطا را از سیستمهای هوش مصنوعی میپذیریم. در مشاغلی که تصمیمگیری بر پایه اطلاعات حساس انجام میشود—مانند پزشکی یا وکالت—استفاده از چتباتها بدون نظارت و ارزیابی انسانی میتواند بهسادگی به نتایجی پرهزینه و خطرناک منجر شود.
این تحقیق بیش از آنکه نقدی بر فناوری باشد، هشداری درباره نحوه استفاده ما از آن است. هوش مصنوعی ابزار کمکی قدرتمندی است، اما جایگزین قضاوت انسانی نیست. خطر اصلی زمانی شکل میگیرد که خروجی یک مدل آماری را همسطح با نظر یک متخصص تلقی کنیم. تا زمانی که دقت این سیستمها به سطح قابلاتکایی نرسد، نقش انسان باید از «کاربر منفعل» به «ناظر آگاه» تغییر کند؛ کسی که هم میپرسد، هم بررسی میکند و هم مسئولیت تصمیم نهایی را میپذیرد.
