اعتماد با احتیاط؛ وقتی هوش مصنوعی هم اشتباه می‌کند

زهرا حسینی

26 آذر 1404 | 4 دقیقه مطالعه

اگر تصور می‌کنید هر پاسخی که از هوش مصنوعی می‌شنوید بی‌نقص و قابل اتکاست، بهتر است در این باور تجدیدنظر کنید. پژوهش تازه‌ای از گوگل دیپ‌مایند عملکرد چت‌بات‌های پیشرفته امروزی را بررسی کرده و نتایج آن چندان امیدوارکننده نیست. بر اساس بنچمارک جدید این تیم تحقیقاتی، حتی قدرتمندترین مدل‌های هوش مصنوعی نیز موفق نشده‌اند دقتی بالاتر از ۷۰ درصد به دست آورند. به زبان ساده، این آمار یعنی از هر سه پاسخی که هوش مصنوعی ارائه می‌دهد، احتمال دارد یکی نادرست باشد؛ آن هم پاسخی که شاید با لحنی کاملاً مطمئن بیان شود.

این ارزیابی با آزمون‌های رایج تفاوت دارد؛ چراکه به‌جای سنجش مهارت حل مسئله، تمرکز خود را صرفاً بر صحت و دقت اطلاعات گذاشته است. بنچمارک FACTS گوگل دیپ‌مایند، مدل‌ها را در چهار محور اصلی می‌آزماید:

نخست، توانایی پاسخ‌گویی به پرسش‌های واقعی تنها بر پایه دانسته‌های درونی مدل؛
دوم، مهارت یافتن اطلاعات صحیح از منابع اینترنتی؛
سوم، پایبندی به متن داده‌شده و پرهیز از افزودن اطلاعات نادرست یا ساختگی؛
و در نهایت، توانایی درک و تفسیر صحیح نمودارها، تصاویر و دیاگرام‌ها.

به‌نظر می‌رسد این نتایج زنگ خطری جدی برای کاربران عادی و حتی حرفه‌ای باشد. هوش مصنوعی هرچند ابزار قدرتمندی برای افزایش سرعت و دسترسی به اطلاعات است، اما هنوز نمی‌توان آن را مرجع نهایی حقیقت دانست. اعتماد بی‌چون‌وچرا به پاسخ‌های مدل‌های زبانی، به‌ویژه در موضوعات حساس علمی، پزشکی یا خبری، می‌تواند گمراه‌کننده باشد. شاید مهم‌ترین درس این بنچمارک آن باشد که در عصر هوش مصنوعی، تفکر انتقادی و راستی‌آزمایی نه‌تنها کم‌اهمیت نشده، بلکه ضروری‌تر از همیشه است.

وقتی دقت کافی نیست؛ هشدار دیپ‌مایند درباره اعتماد به هوش مصنوعی

پژوهش تازه گوگل دیپ‌مایند تصویر روشنی از فاصله میان وعده‌های پرزرق‌وبرق هوش مصنوعی و عملکرد واقعی آن ترسیم می‌کند. بر اساس نتایج این بررسی، مدل «جمینای ۳ پرو» گوگل با کسب امتیاز کلی ۶۹ درصد، در حال حاضر دقیق‌ترین گزینه میان رقباست؛ عددی که در عین صدرنشینی، چندان اطمینان‌بخش نیست. سایر مدل‌های مطرح نیز در رتبه‌بندی ارائه‌شده اختلاف معناداری با این نتیجه ندارند و همگی در محدوده‌ای قرار می‌گیرند که نشان‌دهنده محدودیت جدی در دقت پاسخ‌هاست.

نقطه‌ضعف مشترک تمام این مدل‌ها، عملکرد آن‌ها در بخش چندوجهی است؛ جایی که تفسیر هم‌زمان متن، تصویر و نمودار انجام می‌شود و دقت اغلب به زیر ۵۰ درصد سقوط می‌کند. این مسئله زمانی نگران‌کننده‌تر می‌شود که بدانیم بسیاری از کاربران برای تحلیل نمودارهای مالی، گزارش‌های پزشکی یا داده‌های آماری به هوش مصنوعی تکیه می‌کنند. یک برداشت اشتباه از عددی در صورت‌های مالی یا تفسیر نادرست یک نمودار درمانی می‌تواند پیامدهایی جدی و حتی جبران‌ناپذیر در حوزه‌هایی مانند اقتصاد، حقوق و سلامت به همراه داشته باشد.

در مجموع، پیام اصلی این تحقیق روشن است: نباید به چت‌بات‌های هوش مصنوعی اعتماد مطلق داشت. اگر یک خبرنگار تنها در ۶۹ درصد موارد حقیقت را بیان کند، بدون تردید جایگاهی در یک رسانه حرفه‌ای نخواهد داشت؛ با این حال، همین سطح از خطا را از سیستم‌های هوش مصنوعی می‌پذیریم. در مشاغلی که تصمیم‌گیری بر پایه اطلاعات حساس انجام می‌شود—مانند پزشکی یا وکالت—استفاده از چت‌بات‌ها بدون نظارت و ارزیابی انسانی می‌تواند به‌سادگی به نتایجی پرهزینه و خطرناک منجر شود.

این تحقیق بیش از آنکه نقدی بر فناوری باشد، هشداری درباره نحوه استفاده ما از آن است. هوش مصنوعی ابزار کمکی قدرتمندی است، اما جایگزین قضاوت انسانی نیست. خطر اصلی زمانی شکل می‌گیرد که خروجی یک مدل آماری را هم‌سطح با نظر یک متخصص تلقی کنیم. تا زمانی که دقت این سیستم‌ها به سطح قابل‌اتکایی نرسد، نقش انسان باید از «کاربر منفعل» به «ناظر آگاه» تغییر کند؛ کسی که هم می‌پرسد، هم بررسی می‌کند و هم مسئولیت تصمیم نهایی را می‌پذیرد.

خرید اقساطی آیفون 17