محققان اپل: مدل‌های هوش مصنوعی کنونی در استدلال ناتوان و شکننده‌اند

حتی تغییرات جزئی در دستورات متنی می‌تواند به پاسخ‌های کاملاً متفاوت منجر شود.


avatar
زهرا‍ واقفی
01 آبان 1403 | 3 دقیقه مطالعه
محققان اپل: مدل‌های هوش مصنوعی کنونی در استدلال ناتوان و شکننده‌اند

دانشمندان هوش مصنوعی اپل در مقاله‌ای جدید به این نکته پرداخته‌اند که موتورهای مبتنی‌بر مدل‌های زبانی بزرگ (LLM) نظیر متا و OpenAI، هنوز از توانایی‌های اساسی در استدلال بی‌بهره‌اند. آن‌ها در این مقاله، بنچمارکی نوین به نام GSM-Symbolic را معرفی کرده‌اند که به کمک آن می‌توان قابلیت‌های استدلالی مدل‌های زبانی مختلف را به دقت سنجید.

این پژوهشگران کشف کرده‌اند که حتی تغییرات جزئی در دستورات متنی می‌تواند به پاسخ‌های کاملاً متفاوت منجر شود، و این مسئله به تضعیف اعتماد به عملکرد مدل‌ها می‌انجامد. محققان اپل با افزودن اطلاعات زمینه‌ای به سؤالات خود تلاش کرده‌اند تا «شکنندگی» استدلال‌های ریاضی این مدل‌ها را برجسته کنند. آن‌ها در مقاله خود این‌گونه توضیح می‌دهند: «هرگاه تنها مقادیر عددی در بنچمارک GSM-Symbolic تغییر می‌یابد، عملکرد تمامی مدل‌ها دچار افت می‌شود. افزون بر آن، شکنندگی استدلال ریاضی در این مدل‌ها آشکار می‌سازد که با افزایش تعداد بندهای یک سؤال، کارایی آن‌ها به شکل قابل توجهی کاهش می‌یابد.» این بازنگری، ضعف‌های مهمی را در توانایی‌های استدلالی مدل‌های زبانی برجسته می‌کند و چالش‌های پیش رو را در مسیر پیشرفت این فناوری نشان می‌دهد.

خطای هوش مصنوعی در محاسبه‌

در این پژوهش مشخص شده است که اضافه کردن حتی یک جمله حاوی اطلاعات بیشتر در مورد یک سوال ریاضی می‌تواند دقت پاسخ نهایی را تا ۶۵ درصد کاهش دهد. در یکی از مثال‌های ارائه‌شده، ابتدا این توضیح به هوش مصنوعی داده شد: «اولیور جمعه ۴۴ کیوی می‌چیند و شنبه نیز ۵۸ کیوی دیگر. برداشت او در جمعه، دو برابر تعداد کیوی‌هایی است که جمعه جمع‌آوری کرده است.» سپس جمله دیگری اضافه شد: «از کیوی‌هایی که یکشنبه چیده شده، ۵ عدد کمی کوچک‌تر از متوسط بودند.» این جمله، هرچند به‌طور کامل بی‌ربط نیست، نباید بر پاسخ نهایی سوال که «اولیور چند کیوی دارد؟» تأثیری بگذارد.

با این حال، محققان گزارش می‌کنند که مدل‌های هوش مصنوعی OpenAI و Llama3-8b از متا، این ۵ کیوی کوچک‌تر را در محاسبه خود لحاظ نکرده‌اند. در نتیجه‌گیری این مطالعه، دانشمندان اپل به این نکته اشاره می‌کنند که: «به‌هیچ‌وجه نمی‌توان بر اساس این زیرساخت‌ها دستیارهای هوشمند قابل اعتمادی ساخت؛ زیرا حتی تغییر یک یا دو کلمه یا افزودن اطلاعاتی جزئی و نامرتبط می‌تواند پاسخ‌های متفاوت و نادرستی به همراه داشته باشد. » این مسئله به خوبی نشان می‌دهد که هوش مصنوعی، علیرغم پیشرفت‌های چشمگیر، هنوز در درک کامل منطق انسانی و استدلال دقیق، راه زیادی در پیش دارد. اگر یک جمله نامرتبط می‌تواند محاسبات را تا این حد مختل کند، چالش‌های بزرگی برای ایجاد اعتماد در استفاده از این مدل‌ها به عنوان ابزارهای محاسباتی یا دستیارهای تصمیم‌گیری وجود خواهد داشت. پیشرفت در این حوزه نه تنها نیازمند بهبود توانایی‌های فنی این مدل‌ها است، بلکه باید به سمت درک بهتر معنای جملات و اطلاعات زمینه‌ای نیز حرکت کند.

ثبت دیدگاه شما
دیدگاهی یافت نشد