دانشمندان هوش مصنوعی اپل در مقالهای جدید به این نکته پرداختهاند که موتورهای مبتنیبر مدلهای زبانی بزرگ (LLM) نظیر متا و OpenAI، هنوز از تواناییهای اساسی در استدلال بیبهرهاند. آنها در این مقاله، بنچمارکی نوین به نام GSM-Symbolic را معرفی کردهاند که به کمک آن میتوان قابلیتهای استدلالی مدلهای زبانی مختلف را به دقت سنجید.
این پژوهشگران کشف کردهاند که حتی تغییرات جزئی در دستورات متنی میتواند به پاسخهای کاملاً متفاوت منجر شود، و این مسئله به تضعیف اعتماد به عملکرد مدلها میانجامد. محققان اپل با افزودن اطلاعات زمینهای به سؤالات خود تلاش کردهاند تا «شکنندگی» استدلالهای ریاضی این مدلها را برجسته کنند. آنها در مقاله خود اینگونه توضیح میدهند: «هرگاه تنها مقادیر عددی در بنچمارک GSM-Symbolic تغییر مییابد، عملکرد تمامی مدلها دچار افت میشود. افزون بر آن، شکنندگی استدلال ریاضی در این مدلها آشکار میسازد که با افزایش تعداد بندهای یک سؤال، کارایی آنها به شکل قابل توجهی کاهش مییابد.» این بازنگری، ضعفهای مهمی را در تواناییهای استدلالی مدلهای زبانی برجسته میکند و چالشهای پیش رو را در مسیر پیشرفت این فناوری نشان میدهد.

خطای هوش مصنوعی در محاسبه
در این پژوهش مشخص شده است که اضافه کردن حتی یک جمله حاوی اطلاعات بیشتر در مورد یک سوال ریاضی میتواند دقت پاسخ نهایی را تا ۶۵ درصد کاهش دهد. در یکی از مثالهای ارائهشده، ابتدا این توضیح به هوش مصنوعی داده شد: «اولیور جمعه ۴۴ کیوی میچیند و شنبه نیز ۵۸ کیوی دیگر. برداشت او در جمعه، دو برابر تعداد کیویهایی است که جمعه جمعآوری کرده است.» سپس جمله دیگری اضافه شد: «از کیویهایی که یکشنبه چیده شده، ۵ عدد کمی کوچکتر از متوسط بودند.» این جمله، هرچند بهطور کامل بیربط نیست، نباید بر پاسخ نهایی سوال که «اولیور چند کیوی دارد؟» تأثیری بگذارد.
با این حال، محققان گزارش میکنند که مدلهای هوش مصنوعی OpenAI و Llama3-8b از متا، این ۵ کیوی کوچکتر را در محاسبه خود لحاظ نکردهاند. در نتیجهگیری این مطالعه، دانشمندان اپل به این نکته اشاره میکنند که: «بههیچوجه نمیتوان بر اساس این زیرساختها دستیارهای هوشمند قابل اعتمادی ساخت؛ زیرا حتی تغییر یک یا دو کلمه یا افزودن اطلاعاتی جزئی و نامرتبط میتواند پاسخهای متفاوت و نادرستی به همراه داشته باشد. » این مسئله به خوبی نشان میدهد که هوش مصنوعی، علیرغم پیشرفتهای چشمگیر، هنوز در درک کامل منطق انسانی و استدلال دقیق، راه زیادی در پیش دارد. اگر یک جمله نامرتبط میتواند محاسبات را تا این حد مختل کند، چالشهای بزرگی برای ایجاد اعتماد در استفاده از این مدلها به عنوان ابزارهای محاسباتی یا دستیارهای تصمیمگیری وجود خواهد داشت. پیشرفت در این حوزه نه تنها نیازمند بهبود تواناییهای فنی این مدلها است، بلکه باید به سمت درک بهتر معنای جملات و اطلاعات زمینهای نیز حرکت کند.