آیا xAI درباره برتری Grok 3 اغراق کرده است؟

xAI و OpenAI بر سر نتایج بنچمارک Grok 3 اختلاف دارند.


avatar
سجاد نوری
06 اسفند 1403 | 2 دقیقه مطالعه
آیا xAI درباره برتری Grok 3 اغراق کرده است؟

در دنیای هوش مصنوعی، مقایسه عملکرد مدل‌ها همواره محل بحث و مناقشه بوده است. اخیراً یکی از کارکنان OpenAI شرکت xAI، متعلق به ایلان ماسک، را متهم کرده که اطلاعاتی نادرست درباره توانایی‌های مدل جدید خود، Grok 3، منتشر کرده است. در مقابل، «ایگور بابوشکین»، مهندس ارشد xAI، از داده‌های ارائه‌شده دفاع کرده و صحت آنها را تأیید نموده است.

xAI  در وبلاگ رسمی خود نموداری را منتشر کرده که نشان می‌دهد مدل Grok 3 در آزمون «AIME 2025» عملکرد بهتری نسبت به مدل «o3-mini-high» از OpenAI دارد. به گفته‌ی «TechCrunch»، این آزمون شامل پرسش‌های ریاضی پیچیده‌ای است که برای سنجش توانایی محاسباتی مدل‌های هوش مصنوعی طراحی شده است. با این حال، برخی کارشناسان درباره اعتبار این بنچمارک به‌عنوان معیار سنجش توانایی مدل‌های هوش مصنوعی تردید دارند.

اینکه شرکت‌های توسعه‌دهنده‌ی هوش مصنوعی برای تبلیغ محصولات خود گاهی از داده‌های انتخاب‌شده و تفسیرهای خاص استفاده کنند، چیز عجیبی نیست. اگرچه ممکن است داده‌های xAI واقعیت را نشان دهند، اما نحوه‌ی ارائه‌ی آنها می‌تواند درک نادرستی ایجاد کند. این اتفاق نشان می‌دهد که ارزیابی مستقل و دقیق مدل‌های هوش مصنوعی همچنان ضروری است.

آیا xAI یک معیار مهم را در مقایسه‌های خود حذف کرده است؟

بررسی‌های دقیق‌تر نشان می‌دهد که مدل‌های Grok 3 Reasoning Beta  و Grok 3 mini Reasoning  در معیار @1  (امتیاز مربوط به اولین پاسخ تولیدی مدل) عملکرد ضعیف‌تری نسبت به o3-mini-high دارند. حتی مدل Grok 3 Reasoning Beta در مقایسه با o1-medium از OpenAI نیز امتیاز پایین‌تری کسب کرده است. بااین‌حال، xAI همچنان Grok 3 را «باهوش‌ترین هوش مصنوعی جهان» می‌نامد.

ایگور بابوشکین، مهندس ارشد xAI، در واکنش به این انتقادات، OpenAI را به انجام مقایسه‌های مشابه متهم کرده و مدعی شده است که این شرکت نیز در گذشته داده‌های گمراه‌کننده‌ای منتشر کرده است.

به گفته‌ی «نیتن لمبرت»، محقق هوش مصنوعی، یکی از جنبه‌های مهمی که در این مقایسه‌ها لحاظ نشده، هزینه‌ی دستیابی به بهترین عملکرد است. او معتقد است که بدون درنظرگرفتن این اطلاعات، مقایسه‌ی مدل‌ها نمی‌تواند ارزیابی دقیقی از توانایی‌های آنها ارائه در رقابت میان شرکت‌های هوش مصنوعی، استفاده‌ی گزینشی از داده‌ها برای برجسته‌سازی یک مدل، موضوعی رایج است. در این مورد، اگرچه xAI برخی معیارها را برجسته کرده، اما نادیده‌گرفتن متریک‌های کلیدی، تصویری ناقص از واقعیت ارائه می‌دهد. شفافیت در انتشار داده‌های مقایسه‌ای، عامل مهمی در ارزیابی منصفانه‌ی پیشرفت‌های هوش مصنوعی است.

ثبت دیدگاه شما
دیدگاهی یافت نشد