در دنیای هوش مصنوعی، مقایسه عملکرد مدلها همواره محل بحث و مناقشه بوده است. اخیراً یکی از کارکنان OpenAI شرکت xAI، متعلق به ایلان ماسک، را متهم کرده که اطلاعاتی نادرست درباره تواناییهای مدل جدید خود، Grok 3، منتشر کرده است. در مقابل، «ایگور بابوشکین»، مهندس ارشد xAI، از دادههای ارائهشده دفاع کرده و صحت آنها را تأیید نموده است.
xAI در وبلاگ رسمی خود نموداری را منتشر کرده که نشان میدهد مدل Grok 3 در آزمون «AIME 2025» عملکرد بهتری نسبت به مدل «o3-mini-high» از OpenAI دارد. به گفتهی «TechCrunch»، این آزمون شامل پرسشهای ریاضی پیچیدهای است که برای سنجش توانایی محاسباتی مدلهای هوش مصنوعی طراحی شده است. با این حال، برخی کارشناسان درباره اعتبار این بنچمارک بهعنوان معیار سنجش توانایی مدلهای هوش مصنوعی تردید دارند.
اینکه شرکتهای توسعهدهندهی هوش مصنوعی برای تبلیغ محصولات خود گاهی از دادههای انتخابشده و تفسیرهای خاص استفاده کنند، چیز عجیبی نیست. اگرچه ممکن است دادههای xAI واقعیت را نشان دهند، اما نحوهی ارائهی آنها میتواند درک نادرستی ایجاد کند. این اتفاق نشان میدهد که ارزیابی مستقل و دقیق مدلهای هوش مصنوعی همچنان ضروری است.
آیا xAI یک معیار مهم را در مقایسههای خود حذف کرده است؟
بررسیهای دقیقتر نشان میدهد که مدلهای Grok 3 Reasoning Beta و Grok 3 mini Reasoning در معیار @1 (امتیاز مربوط به اولین پاسخ تولیدی مدل) عملکرد ضعیفتری نسبت به o3-mini-high دارند. حتی مدل Grok 3 Reasoning Beta در مقایسه با o1-medium از OpenAI نیز امتیاز پایینتری کسب کرده است. بااینحال، xAI همچنان Grok 3 را «باهوشترین هوش مصنوعی جهان» مینامد.
ایگور بابوشکین، مهندس ارشد xAI، در واکنش به این انتقادات، OpenAI را به انجام مقایسههای مشابه متهم کرده و مدعی شده است که این شرکت نیز در گذشته دادههای گمراهکنندهای منتشر کرده است.
به گفتهی «نیتن لمبرت»، محقق هوش مصنوعی، یکی از جنبههای مهمی که در این مقایسهها لحاظ نشده، هزینهی دستیابی به بهترین عملکرد است. او معتقد است که بدون درنظرگرفتن این اطلاعات، مقایسهی مدلها نمیتواند ارزیابی دقیقی از تواناییهای آنها ارائه در رقابت میان شرکتهای هوش مصنوعی، استفادهی گزینشی از دادهها برای برجستهسازی یک مدل، موضوعی رایج است. در این مورد، اگرچه xAI برخی معیارها را برجسته کرده، اما نادیدهگرفتن متریکهای کلیدی، تصویری ناقص از واقعیت ارائه میدهد. شفافیت در انتشار دادههای مقایسهای، عامل مهمی در ارزیابی منصفانهی پیشرفتهای هوش مصنوعی است.