ایلان ماسک، در جریان یک گفتوگوی زنده با کارشناسان هوش مصنوعی، اعلام کرد که تقریباً تمامی دادههای موجود برای آموزش مدلهای هوش مصنوعی استفاده شده و اکنون با کمبود منابع داده واقعی مواجه هستیم. به گفته او، این بحران داده از سال گذشته آغاز شده است. بر اساس گزارش تککرانچ، ماسک در گفتوگو با مارک پن، رئیس شرکت بازاریابی Stagwell، به این نکته اشاره کرد که تمام دانش بشری که طی قرنها جمعآوری شده، به طور کامل برای توسعه هوش مصنوعی مصرف شده است. او همچنین به اظهارات ایلیا سوتسکور، دانشمند ارشد پیشین OpenAI، استناد کرد که این بحران را «قله داده» نامیده و پیشبینی کرده بود که این چالش، روند توسعه مدلهای هوش مصنوعی را تغییر خواهد داد.
سوتسکور پیشتر در کنفرانس NeurIPS هشدار داده بود که کمبود دادههای آموزشی، به معنای نیاز به تغییرات اساسی در روشهای فعلی توسعه مدلهای هوش مصنوعی خواهد بود. این دیدگاه اکنون با تأیید ماسک، زنگ خطری جدی برای آینده این فناوری تلقی میشود. این موضوع نقطه عطفی در مسیر توسعه هوش مصنوعی است که از یک سو نشاندهنده محدودیت منابع دادهای است و از سوی دیگر اهمیت نوآوری در روشهای جایگزین را برجسته میکند. شاید زمان آن رسیده که به جای استفاده از دادههای موجود، به روشهای خلاقانهتر برای تولید داده و یا شبیهسازی واقعیت روی بیاوریم. هوش مصنوعی برای حفظ رشد خود، نیازمند انقلابی در نحوه آموزش و تغذیه دادههایش خواهد بود، و این میتواند زمینهساز دورانی تازه در این عرصه باشد.
دادههای مصنوعی: راهکار یا چالش؟
ایلان ماسک پیشنهاد کرده است که برای جبران کمبود دادههای واقعی، شرکتهای فناوری ناگزیر به استفاده از دادههای مصنوعی خواهند بود. این دادهها، که توسط خود هوش مصنوعی تولید میشوند، میتوانند مدلها را به سمت خودآموزی و درجهبندی پیش ببرند. به گفته ماسک، این روش، مسیر آینده توسعه هوش مصنوعی خواهد بود.در حال حاضر، شرکتهایی مانند مایکروسافت، متا، OpenAI و انتروپیک از دادههای مصنوعی برای آموزش مدلهای خود بهره میبرند. طبق گزارش گارتنر، انتظار میرود که در سال 2024، 60 درصد از دادههای پروژههای هوش مصنوعی و تحلیلی به صورت مصنوعی تولید شود. با این حال، این رویکرد بدون چالش نیست؛ تحقیقات نشان دادهاند که استفاده از دادههای مصنوعی میتواند باعث کاهش خلاقیت و حتی فروپاشی مدل شود. همچنین اگر این دادهها دچار سوگیری باشند، نتایج حاصل نیز تحت تأثیر قرار خواهند گرفت. استفاده از دادههای مصنوعی میتواند راهی جذاب و کارآمد برای حل بحران کمبود دادههای واقعی باشد، اما پیامدهای احتمالی آن نباید نادیده گرفته شود. این روش هرچند نویدبخش است، اما ممکن است موجب تقویت سوگیریها یا کاهش کیفیت مدلها شود. در این میان، تأمین تنوع و کیفیت دادههای مصنوعی اهمیت زیادی دارد. به نظر میرسد آینده هوش مصنوعی به تعادل میان نوآوری و دقت در استفاده از این دادهها وابسته خواهد بود.