بر اساس گزارشهای اخیر، هزینهی سختافزارهای مورد استفادهی DeepSeek ممکن است از ۵۰۰ میلیون دلار فراتر رفته باشد. اما نکتهای که در این میان جلب توجه میکند، هزینهی آموزش مدل جدید این شرکت چینی است که تنها ۵.۶ میلیون دلار برآورد شده—مبلغی که بهمراتب کمتر از هزینههای هنگفت رقبای آمریکایی به نظر میرسد.
طبق تحلیل شرکت تحقیقاتی SemiAnalysis که در حوزهی نیمهرساناها فعالیت دارد، با در نظر گرفتن هزینههای تحقیق و توسعه و سایر بخشهای مرتبط، برآوردها نشان میدهد که هزینهی سختافزارهای DeepSeek فراتر از ۵۰۰ میلیون دلار است.
با این حال، DeepSeek در مقالهی معرفی مدل DeepSeek-V3 اعلام کرده که کل هزینههای رسمی آموزش این مدل حدود ۵.۵۷ میلیون دلار بوده است. البته، این رقم تنها به آموزش رسمی مربوط میشود و هزینههای تحقیقاتی، آزمایشهای معماری و توسعهی الگوریتمها و دادهها در آن لحاظ نشده است. در عین حال، این شرکت همچنان از اعلام هزینهی کلی تولید این مدل خودداری کرده است.
این گزارش نشان میدهد که DeepSeek در مقایسه با غولهای فناوری آمریکایی، مسیر متفاوتی را در بهینهسازی هزینههای خود در پیش گرفته است. در حالی که شرکتهای بزرگی مانند OpenAI و Google هزینههای سرسامآوری را صرف آموزش مدلهای زبانی خود میکنند، DeepSeek توانسته با رویکردی هوشمندانه و شاید با بهرهگیری از روشهای بهینهتر، هزینههای خود را به شکل چشمگیری کاهش دهد. این موضوع نهتنها نشاندهندهی پیشرفت تکنولوژیکی چینیهاست، بلکه میتواند به افزایش رقابت جهانی در حوزهی هوش مصنوعی منجر شود.
DeepSeek و سرمایهگذاری عظیم در سختافزار؛ فراتر از آموزش مدلها
هزینهی توسعهی مدلهای هوش مصنوعی تنها به آموزش آنها محدود نمیشود. برای مثال، شرکت Anthropic برای آموزش مدل Claude 3.5 Sonnet حدود ۱۰ میلیون دلار هزینه کرده، اما اگر کل هزینهی توسعه به همین مقدار محدود میشد، این شرکت نمیتوانست میلیاردها دلار سرمایه از گوگل و آمازون جذب کند.
طبق ادعای SemiAnalysis، شرکت DeepSeek به حدود ۱۰ هزار تراشهی H800 و تقریباً ۱۰ هزار تراشهی H100 از شرکت انویدیا دسترسی دارد. علاوهبر این، تعداد زیادی از تراشههای H20 که مخصوص بازار چین طراحی شدهاند، در اختیار این شرکت قرار دارند. با این حال، این پردازندههای گرافیکی میان شرکت High-Flyer و DeepSeek مشترک هستند. هر دو شرکت را لیانگ ونفنگ تأسیس کرده و تأمین مالی DeepSeek نیز بر عهدهی High-Flyer است.
محققان SemiAnalysis بر این باورند که مدل V3 بدون شک یک مدل قدرتمند محسوب میشود، اما باید دقت بیشتری داشت که آن را با چه مدلی مقایسه میکنیم. برخی کاربران، V3 را در سطح GPT-4o میدانند، اما نباید فراموش کنیم که GPT-4o در مه ۲۰۲۴ منتشر شد و پیشرفت هوش مصنوعی از آن زمان تاکنون شتاب بیشتری گرفته است.
این گزارش نشان میدهد که DeepSeek با سرمایهگذاری عظیم روی سختافزار، در حال تبدیل شدن به یکی از بازیگران کلیدی حوزهی هوش مصنوعی است. در حالی که بسیاری از شرکتها تنها روی کاهش هزینهی آموزش مدل تمرکز دارند، DeepSeek بهوضوح اهمیت زیرساختهای سختافزاری را درک کرده و با دسترسی گسترده به پردازندههای انویدیا، در تلاش است تا در رقابت جهانی باقی بماند. با این حال، مهمترین چالش این شرکت، کیفیت و عملکرد نهایی مدلهایش در برابر رقبا خواهد بود.