اپل بهتازگی از مدل هوش مصنوعی پیشرفتهای به نام Matrix3D پردهبرداری کرده است؛ ابزاری نوآورانه که میتواند تنها با استفاده از چند تصویر دوبعدی، صحنهها و اشیای سهبعدی واقعگرایانه تولید کند. این مدل که حاصل همکاری تیم یادگیری ماشینی اپل با پژوهشگرانی از دانشگاه نانجینگ و دانشگاه علوم و فناوری هنگکنگ است، نسل جدیدی از فناوری فتوگرامتری را به نمایش میگذارد. فتوگرامتری سنتی، نیازمند مراحل مجزا مانند تخمین موقعیت دوربین و پیشبینی عمق است که هر کدام میتوانند منبع خطا باشند؛ اما Matrix3D این فرآیندها را در قالب یک معماری واحد تلفیق کرده است. این مدل با دریافت تصاویر، اطلاعات دوربین و دادههای عمق، یکجا همه تحلیلها را انجام داده و خروجیای دقیق و باکیفیت ارائه میدهد.
Matrix3D را میتوان نقطهی عطفی در مسیر ترکیب تصویرسازی با هوش مصنوعی دانست. این مدل نهتنها میتواند صنعت طراحی، بازیسازی و حتی آموزشهای مجازی را متحول کند، بلکه آیندهای را وعده میدهد که در آن کاربر عادی هم با چند کلیک، صحنههایی واقعگرایانه خلق کند. اپل با این حرکت، بار دیگر نشان داده که تمرکز خود را نهفقط بر سختافزار، بلکه بر نوآوری در نرمافزار و مدلهای هوشمند نیز حفظ کرده است.
Matrix3D؛ یادگیری خلاقانه با الهام از هوش مصنوعی زبانی

فرایند آموزش مدل هوش مصنوعی Matrix3D نیز همانند عملکرد آن، خلاقانه و نوآورانه طراحی شده است. پژوهشگران از روش موسوم به «یادگیری نقاب دار» یا Masked Learning برای تعلیم این مدل استفاده کردهاند؛ روشی که شباهت بسیاری به تکنیکهای اولیه مورد استفاده در مدلهای ترنسفورمر دارد، همان فناوریای که بنیانگذار نسخههای ابتدایی ChatGPT بود. در این شیوه، برخی بخشهای ورودی بهصورت تصادفی از دید مدل پنهان میشود تا مدل وادار شود جاهای خالی را با درک ساختار کلی دادهها بازسازی کند. این روش نهتنها یادگیری عمیقتری به همراه دارد، بلکه به Matrix3D امکان میدهد حتی با دادههای ناقص یا حجم محدود اطلاعات، بهخوبی آموزش ببیند و عملکردی دقیق ارائه کند.
نتایج این استراتژی نیز تحسینبرانگیز است؛ بهطوریکه Matrix3D تنها با سه تصویر دوبعدی میتواند بازسازیهای سهبعدی چشمگیری از اشیاء یا محیطهای کامل ایجاد کند. این توانایی، کاربردهای هیجانانگیزی در حوزههایی مانند واقعیت ترکیبی و هدستهای Apple Vision Pro خواهد داشت. اپل همچنین کد منبع این مدل را در گیتهاب (https://github.com/apple/ml-matrix3d) منتشر کرده و اطلاعات بیشتر را میتوان در سایت پروژه (https://nju-3dv.github.io/projects/matrix3d/) یا مقاله منتشر شده در arXiv (https://arxiv.org/abs/2502.07685) مشاهده کرد.
روش آموزش Matrix3D نشان میدهد که آینده هوش مصنوعی، دیگر محدود به یادگیری از دادههای کامل نیست. این انعطاف در آموزش، نهتنها باعث صرفهجویی در منابع میشود، بلکه راه را برای استفاده گستردهتر در پروژههای خلاقانه هموار میکند. رویکرد اپل در اینجا، یادآور قدرت ترکیب فناوریهای مختلف برای دستیابی به راهکارهای نوآورانه است؛ ترکیبی هوشمند از زبان، بینایی و یادگیری.