انقلاب تصویری با Matrix3D ؛ گامی نو از اپل در بازسازی سه ‌بعدی

اپل به‌تازگی از مدل هوش مصنوعی پیشرفته‌ای به نام Matrix3D پرده‌برداری کرده است؛ ابزاری نوآورانه که می‌تواند تنها با استفاده از چند تصویر دوبعدی، صحنه‌ها و اشیای سه‌بعدی واقع‌گرایانه تولید کند. این مدل که حاصل همکاری تیم یادگیری ماشینی اپل با پژوهشگرانی از دانشگاه نانجینگ و دانشگاه علوم و فناوری هنگ‌کنگ است، نسل جدیدی از […]


avatar
زهرا حسینی
30 اردیبهشت 1404 | 3 دقیقه مطالعه
انقلاب تصویری با Matrix3D ؛ گامی نو از اپل در بازسازی سه ‌بعدی

اپل به‌تازگی از مدل هوش مصنوعی پیشرفته‌ای به نام Matrix3D پرده‌برداری کرده است؛ ابزاری نوآورانه که می‌تواند تنها با استفاده از چند تصویر دوبعدی، صحنه‌ها و اشیای سه‌بعدی واقع‌گرایانه تولید کند. این مدل که حاصل همکاری تیم یادگیری ماشینی اپل با پژوهشگرانی از دانشگاه نانجینگ و دانشگاه علوم و فناوری هنگ‌کنگ است، نسل جدیدی از فناوری فتوگرامتری را به نمایش می‌گذارد. فتوگرامتری سنتی، نیازمند مراحل مجزا مانند تخمین موقعیت دوربین و پیش‌بینی عمق است که هر کدام می‌توانند منبع خطا باشند؛ اما Matrix3D این فرآیندها را در قالب یک معماری واحد تلفیق کرده است. این مدل با دریافت تصاویر، اطلاعات دوربین و داده‌های عمق، یک‌جا همه تحلیل‌ها را انجام داده و خروجی‌ای دقیق و باکیفیت ارائه می‌دهد.

Matrix3D را می‌توان نقطه‌ی عطفی در مسیر ترکیب تصویرسازی با هوش مصنوعی دانست. این مدل نه‌تنها می‌تواند صنعت طراحی، بازی‌سازی و حتی آموزش‌های مجازی را متحول کند، بلکه آینده‌ای را وعده می‌دهد که در آن کاربر عادی هم با چند کلیک، صحنه‌هایی واقع‌گرایانه خلق کند. اپل با این حرکت، بار دیگر نشان داده که تمرکز خود را نه‌فقط بر سخت‌افزار، بلکه بر نوآوری در نرم‌افزار و مدل‌های هوشمند نیز حفظ کرده است.

Matrix3D؛ یادگیری خلاقانه با الهام از هوش مصنوعی زبانی

Matrix3D؛ یادگیری خلاقانه با الهام از هوش مصنوعی زبانی

فرایند آموزش مدل هوش مصنوعی Matrix3D نیز همانند عملکرد آن، خلاقانه و نوآورانه طراحی شده است. پژوهشگران از روش موسوم به «یادگیری نقاب ‌دار» یا Masked Learning برای تعلیم این مدل استفاده کرده‌اند؛ روشی که شباهت بسیاری به تکنیک‌های اولیه مورد استفاده در مدل‌های ترنسفورمر دارد، همان فناوری‌ای که بنیان‌گذار نسخه‌های ابتدایی ChatGPT بود. در این شیوه، برخی بخش‌های ورودی به‌صورت تصادفی از دید مدل پنهان می‌شود تا مدل وادار شود جاهای خالی را با درک ساختار کلی داده‌ها بازسازی کند. این روش نه‌تنها یادگیری عمیق‌تری به همراه دارد، بلکه به Matrix3D امکان می‌دهد حتی با داده‌های ناقص یا حجم محدود اطلاعات، به‌خوبی آموزش ببیند و عملکردی دقیق ارائه کند.

نتایج این استراتژی نیز تحسین‌برانگیز است؛ به‌طوری‌که Matrix3D تنها با سه تصویر دوبعدی می‌تواند بازسازی‌های سه‌بعدی چشمگیری از اشیاء یا محیط‌های کامل ایجاد کند. این توانایی، کاربردهای هیجان‌انگیزی در حوزه‌هایی مانند واقعیت ترکیبی و هدست‌های Apple Vision Pro خواهد داشت. اپل همچنین کد منبع این مدل را در گیت‌هاب  (https://github.com/apple/ml-matrix3d) منتشر کرده و اطلاعات بیشتر را می‌توان در سایت پروژه  (https://nju-3dv.github.io/projects/matrix3d/) یا مقاله منتشر شده در arXiv  (https://arxiv.org/abs/2502.07685)  مشاهده کرد.

روش آموزش Matrix3D نشان می‌دهد که آینده هوش مصنوعی، دیگر محدود به یادگیری از داده‌های کامل نیست. این انعطاف در آموزش، نه‌تنها باعث صرفه‌جویی در منابع می‌شود، بلکه راه را برای استفاده گسترده‌تر در پروژه‌های خلاقانه هموار می‌کند. رویکرد اپل در اینجا، یادآور قدرت ترکیب فناوری‌های مختلف برای دستیابی به راهکارهای نوآورانه است؛ ترکیبی هوشمند از زبان، بینایی و یادگیری.

ثبت دیدگاه شما
دیدگاهی یافت نشد