ورود علی‌بابا به بازار تصویرسازی هوش مصنوعی با Z-Image-Turbo !

زهرا حسینی

04 اسفند 1404 | 4 دقیقه مطالعه

Alibaba Group با رونمایی از مدل تازه خود، Z-Image-Turbo، معادلات بازار تولید تصویر با هوش مصنوعی را به چالش کشیده است. این مدل با تمرکز بر بهره‌وری و دسترسی‌پذیری طراحی شده؛ یعنی کاربرانی که سخت‌افزارهای فوق‌پیشرفته در اختیار ندارند نیز می‌توانند به خروجی‌هایی با کیفیت بالا دست پیدا کنند.

در شرایطی که بسیاری از شرکت‌ها به‌دنبال توسعه مدل‌های عظیم با ده‌ها میلیارد پارامتر—مانند FLUX.2—هستند که اجرای آن‌ها نیازمند زیرساخت‌های سنگین و پرهزینه است، آزمایشگاه Tongyi وابسته به علی‌بابا مسیر متفاوتی را برگزیده است. Z-Image-Turbo با حدود ۶ میلیارد پارامتر نشان می‌دهد کیفیت سینمایی الزاماً در گرو مقیاس نجومی مدل نیست. این رویکرد، نوعی بازتعریف از «قدرت» در دنیای مدل‌های مولد به شمار می‌رود: بهینه‌تر، سریع‌تر و مقرون‌به‌صرفه‌تر.

این مدل به‌طور مستقیم وارد رقابت با گزینه‌های سبک اما باکیفیت بازار، از جمله Nano Banana شده و طبق گزارش‌ها، در بسیاری از بنچمارک‌ها عملکردی هم‌سطح یا حتی برتر از برخی مدل‌های تجاری ارائه داده است. چنین نتیجه‌ای می‌تواند نگاه صنعت را نسبت به اولویت «بزرگ‌تر بودن» تغییر دهد.

یکی از ویژگی‌های برجسته Z-Image-Turbo سرعت پردازش آن است. این مدل تنها در ۸ مرحله پردازشی تصویر نهایی را تولید می‌کند و روی کارت‌های گرافیک قدرتمند، زمان تولید تصویر به کمتر از یک ثانیه می‌رسد. این سرعت بالا، آن را به گزینه‌ای جذاب برای طراحان، تولیدکنندگان محتوا و حتی توسعه‌دهندگان بازی تبدیل می‌کند.

از نظر سخت‌افزاری نیز محدودیت چشمگیری وجود ندارد. برای اجرای این مدل نیازی به سرورهای گران‌قیمت نیست و کارت‌های گرافیک با کمتر از ۱۶ گیگابایت حافظه VRAM—مانند سری RTX 3060 یا 4070—می‌توانند به‌خوبی از پس آن برآیند. این ویژگی، Z-Image-Turbo را به مدلی «کاربرمحور» بدل می‌کند؛ مدلی که به‌جای تمرکز صرف بر آزمایشگاه‌های تحقیقاتی، به استفاده روزمره کاربران نیز توجه دارد.

در حوزه رندر متن داخل تصویر—چالشی که بسیاری از مدل‌های تصویرساز با آن دست‌وپنجه نرم می‌کنند—این مدل عملکرد قابل‌توجهی نشان داده است. به‌ویژه در نگارش متون انگلیسی و چینی، خروجی‌ها طبیعی، هماهنگ با نور محیط و بدون آشفتگی‌های رایج در مدل‌های دیگر گزارش شده‌اند.

«از دانلود تا اجرا»؛ راهنمای استفاده از مدل Z-Image-Turbo علی‌بابا

مدل Z-Image-Turbo که توسط Alibaba Group توسعه یافته، با مجوز Apache 2.0 منتشر شده است؛ به این معنا که استفاده شخصی و حتی تجاری از آن بدون پرداخت هزینه و محدودیت‌های پیچیده حقوقی امکان‌پذیر است. این تصمیم، گامی مهم در جهت دسترسی آزادتر به فناوری‌های پیشرفته تولید تصویر محسوب می‌شود.

ساده‌ترین روش برای آزمایش این مدل، مراجعه به وب‌سایت رسمی آن است. همچنین نسخه متن‌باز مدل از طریق پلتفرم Hugging Face در دسترس قرار دارد و کاربران می‌توانند مستقیماً فایل‌ها را دریافت کنند. افرادی که با پایتون آشنایی دارند، قادر خواهند بود مدل را تنها با چند خط کدنویسی اجرا کرده و خروجی‌های سفارشی تولید کنند.

برای اجرای محلی، داشتن یک سیستم مجهز به پردازنده گرافیکی (GPU) توصیه می‌شود. اگرچه با برخی بهینه‌سازی‌ها امکان اجرا روی کارت‌های ۸ گیگابایتی نیز وجود دارد، اما برای عملکرد روان‌تر و بدون محدودیت، کارت گرافیک با حداقل ۱۶ گیگابایت VRAM و پایتون نسخه ۳.۹ یا بالاتر پیشنهاد می‌شود. این سطح از نیازمندی سخت‌افزاری، Z-Image-Turbo را در مقایسه با بسیاری از مدل‌های سنگین بازار، به گزینه‌ای مقرون‌به‌صرفه‌تر تبدیل می‌کند.

یکی از بهترین روش‌ها برای استفاده حرفه‌ای از این مدل، بهره‌گیری از پلتفرم ComfyUI است. کاربران کافی است فایل مدل Z-Image-Turbo، انکودر متنی Qwen2-5B و فایل‌های VAE را دانلود کرده و هرکدام را در پوشه‌های مربوطه (checkpoints، clip و vae) در ComfyUI قرار دهند. با این کار، تمام ظرفیت این مدل ۶ میلیارد پارامتری مستقیماً روی سیستم شخصی در دسترس خواهد بود.

یکی از مزیت‌های برجسته این مدل، دقت بالا در رندر متن داخل تصویر است؛ قابلیتی که آن را برای طراحی لوگو، پوسترهای تبلیغاتی، تولید محتوای فروشگاهی و خلق تصاویر واقع‌گرایانه با جزئیات دقیق، به گزینه‌ای ایده‌آل تبدیل می‌کند. در فضایی که بسیاری از مدل‌های تصویرساز هنوز در نوشتن متن‌های خوانا دچار مشکل هستند، این ویژگی یک مزیت رقابتی جدی محسوب می‌شود.

خرید اقساطی ایفون