اوپن‌ای‌آی از مدل جدید تولید تصویر رونمایی کرد؛ ابزاری کاربردی برای طراحان و تبلیغات

مدل جدید، متنی خوانا تولید می‌کند و از ابزارهای سوررئالیستی گذشته عملی‌تر است. اما چه کسانی از آن استفاده خواهند کرد؟

اوپن‌ای‌آی از مدل جدید تولید تصویر رونمایی کرد؛ ابزاری کاربردی برای طراحان و تبلیغات
Image Credits: OpenAI

اوپن‌ای‌آی مدل جدیدی برای تولید تصویر معرفی کرده که کمتر بر خلق آثار هنری سوررئالیستی تمرکز دارد و بیشتر برای تولید تصاویر دقیق و کنترل‌شده طراحی شده است. این تغییر نشان‌دهنده آن است که اوپن‌ای‌آی ابزارهای خود را برای استفاده در حوزه‌هایی مانند تبلیغات و طراحی گرافیک آماده می‌بیند.

این مدل که اکنون بخشی از GPT-4o است، در ابتدا قرار بود در ماه مه سال گذشته منتشر شود، اما عرضه آن به تعویق افتاد. تا پیش از این، درخواست‌های تولید تصویر در ChatGPT با استفاده از مدل قدیمی‌تر DALL-E پردازش می‌شد. اما حالا، پس از ماه‌ها اصلاح و بهینه‌سازی، اوپن‌ای‌آی این مدل جدید را به‌تدریج برای همه کاربران منتشر می‌کند و جایگزین نسخه قدیمی خواهد شد.

حل چالش‌های فنی در تولید تصویر با هوش مصنوعی

مدل‌های هوش مصنوعی در سال‌های اخیر در خلق تصاویر خیالی و حتی دیپ‌فیک‌های واقع‌گرایانه مهارت پیدا کرده‌اند، اما همچنان در برخی چالش‌های فنی اساسی ضعف دارند. یکی از این مشکلات، "بایندینگ" (Binding) یا توانایی تشخیص دقیق اشیا و قرار دادن آن‌ها در جای صحیح است. برای مثال، در بسیاری از مدل‌های پیشین، یک تابلو با عنوان "هات داگ" ممکن بود به‌جای قرار گرفتن بالای یک گاری غذا، در نقطه‌ای نامرتبط از تصویر ظاهر شود.

علاوه بر این، مدل‌های هوش مصنوعی اغلب در تولید متن دچار مشکل بوده و نوشته‌هایی ناخوانا و به‌هم‌ریخته ارائه می‌دادند که بیشتر شبیه کپچا بودند تا متن واقعی.

Credit: OpenAI

اما مدل جدید اوپن‌ای‌آی در این زمینه‌ها پیشرفت چشمگیری داشته است. تصاویر نمونه‌ای که این شرکت منتشر کرده، نشان می‌دهند که مدل می‌تواند ۱۲ عنصر گرافیکی مجزا را در یک تصویر واحد ایجاد کند—مانند ایموجی گربه یا نماد رعد و برق—و آن‌ها را در موقعیت مناسب خود قرار دهد. در نمونه‌ای دیگر، چهار نوشیدنی همراه با کارت‌های دستور تهیه نمایش داده شده‌اند که متنی دقیق و خوانا دارند. همچنین، تصاویر کمیک با حباب‌های گفت‌وگو، تبلیغات مفهومی و دیاگرام‌های آموزشی نیز از دیگر نمونه‌های این مدل هستند.

قابلیت جدیدی که به کاربران اجازه می‌دهد تصاویر خود را بارگذاری و ویرایش کنند نیز معرفی شده است. این مدل علاوه بر ادغام در GPT-4o، در ابزار تولید ویدئو Sora نیز قابل استفاده خواهد بود.

Credit: OpenAI

هوش مصنوعی در خدمت طراحی و تبلیغات

گِیب گو، طراح ارشد این مدل در اوپن‌ای‌آی، آن را "ابزاری جدید برای برقراری ارتباط" توصیف می‌کند. کنجی هاتا، یکی از محققان این پروژه، دیدگاه متفاوتی دارد: "ما از خلق هنر صرفاً زیبا فراتر رفته‌ایم." به گفته او، این مدل همچنان قادر به تولید آثار هنری جذاب است، اما تمرکز اصلی آن بر کاربردپذیری است: "این ابزار فقط برای تماشا کردن نیست، بلکه می‌توان از آن برای خلق تصاویر کاربردی بهره برد."

Credit: OpenAI
Credit: OpenAI

Credit: OpenAI

این تغییر رویکرد نشان می‌دهد که اوپن‌ای‌آی قصد دارد ابزار جدید خود را به گزینه‌ای جدی برای طراحان گرافیک، آژانس‌های تبلیغاتی، مدیران شبکه‌های اجتماعی و تصویرگران تبدیل کند. اما این شرکت در مسیر خود دو چالش اساسی دارد:

  1. رقابت با ابزارهای حرفه‌ای:
    سال‌هاست که طراحان از نرم‌افزارهایی مانند Adobe Photoshop برای ویرایش و تولید تصاویر استفاده می‌کنند. ادوبی نیز سرمایه‌گذاری قابل‌توجهی در توسعه قابلیت‌های هوش مصنوعی خود انجام داده است. دیوید رسکینو، هم‌بنیان‌گذار و مدیر ارشد فنی Irreverent Labs (فعال در زمینه تولید ویدئو با هوش مصنوعی)، می‌گوید:
    "ادوبی تسلط کاملی بر این بازار دارد و آن‌قدر سریع حرکت می‌کند که مشخص نیست چرا کاربران بخواهند ابزار دیگری را جایگزین آن کنند."
  2. جذب کاربران غیرحرفه‌ای:
    دسته‌ای دیگر از کاربران، طراحان غیرحرفه‌ای هستند که به ابزارهای ساده‌تری مانند Canva روی آورده‌اند. این کاربران ممکن است هرگز نیازی به نرم‌افزارهای پیچیده‌ای مانند فتوشاپ نداشته باشند، اما برای طراحی محتوا از ابزارهای سبک‌تر بهره می‌برند. اگر اوپن‌ای‌آی بتواند کیفیت و سرعت تولید تصاویر را به‌گونه‌ای بهبود بخشد که کاربران Canva را جذب کند، می‌تواند جایگاهی در این بازار پیدا کند—حتی اگر تنها بخشی از فرآیند طراحی را پوشش دهد.

آینده مدل جدید اوپن‌ای‌آی

یکی از کاربردهای احتمالی این مدل، تولید سریع تصاویری است که "به‌اندازه کافی خوب" باشند تا همراه با پست‌های شبکه‌های اجتماعی منتشر شوند. اما با توجه به سرمایه‌گذاری‌های عظیم اوپن‌ای‌آی—از جمله مشارکت در پروژه ۵۰۰ میلیارد دلاری Stargate برای ساخت مراکز داده‌ای در مقیاسی بی‌سابقه—به نظر می‌رسد که این مدل قرار است نقش مهم‌تری در آینده این شرکت ایفا کند.

آنچه مسلم است، این مدل جدید با برطرف کردن موانع فنی کلیدی، استاندارد جدیدی را برای سایر شرکت‌های فعال در حوزه هوش مصنوعی تعیین کرده است. دیوید رسکینو معتقد است که رسیدن به این سطح از دقت نیازمند حجم عظیمی از داده‌های دقیق بوده است، از جمله میلیون‌ها تصویر که در آن‌ها متن به‌درستی نمایش داده شده است. او می‌گوید:
"رقبای اوپن‌ای‌آی حالا باید این سطح از پیشرفت را تکرار کنند تا در رقابت باقی بمانند."

به گفته او، سرعت نوآوری در این حوزه اکنون باید افزایش یابد.


Credits: "OpenAI’s new image generator aims to be practical enough for designers and advertisers" By James O'Donnell, published in MIT Technology Review.

Read the full article here: https://www.technologyreview.com/2025/03/25/1113745/openais-new-image-generator-aims-to-be-practical-enough-for-designers-and-advertisers/