اوپنایآی از مدل جدید تولید تصویر رونمایی کرد؛ ابزاری کاربردی برای طراحان و تبلیغات
مدل جدید، متنی خوانا تولید میکند و از ابزارهای سوررئالیستی گذشته عملیتر است. اما چه کسانی از آن استفاده خواهند کرد؟

اوپنایآی مدل جدیدی برای تولید تصویر معرفی کرده که کمتر بر خلق آثار هنری سوررئالیستی تمرکز دارد و بیشتر برای تولید تصاویر دقیق و کنترلشده طراحی شده است. این تغییر نشاندهنده آن است که اوپنایآی ابزارهای خود را برای استفاده در حوزههایی مانند تبلیغات و طراحی گرافیک آماده میبیند.
این مدل که اکنون بخشی از GPT-4o است، در ابتدا قرار بود در ماه مه سال گذشته منتشر شود، اما عرضه آن به تعویق افتاد. تا پیش از این، درخواستهای تولید تصویر در ChatGPT با استفاده از مدل قدیمیتر DALL-E پردازش میشد. اما حالا، پس از ماهها اصلاح و بهینهسازی، اوپنایآی این مدل جدید را بهتدریج برای همه کاربران منتشر میکند و جایگزین نسخه قدیمی خواهد شد.
حل چالشهای فنی در تولید تصویر با هوش مصنوعی
مدلهای هوش مصنوعی در سالهای اخیر در خلق تصاویر خیالی و حتی دیپفیکهای واقعگرایانه مهارت پیدا کردهاند، اما همچنان در برخی چالشهای فنی اساسی ضعف دارند. یکی از این مشکلات، "بایندینگ" (Binding) یا توانایی تشخیص دقیق اشیا و قرار دادن آنها در جای صحیح است. برای مثال، در بسیاری از مدلهای پیشین، یک تابلو با عنوان "هات داگ" ممکن بود بهجای قرار گرفتن بالای یک گاری غذا، در نقطهای نامرتبط از تصویر ظاهر شود.
علاوه بر این، مدلهای هوش مصنوعی اغلب در تولید متن دچار مشکل بوده و نوشتههایی ناخوانا و بههمریخته ارائه میدادند که بیشتر شبیه کپچا بودند تا متن واقعی.

اما مدل جدید اوپنایآی در این زمینهها پیشرفت چشمگیری داشته است. تصاویر نمونهای که این شرکت منتشر کرده، نشان میدهند که مدل میتواند ۱۲ عنصر گرافیکی مجزا را در یک تصویر واحد ایجاد کند—مانند ایموجی گربه یا نماد رعد و برق—و آنها را در موقعیت مناسب خود قرار دهد. در نمونهای دیگر، چهار نوشیدنی همراه با کارتهای دستور تهیه نمایش داده شدهاند که متنی دقیق و خوانا دارند. همچنین، تصاویر کمیک با حبابهای گفتوگو، تبلیغات مفهومی و دیاگرامهای آموزشی نیز از دیگر نمونههای این مدل هستند.
قابلیت جدیدی که به کاربران اجازه میدهد تصاویر خود را بارگذاری و ویرایش کنند نیز معرفی شده است. این مدل علاوه بر ادغام در GPT-4o، در ابزار تولید ویدئو Sora نیز قابل استفاده خواهد بود.

هوش مصنوعی در خدمت طراحی و تبلیغات
گِیب گو، طراح ارشد این مدل در اوپنایآی، آن را "ابزاری جدید برای برقراری ارتباط" توصیف میکند. کنجی هاتا، یکی از محققان این پروژه، دیدگاه متفاوتی دارد: "ما از خلق هنر صرفاً زیبا فراتر رفتهایم." به گفته او، این مدل همچنان قادر به تولید آثار هنری جذاب است، اما تمرکز اصلی آن بر کاربردپذیری است: "این ابزار فقط برای تماشا کردن نیست، بلکه میتوان از آن برای خلق تصاویر کاربردی بهره برد."



این تغییر رویکرد نشان میدهد که اوپنایآی قصد دارد ابزار جدید خود را به گزینهای جدی برای طراحان گرافیک، آژانسهای تبلیغاتی، مدیران شبکههای اجتماعی و تصویرگران تبدیل کند. اما این شرکت در مسیر خود دو چالش اساسی دارد:
- رقابت با ابزارهای حرفهای:
سالهاست که طراحان از نرمافزارهایی مانند Adobe Photoshop برای ویرایش و تولید تصاویر استفاده میکنند. ادوبی نیز سرمایهگذاری قابلتوجهی در توسعه قابلیتهای هوش مصنوعی خود انجام داده است. دیوید رسکینو، همبنیانگذار و مدیر ارشد فنی Irreverent Labs (فعال در زمینه تولید ویدئو با هوش مصنوعی)، میگوید:
"ادوبی تسلط کاملی بر این بازار دارد و آنقدر سریع حرکت میکند که مشخص نیست چرا کاربران بخواهند ابزار دیگری را جایگزین آن کنند." - جذب کاربران غیرحرفهای:
دستهای دیگر از کاربران، طراحان غیرحرفهای هستند که به ابزارهای سادهتری مانند Canva روی آوردهاند. این کاربران ممکن است هرگز نیازی به نرمافزارهای پیچیدهای مانند فتوشاپ نداشته باشند، اما برای طراحی محتوا از ابزارهای سبکتر بهره میبرند. اگر اوپنایآی بتواند کیفیت و سرعت تولید تصاویر را بهگونهای بهبود بخشد که کاربران Canva را جذب کند، میتواند جایگاهی در این بازار پیدا کند—حتی اگر تنها بخشی از فرآیند طراحی را پوشش دهد.
آینده مدل جدید اوپنایآی
یکی از کاربردهای احتمالی این مدل، تولید سریع تصاویری است که "بهاندازه کافی خوب" باشند تا همراه با پستهای شبکههای اجتماعی منتشر شوند. اما با توجه به سرمایهگذاریهای عظیم اوپنایآی—از جمله مشارکت در پروژه ۵۰۰ میلیارد دلاری Stargate برای ساخت مراکز دادهای در مقیاسی بیسابقه—به نظر میرسد که این مدل قرار است نقش مهمتری در آینده این شرکت ایفا کند.
آنچه مسلم است، این مدل جدید با برطرف کردن موانع فنی کلیدی، استاندارد جدیدی را برای سایر شرکتهای فعال در حوزه هوش مصنوعی تعیین کرده است. دیوید رسکینو معتقد است که رسیدن به این سطح از دقت نیازمند حجم عظیمی از دادههای دقیق بوده است، از جمله میلیونها تصویر که در آنها متن بهدرستی نمایش داده شده است. او میگوید:
"رقبای اوپنایآی حالا باید این سطح از پیشرفت را تکرار کنند تا در رقابت باقی بمانند."
به گفته او، سرعت نوآوری در این حوزه اکنون باید افزایش یابد.
Credits: "OpenAI’s new image generator aims to be practical enough for designers and advertisers" By James O'Donnell, published in MIT Technology Review.
Read the full article here: https://www.technologyreview.com/2025/03/25/1113745/openais-new-image-generator-aims-to-be-practical-enough-for-designers-and-advertisers/