اوپنایآی اپراتور را معرفی کرد: عاملی که میتواند به جای شما از کامپیوتر استفاده کند

پس از هفتهها شایعه، اوپنایآی اولین عامل هوش مصنوعی خود را با نام اپراتور رونمایی کرد. اپراتور یک اپلیکیشن تحت وب است که میتواند وظایف سادهای را در مرورگر انجام دهد؛ از رزرو بلیت کنسرت گرفته تا سفارش آنلاین خرید مواد غذایی. این ابزار از مدلی جدید به نام عامل استفادهکننده کامپیوتر (CUA) بهره میبرد که بر اساس مدل زبانی چندوجهی GPT-4o ساخته شده است.
این ابزار هماکنون برای کاربران ChatGPT Pro، سرویس پریمیوم ماهانه اوپنایآی با هزینه ۲۰۰ دلار، در آدرس https://operator.chatgpt.com/ قابل دسترسی است. همچنین اوپنایآی برنامه دارد در آینده این ابزار را برای دیگر کاربران نیز عرضه کند.
اوپنایآی ادعا میکند که اپراتور نسبت به ابزارهای مشابه رقبا، از جمله «Computer Use» (محصول شرکت Anthropic) و «Mariner» (محصول گوگل دیپمایند)، عملکرد بهتری دارد.
اینکه سه غول برتر هوش مصنوعی جهان در حال توسعه مدلهای عاملمحور هستند، نشاندهنده آغاز رقابتی تازه است؛ رقابتی که این بار در صفحه نمایش کامپیوترهای ما شکل میگیرد.
علی فرهادی، مدیرعامل مؤسسه هوش مصنوعی آلن (AI2)، میگوید: «گذر از تولید متن و تصاویر به انجام وظایف، گامی درست است. این تحول کسبوکارها را توانمند کرده و مسائل جدیدی را حل میکند.» به اعتقاد او، انجام کارها روی صفحه کامپیوتر اولین گام طبیعی در مسیر توسعه عوامل هوش مصنوعی است: «این کار به اندازه کافی محدود است که فناوری فعلی از پس آن بربیاید، اما به اندازهای کاربردی است که کاربران از آن استقبال کنند.» (فرهادی همچنین اشاره کرد که AI2 نیز در حال کار روی نسخهای از این فناوری است.)
شایعات و واقعیتها
اعلام اوپنایآی یکی از شایعاتی را که اخیراً مطرح شده بود تأیید کرد: معرفی یک اپلیکیشن عاملمحور. این در حالی بود که پیش از رونمایی رسمی، جزئیاتی از اپراتور در فضای مجازی منتشر شده بود. با این حال، شایعه دیگری مبنی بر معرفی یک ابرهوش جدید از سوی اوپنایآی مطرح شده بود که کاملاً بیاساس بود.
سم آلتمن، مدیرعامل اوپنایآی، با انتشار توییتی به این شایعات واکنش نشان داد: «شایعات توییتری دوباره از کنترل خارج شدهاند. لطفاً آرام باشید و انتظاراتتان را ۱۰۰ برابر کاهش دهید!»
چگونه اپراتور کار میکند؟
مشابه ابزارهای Computer Use و Mariner، اپراتور با اسکن صفحه نمایش و تحلیل پیکسلها، اقداماتی را شبیه کاربران واقعی انجام میدهد. مدل CUA آموزش دیده است تا از همان رابطهای گرافیکی (مانند دکمهها، جعبههای متنی و منوها) که کاربران برای انجام وظایف آنلاین استفاده میکنند، بهره ببرد. این مدل گامبهگام پیش میرود: صفحه را اسکن میکند، یک عمل انجام میدهد، دوباره اسکن میکند و این چرخه را تکرار میکند.
ریچیرو ناکانو، دانشمند اوپنایآی، میگوید: «تا پیش از این، مدلها تنها از طریق APIها به نرمافزارها دسترسی داشتند، اما با مدلی که بتواند مانند انسان از رابطهای کاربری استفاده کند، دسترسی به نرمافزارهای متنوعتری ممکن میشود.»
مدل CUA وظایف را به گامهای کوچکتر تقسیم میکند و در صورت گیر کردن، به مرحله قبلی برمیگردد. این مدل با تکنیکهایی مشابه با مدلهای استدلالی اوپنایآی (o1 و o3) آموزش داده شده است.
عملکرد اپراتور در آزمایشها
اوپنایآی CUA را در برابر معیارهای صنعتی مختلف ارزیابی کرده و ادعا میکند که این مدل در تمامی آنها از Computer Use و Mariner عملکرد بهتری داشته است.
برای مثال:
- در معیار OSWorld (برای وظایفی مانند ادغام فایلهای PDF یا ویرایش تصاویر)، CUA امتیاز ۳۸.۱٪ را کسب کرده، در حالی که Computer Use تنها ۲۲.۰٪ و انسانها ۷۲.۴٪ امتیاز گرفتهاند.
- در معیار WebVoyager (برای وظایف مرتبط با مرورگر)، CUA امتیاز ۸۷٪، Mariner امتیاز ۸۳.۵٪ و Computer Use امتیاز ۵۶٪ را کسب کردهاند.
فعلاً اپراتور تنها در مرورگر وب کار میکند، اما اوپنایآی قصد دارد به زودی API این فناوری را برای توسعهدهندگان دیگر نیز عرضه کند.
اپراتور چگونه زندگی روزمره را آسان میکند؟
استفاده از اپراتور ساده است: دستور خود را در جعبه متنی تایپ کنید و باقی کارها را به اپراتور بسپارید. این ابزار از مرورگری که روی سرورهای اوپنایآی اجرا میشود، استفاده میکند. این روش علاوه بر افزایش کارایی، امکان انجام همزمان چندین وظیفه را فراهم میکند.
کومار، یکی از محققان اوپنایآی، در یک دمو زنده نشان داد که چگونه اپراتور توانست از طریق OpenTable یک میز برای دو نفر در ساعت ۶:۳۰ عصر در رستورانی در سانفرانسیسکو رزرو کند. او همزمان از اپراتور خواست چهار بلیت کنسرت کندریک لامار را در StubHub پیدا کند و لیست خریدی را از Instacart سفارش دهد.
کومار میگوید: «اگر اپراتور نیاز به تأیید داشته باشد، از شما سؤال میپرسد و شما میتوانید پاسخ دهید.» او اضافه کرد که اپراتور به دستیار شخصی او در زندگی روزمره تبدیل شده است. به عنوان مثال، هر پنجشنبه صبح از اپراتور میخواهد لیستی از رستورانهایی که همان شب میز دارند برایش ارسال کند: «این کار را خودم هم میتوانم انجام دهم، اما ۱۰ دقیقه وقت میگیرد. اپراتور این کار را با یک کلیک برایم انجام میدهد.»
Credit: "OpenAI launches Operator—an agent that can use a computer for you" By Will Douglas Heaven, published in MIT Technology Review.
Read here: https://www.technologyreview.com/2025/01/23/1110484/openai-launches-operator-an-agent-that-can-use-a-computer-for-you/