اوپن‌ای‌آی اپراتور را معرفی کرد: عاملی که می‌تواند به جای شما از کامپیوتر استفاده کند

اوپن‌ای‌آی اپراتور را معرفی کرد: عاملی که می‌تواند به جای شما از کامپیوتر استفاده کند
Image Credit: Stephanie Arnett/MIT Technology Review | Adobe Stock, Envato

پس از هفته‌ها شایعه، اوپن‌ای‌آی اولین عامل هوش مصنوعی خود را با نام اپراتور رونمایی کرد. اپراتور یک اپلیکیشن تحت وب است که می‌تواند وظایف ساده‌ای را در مرورگر انجام دهد؛ از رزرو بلیت کنسرت گرفته تا سفارش آنلاین خرید مواد غذایی. این ابزار از مدلی جدید به نام عامل استفاده‌کننده کامپیوتر (CUA) بهره می‌برد که بر اساس مدل زبانی چندوجهی GPT-4o ساخته شده است.

این ابزار هم‌اکنون برای کاربران ChatGPT Pro، سرویس پریمیوم ماهانه اوپن‌ای‌آی با هزینه ۲۰۰ دلار، در آدرس https://operator.chatgpt.com/ قابل دسترسی است. همچنین اوپن‌ای‌آی برنامه دارد در آینده این ابزار را برای دیگر کاربران نیز عرضه کند.

اوپن‌ای‌آی ادعا می‌کند که اپراتور نسبت به ابزارهای مشابه رقبا، از جمله «Computer Use» (محصول شرکت Anthropic) و «Mariner» (محصول گوگل دیپ‌مایند)، عملکرد بهتری دارد.

اینکه سه غول برتر هوش مصنوعی جهان در حال توسعه مدل‌های عامل‌محور هستند، نشان‌دهنده آغاز رقابتی تازه است؛ رقابتی که این بار در صفحه نمایش کامپیوترهای ما شکل می‌گیرد.

علی فرهادی، مدیرعامل مؤسسه هوش مصنوعی آلن (AI2)، می‌گوید: «گذر از تولید متن و تصاویر به انجام وظایف، گامی درست است. این تحول کسب‌وکارها را توانمند کرده و مسائل جدیدی را حل می‌کند.» به اعتقاد او، انجام کارها روی صفحه کامپیوتر اولین گام طبیعی در مسیر توسعه عوامل هوش مصنوعی است: «این کار به اندازه کافی محدود است که فناوری فعلی از پس آن بربیاید، اما به اندازه‌ای کاربردی است که کاربران از آن استقبال کنند.» (فرهادی همچنین اشاره کرد که AI2 نیز در حال کار روی نسخه‌ای از این فناوری است.)

شایعات و واقعیت‌ها

اعلام اوپن‌ای‌آی یکی از شایعاتی را که اخیراً مطرح شده بود تأیید کرد: معرفی یک اپلیکیشن عامل‌محور. این در حالی بود که پیش از رونمایی رسمی، جزئیاتی از اپراتور در فضای مجازی منتشر شده بود. با این حال، شایعه دیگری مبنی بر معرفی یک ابرهوش جدید از سوی اوپن‌ای‌آی مطرح شده بود که کاملاً بی‌اساس بود.

سم آلتمن، مدیرعامل اوپن‌ای‌آی، با انتشار توییتی به این شایعات واکنش نشان داد: «شایعات توییتری دوباره از کنترل خارج شده‌اند. لطفاً آرام باشید و انتظاراتتان را ۱۰۰ برابر کاهش دهید!»

چگونه اپراتور کار می‌کند؟

مشابه ابزارهای Computer Use و Mariner، اپراتور با اسکن صفحه نمایش و تحلیل پیکسل‌ها، اقداماتی را شبیه کاربران واقعی انجام می‌دهد. مدل CUA آموزش دیده است تا از همان رابط‌های گرافیکی (مانند دکمه‌ها، جعبه‌های متنی و منوها) که کاربران برای انجام وظایف آنلاین استفاده می‌کنند، بهره ببرد. این مدل گام‌به‌گام پیش می‌رود: صفحه را اسکن می‌کند، یک عمل انجام می‌دهد، دوباره اسکن می‌کند و این چرخه را تکرار می‌کند.

ریچیرو ناکانو، دانشمند اوپن‌ای‌آی، می‌گوید: «تا پیش از این، مدل‌ها تنها از طریق APIها به نرم‌افزارها دسترسی داشتند، اما با مدلی که بتواند مانند انسان از رابط‌های کاربری استفاده کند، دسترسی به نرم‌افزارهای متنوع‌تری ممکن می‌شود.»

مدل CUA وظایف را به گام‌های کوچک‌تر تقسیم می‌کند و در صورت گیر کردن، به مرحله قبلی برمی‌گردد. این مدل با تکنیک‌هایی مشابه با مدل‌های استدلالی اوپن‌ای‌آی (o1 و o3) آموزش داده شده است.

عملکرد اپراتور در آزمایش‌ها

اوپن‌ای‌آی CUA را در برابر معیارهای صنعتی مختلف ارزیابی کرده و ادعا می‌کند که این مدل در تمامی آن‌ها از Computer Use و Mariner عملکرد بهتری داشته است.

برای مثال:

  • در معیار OSWorld (برای وظایفی مانند ادغام فایل‌های PDF یا ویرایش تصاویر)، CUA امتیاز ۳۸.۱٪ را کسب کرده، در حالی که Computer Use تنها ۲۲.۰٪ و انسان‌ها ۷۲.۴٪ امتیاز گرفته‌اند.
  • در معیار WebVoyager (برای وظایف مرتبط با مرورگر)، CUA امتیاز ۸۷٪، Mariner امتیاز ۸۳.۵٪ و Computer Use امتیاز ۵۶٪ را کسب کرده‌اند.

فعلاً اپراتور تنها در مرورگر وب کار می‌کند، اما اوپن‌ای‌آی قصد دارد به زودی API این فناوری را برای توسعه‌دهندگان دیگر نیز عرضه کند.

اپراتور چگونه زندگی روزمره را آسان می‌کند؟

استفاده از اپراتور ساده است: دستور خود را در جعبه متنی تایپ کنید و باقی کارها را به اپراتور بسپارید. این ابزار از مرورگری که روی سرورهای اوپن‌ای‌آی اجرا می‌شود، استفاده می‌کند. این روش علاوه بر افزایش کارایی، امکان انجام هم‌زمان چندین وظیفه را فراهم می‌کند.

کومار، یکی از محققان اوپن‌ای‌آی، در یک دمو زنده نشان داد که چگونه اپراتور توانست از طریق OpenTable یک میز برای دو نفر در ساعت ۶:۳۰ عصر در رستورانی در سان‌فرانسیسکو رزرو کند. او هم‌زمان از اپراتور خواست چهار بلیت کنسرت کندریک لامار را در StubHub پیدا کند و لیست خریدی را از Instacart سفارش دهد.

کومار می‌گوید: «اگر اپراتور نیاز به تأیید داشته باشد، از شما سؤال می‌پرسد و شما می‌توانید پاسخ دهید.» او اضافه کرد که اپراتور به دستیار شخصی او در زندگی روزمره تبدیل شده است. به عنوان مثال، هر پنجشنبه صبح از اپراتور می‌خواهد لیستی از رستوران‌هایی که همان شب میز دارند برایش ارسال کند: «این کار را خودم هم می‌توانم انجام دهم، اما ۱۰ دقیقه وقت می‌گیرد. اپراتور این کار را با یک کلیک برایم انجام می‌دهد.»


Credit: "OpenAI launches Operator—an agent that can use a computer for you" By Will Douglas Heaven, published in MIT Technology Review.

Read here: https://www.technologyreview.com/2025/01/23/1110484/openai-launches-operator-an-agent-that-can-use-a-computer-for-you/