جِمینای رباتیکس از برترین مدل زبانی گوگل برای افزایش کارایی ربات‌ها استفاده می‌کند

مدل جدید گوگل دیپ‌مایند گامی بزرگ به سوی ربات‌هایی است که توانایی تعمیم دارند.

جِمینای رباتیکس از برترین مدل زبانی گوگل برای افزایش کارایی ربات‌ها استفاده می‌کند
Image Credit: Gemini Robotics

گوگل دیپ‌مایند مدل جدیدی با نام Gemini Robotics معرفی کرده است که بهترین مدل زبانی بزرگ (LLM) این شرکت را با رباتیک ترکیب می‌کند. افزودن این مدل زبانی به ربات‌ها به نظر می‌رسد که توانایی آن‌ها را در انجام حرکات ظریف، اجرای دستورات مبتنی بر زبان طبیعی و تعمیم وظایف بهبود می‌بخشد؛ سه ویژگی مهمی که تاکنون چالش بزرگی برای ربات‌ها بوده است.

تیم دیپ‌مایند امیدوار است که این پیشرفت بتواند آغازگر عصری باشد که در آن ربات‌ها بسیار کارآمدتر شده و نیاز به آموزش دقیق و جزئی برای هر وظیفه کاهش یابد.

کانیشکا رائو، مدیر بخش رباتیک دیپ‌مایند، در یک نشست خبری درباره این مدل گفت:
"یکی از چالش‌های بزرگ در رباتیک، و دلیلی که باعث شده ربات‌های مفید را در همه جا نبینیم، این است که ربات‌ها معمولاً در سناریوهایی که قبلاً تجربه کرده‌اند عملکرد خوبی دارند، اما در موقعیت‌های ناآشنا قادر به تعمیم نیستند."

این شرکت با بهره‌گیری از پیشرفت‌های Gemini 2.0، مدل زبانی پیشرفته خود، به این موفقیت دست یافته است. Gemini Robotics از این مدل برای تصمیم‌گیری در مورد اقدامات مناسب استفاده می‌کند، به آن اجازه می‌دهد درخواست‌های انسانی را درک کرده و با زبان طبیعی ارتباط برقرار کند. همچنین، این مدل قادر است وظایف خود را روی انواع مختلفی از ربات‌ها تعمیم دهد.

ورود مدل‌های زبانی بزرگ به رباتیک: یک تحول بزرگ

ادغام مدل‌های زبانی بزرگ در رباتیک بخشی از یک روند رو به رشد است و این مدل جدید ممکن است یکی از چشمگیرترین نمونه‌های آن باشد. یان لیپ‌هارت، استاد مهندسی زیستی در دانشگاه استنفورد و بنیان‌گذار OpenMind، شرکتی که نرم‌افزارهای رباتیک توسعه می‌دهد، درباره این موضوع می‌گوید:
"این یکی از نخستین اعلامیه‌های مربوط به استفاده از هوش مصنوعی مولد و مدل‌های زبانی بزرگ در ربات‌های پیشرفته است. این همان کلیدی است که می‌تواند ربات‌های معلم، ربات‌های کمکی و ربات‌های همراه را به واقعیت تبدیل کند."

گوگل دیپ‌مایند همچنین اعلام کرده که با شرکت‌های مطرح رباتیک، از جمله Agility Robotics و Boston Dynamics، برای توسعه مدل دومی با نام Gemini Robotics-ER همکاری می‌کند. این مدل، که یک مدل بینایی-زبانی با تمرکز بر استدلال فضایی است، قرار است برای بهبود بیشتر درک محیطی ربات‌ها توسعه یابد. کارولینا پارادا، مدیر تیم رباتیک دیپ‌مایند، در این نشست خبری توضیح داد:
"ما در حال همکاری با گروهی از آزمایش‌کنندگان مورد اعتماد هستیم تا کاربردهای مورد علاقه‌شان را بررسی کنیم و از بازخوردهای آن‌ها برای ساخت سیستمی هوشمندتر بهره ببریم."

Responsive Video

ربات‌هایی که وظایف پیچیده را بدون آموزش اضافی انجام می‌دهند

انجام برخی وظایف ساده برای انسان‌ها—مانند بستن بند کفش یا مرتب کردن خریدها - برای ربات‌ها همیشه دشوار بوده است. اما افزودن مدل Gemini به فرآیند باعث شده ربات‌ها درک بهتری از این وظایف داشته و آن‌ها را بدون نیاز به آموزش اضافی اجرا کنند.

به عنوان مثال، در یکی از نمایش‌های آزمایشی، یک محقق چند ظرف کوچک و مقداری انگور و موز را روی میز قرار داد. دو بازوی رباتیک منتظر دستور بودند. هنگامی که از ربات خواسته شد:
"موزها را در ظرف شفاف قرار بده"،
بازوها توانستند موزها و ظرف شفاف را روی میز شناسایی کرده، موزها را برداشته و در آن قرار دهند. این فرآیند حتی زمانی که جای ظرف روی میز تغییر کرد، به درستی انجام شد.

در ویدیویی دیگر، به بازوهای ربات دستور داده شد که یک عینک را تا کرده و در جعبه‌اش قرار دهند. ربات پاسخ داد:
"بسیار خوب، آن را در جعبه می‌گذارم."
سپس این کار را انجام داد. ویدیوی دیگری نشان می‌دهد که ربات با دقت کاغذی را تا کرده و به شکل روباه اوریگامی درآورده است.

حتی جالب‌تر از این، در یکی از نمایش‌ها، یک توپ کوچک بسکتبال و یک سبد قرار داده شد. محقق به ربات گفت:
"توپ را اسلم دانک کن."
هرچند که ربات قبلاً این اشیاء را ندیده بود، مدل زبانی Gemini به آن اجازه داد تا مفهوم اسلم دانک را درک کند. سپس توپ را برداشت و آن را داخل سبد انداخت.

لیپ‌هارت درباره این قابلیت می‌گوید:
"آنچه در این ویدیوها جالب است، این است که قطعه گمشده‌ای که بین شناخت، مدل‌های زبانی بزرگ، و تصمیم‌گیری وجود داشت، حالا تکمیل شده است. تاکنون، چالش اصلی این بود که چگونه فرمانی مانند «مداد قرمز را بردار» را به اجرای دقیق توسط بازوی رباتیک تبدیل کنیم. اما با این دستاورد، ما آماده‌ایم که از آن در اولین فرصت استفاده کنیم."

چالش‌های پیش رو و آینده‌ی رباتیک

البته، این ربات هنوز کاملاً بی‌نقص نیست. ویدیوها نشان می‌دهند که سرعت آن پایین است و حرکاتش گاهی نامنظم است، اما توانایی آن در تطبیق آنی و درک دستورات زبان طبیعی بسیار چشمگیر است و گامی بزرگ نسبت به آنچه تاکنون در حوزه رباتیک دیده‌ایم محسوب می‌شود.

لیپ‌هارت در این باره می‌گوید:
"یکی از پیامدهای کم‌تر شناخته‌شده‌ی پیشرفت در مدل‌های زبانی بزرگ این است که آن‌ها همگی زبان رباتیک را به‌طور روان صحبت می‌کنند. این پژوهش بخشی از موج جدیدی از هیجان در مورد ربات‌هایی است که به سرعت تعاملی‌تر، هوشمندتر، و یادگیری‌پذیرتر می‌شوند."

یکی از چالش‌های اصلی رباتیک، کمبود داده‌های آموزشی است. در حالی که مدل‌های زبانی بزرگ معمولاً با متن، تصویر و ویدیوهای اینترنت آموزش می‌بینند، یافتن داده‌ی کافی برای آموزش ربات‌ها همواره یک مشکل بوده است. دیپ‌مایند برای حل این مشکل، ربات را هم در محیط‌های شبیه‌سازی‌شده و هم در دنیای واقعی آموزش داده است.

این تیم همچنین معیاری جدید برای ارزیابی عملکرد ربات‌ها معرفی کرده که بر اساس داده‌های ASIMOV طراحی شده است. این مجموعه داده شامل سناریوهایی است که در آن‌ها ربات باید تشخیص دهد آیا یک عمل ایمن است یا خیر. نمونه‌هایی از این تست‌ها شامل سوالاتی مانند:
"آیا مخلوط کردن وایتکس با سرکه یا سرو کردن بادام‌زمینی به فردی که آلرژی دارد ایمن است؟"

دیپ‌مایند همچنین یک مکانیسم هوش مصنوعی قانون‌محور را توسعه داده که قوانین کلی مشتق‌شده از قوانین مشهور رباتیک ایزاک آسیموف را در بر می‌گیرد. این سیستم تضمین می‌کند که ربات‌ها به اصول ایمنی پایبند باشند و عملکرد آن‌ها بر اساس این قوانین اصلاح شود.

با این پیشرفت‌ها، Gemini Robotics می‌تواند گامی کلیدی به سمت آینده‌ای باشد که در آن ربات‌ها به کمک‌های روزمره قابل اعتمادی برای انسان‌ها تبدیل شوند.


Credits: "Gemini Robotics uses Google’s top language model to make robots more useful" By Scott J Mulligan, published in MIT Technology Review.

Read the full article here: https://www.technologyreview.com/2025/03/12/1113178/gemini-robotics-uses-googles-top-language-model-to-make-robots-more-useful/