جِمینای رباتیکس از برترین مدل زبانی گوگل برای افزایش کارایی رباتها استفاده میکند
مدل جدید گوگل دیپمایند گامی بزرگ به سوی رباتهایی است که توانایی تعمیم دارند.

گوگل دیپمایند مدل جدیدی با نام Gemini Robotics معرفی کرده است که بهترین مدل زبانی بزرگ (LLM) این شرکت را با رباتیک ترکیب میکند. افزودن این مدل زبانی به رباتها به نظر میرسد که توانایی آنها را در انجام حرکات ظریف، اجرای دستورات مبتنی بر زبان طبیعی و تعمیم وظایف بهبود میبخشد؛ سه ویژگی مهمی که تاکنون چالش بزرگی برای رباتها بوده است.
تیم دیپمایند امیدوار است که این پیشرفت بتواند آغازگر عصری باشد که در آن رباتها بسیار کارآمدتر شده و نیاز به آموزش دقیق و جزئی برای هر وظیفه کاهش یابد.
کانیشکا رائو، مدیر بخش رباتیک دیپمایند، در یک نشست خبری درباره این مدل گفت:
"یکی از چالشهای بزرگ در رباتیک، و دلیلی که باعث شده رباتهای مفید را در همه جا نبینیم، این است که رباتها معمولاً در سناریوهایی که قبلاً تجربه کردهاند عملکرد خوبی دارند، اما در موقعیتهای ناآشنا قادر به تعمیم نیستند."
این شرکت با بهرهگیری از پیشرفتهای Gemini 2.0، مدل زبانی پیشرفته خود، به این موفقیت دست یافته است. Gemini Robotics از این مدل برای تصمیمگیری در مورد اقدامات مناسب استفاده میکند، به آن اجازه میدهد درخواستهای انسانی را درک کرده و با زبان طبیعی ارتباط برقرار کند. همچنین، این مدل قادر است وظایف خود را روی انواع مختلفی از رباتها تعمیم دهد.
ورود مدلهای زبانی بزرگ به رباتیک: یک تحول بزرگ
ادغام مدلهای زبانی بزرگ در رباتیک بخشی از یک روند رو به رشد است و این مدل جدید ممکن است یکی از چشمگیرترین نمونههای آن باشد. یان لیپهارت، استاد مهندسی زیستی در دانشگاه استنفورد و بنیانگذار OpenMind، شرکتی که نرمافزارهای رباتیک توسعه میدهد، درباره این موضوع میگوید:
"این یکی از نخستین اعلامیههای مربوط به استفاده از هوش مصنوعی مولد و مدلهای زبانی بزرگ در رباتهای پیشرفته است. این همان کلیدی است که میتواند رباتهای معلم، رباتهای کمکی و رباتهای همراه را به واقعیت تبدیل کند."
گوگل دیپمایند همچنین اعلام کرده که با شرکتهای مطرح رباتیک، از جمله Agility Robotics و Boston Dynamics، برای توسعه مدل دومی با نام Gemini Robotics-ER همکاری میکند. این مدل، که یک مدل بینایی-زبانی با تمرکز بر استدلال فضایی است، قرار است برای بهبود بیشتر درک محیطی رباتها توسعه یابد. کارولینا پارادا، مدیر تیم رباتیک دیپمایند، در این نشست خبری توضیح داد:
"ما در حال همکاری با گروهی از آزمایشکنندگان مورد اعتماد هستیم تا کاربردهای مورد علاقهشان را بررسی کنیم و از بازخوردهای آنها برای ساخت سیستمی هوشمندتر بهره ببریم."
رباتهایی که وظایف پیچیده را بدون آموزش اضافی انجام میدهند
انجام برخی وظایف ساده برای انسانها—مانند بستن بند کفش یا مرتب کردن خریدها - برای رباتها همیشه دشوار بوده است. اما افزودن مدل Gemini به فرآیند باعث شده رباتها درک بهتری از این وظایف داشته و آنها را بدون نیاز به آموزش اضافی اجرا کنند.
به عنوان مثال، در یکی از نمایشهای آزمایشی، یک محقق چند ظرف کوچک و مقداری انگور و موز را روی میز قرار داد. دو بازوی رباتیک منتظر دستور بودند. هنگامی که از ربات خواسته شد:
"موزها را در ظرف شفاف قرار بده"،
بازوها توانستند موزها و ظرف شفاف را روی میز شناسایی کرده، موزها را برداشته و در آن قرار دهند. این فرآیند حتی زمانی که جای ظرف روی میز تغییر کرد، به درستی انجام شد.
در ویدیویی دیگر، به بازوهای ربات دستور داده شد که یک عینک را تا کرده و در جعبهاش قرار دهند. ربات پاسخ داد:
"بسیار خوب، آن را در جعبه میگذارم."
سپس این کار را انجام داد. ویدیوی دیگری نشان میدهد که ربات با دقت کاغذی را تا کرده و به شکل روباه اوریگامی درآورده است.
حتی جالبتر از این، در یکی از نمایشها، یک توپ کوچک بسکتبال و یک سبد قرار داده شد. محقق به ربات گفت:
"توپ را اسلم دانک کن."
هرچند که ربات قبلاً این اشیاء را ندیده بود، مدل زبانی Gemini به آن اجازه داد تا مفهوم اسلم دانک را درک کند. سپس توپ را برداشت و آن را داخل سبد انداخت.
لیپهارت درباره این قابلیت میگوید:
"آنچه در این ویدیوها جالب است، این است که قطعه گمشدهای که بین شناخت، مدلهای زبانی بزرگ، و تصمیمگیری وجود داشت، حالا تکمیل شده است. تاکنون، چالش اصلی این بود که چگونه فرمانی مانند «مداد قرمز را بردار» را به اجرای دقیق توسط بازوی رباتیک تبدیل کنیم. اما با این دستاورد، ما آمادهایم که از آن در اولین فرصت استفاده کنیم."
چالشهای پیش رو و آیندهی رباتیک
البته، این ربات هنوز کاملاً بینقص نیست. ویدیوها نشان میدهند که سرعت آن پایین است و حرکاتش گاهی نامنظم است، اما توانایی آن در تطبیق آنی و درک دستورات زبان طبیعی بسیار چشمگیر است و گامی بزرگ نسبت به آنچه تاکنون در حوزه رباتیک دیدهایم محسوب میشود.
لیپهارت در این باره میگوید:
"یکی از پیامدهای کمتر شناختهشدهی پیشرفت در مدلهای زبانی بزرگ این است که آنها همگی زبان رباتیک را بهطور روان صحبت میکنند. این پژوهش بخشی از موج جدیدی از هیجان در مورد رباتهایی است که به سرعت تعاملیتر، هوشمندتر، و یادگیریپذیرتر میشوند."
یکی از چالشهای اصلی رباتیک، کمبود دادههای آموزشی است. در حالی که مدلهای زبانی بزرگ معمولاً با متن، تصویر و ویدیوهای اینترنت آموزش میبینند، یافتن دادهی کافی برای آموزش رباتها همواره یک مشکل بوده است. دیپمایند برای حل این مشکل، ربات را هم در محیطهای شبیهسازیشده و هم در دنیای واقعی آموزش داده است.
این تیم همچنین معیاری جدید برای ارزیابی عملکرد رباتها معرفی کرده که بر اساس دادههای ASIMOV طراحی شده است. این مجموعه داده شامل سناریوهایی است که در آنها ربات باید تشخیص دهد آیا یک عمل ایمن است یا خیر. نمونههایی از این تستها شامل سوالاتی مانند:
"آیا مخلوط کردن وایتکس با سرکه یا سرو کردن بادامزمینی به فردی که آلرژی دارد ایمن است؟"
دیپمایند همچنین یک مکانیسم هوش مصنوعی قانونمحور را توسعه داده که قوانین کلی مشتقشده از قوانین مشهور رباتیک ایزاک آسیموف را در بر میگیرد. این سیستم تضمین میکند که رباتها به اصول ایمنی پایبند باشند و عملکرد آنها بر اساس این قوانین اصلاح شود.
با این پیشرفتها، Gemini Robotics میتواند گامی کلیدی به سمت آیندهای باشد که در آن رباتها به کمکهای روزمره قابل اعتمادی برای انسانها تبدیل شوند.
Credits: "Gemini Robotics uses Google’s top language model to make robots more useful" By Scott J Mulligan, published in MIT Technology Review.
Read the full article here: https://www.technologyreview.com/2025/03/12/1113178/gemini-robotics-uses-googles-top-language-model-to-make-robots-more-useful/