مدل گوگل جِمینای اکنون دارای «درجه‌ای قابل تنظیم» برای کنترل میزان استدلال آن است

استدلال، مرز جدید هوش مصنوعی است، اما اقدام گوگل به مشکلی فزاینده و پرهزینه اشاره دارد: مدل‌ها بی‌دلیل بیش از حد فکر می‌کنند.

مدل گوگل جِمینای اکنون دارای «درجه‌ای قابل تنظیم» برای کنترل میزان استدلال آن است
Image Credits: Stephanie Arnett/MIT Technology Review | Adobe Stock

به‌روزرسانی جدید شرکت Google DeepMind در یکی از برترین مدل‌های هوش مصنوعی Gemini، شامل درجه‌ای قابل تنظیم است که مشخص می‌کند سیستم تا چه اندازه در پاسخ‌دهی «فکر» کند. این ویژگی جدید ظاهراً با هدف صرفه‌جویی در هزینه برای توسعه‌دهندگان طراحی شده است، اما در عین حال به مشکلی اذعان دارد: مدل‌های استدلالی—که شیفتگی جدید دنیای فناوری هستند—تمایل دارند بیش از حد فکر کنند و در این روند، پول و انرژی زیادی مصرف می‌کنند.

از سال ۲۰۱۹ تاکنون، دو روش اصلی برای قدرتمندتر کردن یک مدل هوش مصنوعی وجود داشته است: یکی بزرگ‌تر کردن آن با استفاده از داده‌های آموزشی بیشتر، و دیگری ارائه بازخورد بهتر درباره اینکه چه چیزی یک پاسخ خوب محسوب می‌شود. اما از اواخر سال گذشته، گوگل دیپ‌مایند و دیگر شرکت‌های هوش مصنوعی به روش سومی روی آوردند: استدلال.

جک ری (Jack Rae)، دانشمند ارشد پژوهشی در دیپ‌مایند، می‌گوید: «ما واقعاً روی مسئله ‘فکر کردن’ تمرکز زیادی داشته‌ایم.» این مدل‌ها که برای حل منطقی مسائل طراحی شده‌اند و زمان بیشتری را صرف رسیدن به یک پاسخ می‌کنند، با معرفی مدل DeepSeek R1 در اوایل امسال به شهرت رسیدند. این مدل‌ها برای شرکت‌های هوش مصنوعی جذاب‌اند، زیرا می‌توانند یک مدل موجود را با آموزش برای حل مسائل به شیوه‌ای عمل‌گرایانه، بهبود ببخشند—بدون آنکه نیاز باشد یک مدل جدید از ابتدا ساخته شود.

اما هرچه یک مدل هوش مصنوعی زمان (و انرژی) بیشتری را صرف پردازش یک پرسش کند، هزینه اجرای آن بالاتر می‌رود. جدول‌های رتبه‌بندی مدل‌های استدلالی نشان می‌دهند که انجام تنها یک کار می‌تواند بیش از ۲۰۰ دلار هزینه داشته باشد. وعده این مدل‌ها آن است که صرف زمان و هزینه‌ی بیشتر، به آن‌ها کمک می‌کند تا در انجام وظایف دشوار مانند تحلیل کد یا جمع‌آوری اطلاعات از اسناد متعدد بهتر عمل کنند.

کورای کاووکچوگلو (Koray Kavukcuoglu)، مدیر ارشد فنی Google DeepMind می‌گوید: «هرچه بتوانید فرضیات و ایده‌های بیشتری را بررسی کنید، احتمال اینکه به پاسخ درست برسید بیشتر است.»

البته این قضیه همیشه صادق نیست. تولسی دوشی (Tulsee Doshi)، که سرپرستی تیم محصول در Gemini را بر عهده دارد، درباره مدل جدید Gemini Flash 2.5 که امروز معرفی شده و دارای یک اسلایدر برای تنظیم میزان «فکر کردن» است، می‌گوید: «مدل بیش از اندازه فکر می‌کند. برای درخواست‌های ساده، مدل بیش از حد لازم فکر می‌کند.»

وقتی یک مدل زمان بیشتری از حد نیاز برای یک مسئله صرف می‌کند، اجرای آن برای توسعه‌دهندگان پرهزینه‌تر شده و تأثیرات منفی بیشتری بر محیط زیست دارد.

ناتان حبیب (Nathan Habib)، مهندس شرکت Hugging Face که در زمینه گسترش مدل‌های استدلالی تحقیق کرده است، می‌گوید که پدیده بیش‌فکری بسیار رایج است. او می‌گوید: «در شتابی که برای نمایش هوش بالاتر در مدل‌ها وجود دارد، شرکت‌ها مثل این هستند که مدل‌های استدلالی را به مثابه چکش استفاده می‌کنند، حتی وقتی هیچ میخی در کار نیست.» در واقع، وقتی شرکت OpenAI در فوریه امسال از یک مدل جدید رونمایی کرد، اعلام کرد که این مدل آخرین مدل «غیراستدلالی» آن‌ها خواهد بود.

حبیب می‌گوید افزایش عملکرد مدل‌های استدلالی در برخی وظایف «غیرقابل انکار» است، اما در بسیاری از موارد دیگر که کاربران معمولاً از هوش مصنوعی استفاده می‌کنند، این مزیت وجود ندارد. حتی وقتی از استدلال در مسائل مناسب استفاده شود، باز هم ممکن است نتایج به خطا برود. حبیب مثالی از یک مدل استدلالی پیشرفته را نشان می‌دهد که باید یک مسئله شیمی آلی را حل می‌کرد. ابتدا عملکرد خوبی داشت، اما در میانه مسیر، پاسخ‌هایش شکلی شبیه به فروپاشی پیدا کردند—بارها عبارت «صبر کن، اما...» را تکرار کرد. در نهایت، این مدل زمانی بسیار بیشتر از یک مدل غیر استدلالی صرف کرد. کیت اولشِفسکا (Kate Olszewska)، که در دیپ‌مایند روی ارزیابی مدل‌های Gemini کار می‌کند، می‌گوید مدل‌های گوگل نیز می‌توانند در حلقه‌های بی‌پایان گرفتار شوند.

در این راستا، درجه‌ی استدلالی جدید گوگل تلاشی است برای حل این مشکل. فعلاً این ویژگی برای نسخه مصرف‌کننده Gemini ارائه نشده و تنها برای توسعه‌دهندگانی در نظر گرفته شده است که اپلیکیشن طراحی می‌کنند. توسعه‌دهندگان می‌توانند یک بودجه مشخص برای میزان توان پردازشی که مدل باید روی یک مسئله خاص صرف کند تعیین کنند. ایده این است که اگر مسئله‌ای به استدلال زیادی نیاز ندارد، درجه را پایین بیاورند. هنگامی که استدلال فعال باشد، تولید خروجی از مدل تقریباً شش برابر پرهزینه‌تر می‌شود.

دلیل دیگر این انعطاف‌پذیری آن است که هنوز مشخص نیست در چه شرایطی به استدلال بیشتر برای دستیابی به پاسخ بهتر نیاز داریم.

ری می‌گوید: «واقعاً سخت است که مرز مشخصی برای اینکه ‘کدام کار دقیقاً نیاز به فکر کردن دارد’ ترسیم کنیم.»

وظایف واضح شامل کدنویسی هستند (مثلاً توسعه‌دهندگان ممکن است صدها خط کد را درون مدل قرار دهند و درخواست کمک کنند) یا تولید گزارش‌های تحقیقی در سطح کارشناسی. در چنین مواردی باید درجه به حداکثر برسد، و توسعه‌دهندگان احتمالاً هزینه را ارزشمند تلقی می‌کنند. اما برای تشخیص اینکه چه زمان تنظیمات متوسط یا پایین کفایت می‌کنند، آزمایش‌های بیشتر و دریافت بازخورد از توسعه‌دهندگان ضروری است.

حبیب می‌گوید مقدار سرمایه‌گذاری در مدل‌های استدلالی نشان می‌دهد که پارادایم قدیمی برای بهبود مدل‌ها در حال تغییر است. او می‌گوید: «قوانین مقیاس‌پذیری در حال جایگزین شدن هستند.»

به‌جای اینکه شرکت‌ها صرفاً مدل‌های بزرگ‌تری بسازند، اکنون روی این فرض شرط‌بندی می‌کنند که پاسخ‌های بهتر از طریق زمان‌های پردازشی طولانی‌تر حاصل خواهد شد. چندین سال است که مشخص شده شرکت‌های هوش مصنوعی برای استنتاج—یعنی وقتی مدل‌ها واقعاً برای تولید پاسخ فعال می‌شوند—بیش از آموزش هزینه می‌کنند، و این روند با فراگیر شدن مدل‌های استدلالی شتاب خواهد گرفت. همچنین، استنتاج عامل افزایش سهم انتشار گازهای گلخانه‌ای نیز هست.

(در مورد مدل‌هایی که «استدلال» یا «تفکر» می‌کنند: یک مدل هوش مصنوعی نمی‌تواند این کارها را به شکلی انجام دهد که ما معمولاً هنگام صحبت درباره انسان‌ها در نظر داریم. وقتی از ری پرسیدم چرا شرکت از زبان انسان‌وار برای توصیف مدل‌ها استفاده می‌کند، گفت: «این کار به ما اجازه داده یک نام ساده داشته باشیم، و مردم به‌صورت شهودی درک می‌کنند که منظورمان چیست.» کاووکچوگلو نیز می‌گوید که گوگل قصد ندارد هیچ فرآیند شناختی خاص انسانی را در مدل‌هایش تقلید کند.)

حتی اگر مدل‌های استدلالی همچنان غالب باقی بمانند، Google DeepMind تنها بازیگر این عرصه نیست. وقتی نتایج مدل DeepSeek در دسامبر و ژانویه منتشر شد، باعث شد ارزش بازار سهام تقریباً یک تریلیون دلار افت کند، زیرا وعده داده بود که می‌توان مدل‌های قدرتمند استدلالی را با هزینه کم در اختیار داشت. این مدل «با وزن‌های باز» توصیف می‌شود—به این معنا که تنظیمات داخلی آن، موسوم به وزن‌ها، به‌صورت عمومی در دسترس‌اند و به توسعه‌دهندگان امکان می‌دهند آن را خودشان اجرا کنند، به‌جای اینکه هزینه دسترسی به مدل‌های اختصاصی از گوگل یا OpenAI را بپردازند. (اصطلاح «متن‌باز» برای مدل‌هایی به کار می‌رود که داده‌های آموزشی آن‌ها نیز منتشر شده است.)

پس چرا از مدل‌های اختصاصی گوگل استفاده کنیم وقتی مدل‌های باز مانند DeepSeek عملکرد بسیار خوبی دارند؟ کاووکچوگلو می‌گوید که در زمینه‌هایی مانند برنامه‌نویسی، ریاضی و امور مالی، «انتظار می‌رود مدل‌ها بسیار دقیق و توانمند در درک موقعیت‌های پیچیده باشند»، و پیش‌بینی می‌کند مدل‌هایی که بتوانند این نیاز را—چه باز باشند و چه اختصاصی—برآورده کنند، در نهایت پیروز خواهند بود. از دیدگاه دیپ‌مایند، همین استدلال پایه‌ای برای مدل‌های آینده هوش مصنوعی خواهد بود که به‌جای شما عمل کرده و مسائل‌تان را حل می‌کنند.

او می‌گوید: «استدلال، قابلیت کلیدی‌ای است که هوش را می‌سازد. از لحظه‌ای که مدل شروع به فکر کردن می‌کند، نوعی عاملیت برای آن آغاز می‌شود.»


Credits: "A Google Gemini model now has a “dial” to adjust how much it reasons" by James O'Donnell, published in MIT Technology Review.

Article: https://www.technologyreview.com/2025/04/17/1115375/a-google-gemini-model-now-has-a-dial-to-adjust-how-much-it-reasons/