مدل گوگل جِمینای اکنون دارای «درجهای قابل تنظیم» برای کنترل میزان استدلال آن است
استدلال، مرز جدید هوش مصنوعی است، اما اقدام گوگل به مشکلی فزاینده و پرهزینه اشاره دارد: مدلها بیدلیل بیش از حد فکر میکنند.

بهروزرسانی جدید شرکت Google DeepMind در یکی از برترین مدلهای هوش مصنوعی Gemini، شامل درجهای قابل تنظیم است که مشخص میکند سیستم تا چه اندازه در پاسخدهی «فکر» کند. این ویژگی جدید ظاهراً با هدف صرفهجویی در هزینه برای توسعهدهندگان طراحی شده است، اما در عین حال به مشکلی اذعان دارد: مدلهای استدلالی—که شیفتگی جدید دنیای فناوری هستند—تمایل دارند بیش از حد فکر کنند و در این روند، پول و انرژی زیادی مصرف میکنند.
از سال ۲۰۱۹ تاکنون، دو روش اصلی برای قدرتمندتر کردن یک مدل هوش مصنوعی وجود داشته است: یکی بزرگتر کردن آن با استفاده از دادههای آموزشی بیشتر، و دیگری ارائه بازخورد بهتر درباره اینکه چه چیزی یک پاسخ خوب محسوب میشود. اما از اواخر سال گذشته، گوگل دیپمایند و دیگر شرکتهای هوش مصنوعی به روش سومی روی آوردند: استدلال.
جک ری (Jack Rae)، دانشمند ارشد پژوهشی در دیپمایند، میگوید: «ما واقعاً روی مسئله ‘فکر کردن’ تمرکز زیادی داشتهایم.» این مدلها که برای حل منطقی مسائل طراحی شدهاند و زمان بیشتری را صرف رسیدن به یک پاسخ میکنند، با معرفی مدل DeepSeek R1 در اوایل امسال به شهرت رسیدند. این مدلها برای شرکتهای هوش مصنوعی جذاباند، زیرا میتوانند یک مدل موجود را با آموزش برای حل مسائل به شیوهای عملگرایانه، بهبود ببخشند—بدون آنکه نیاز باشد یک مدل جدید از ابتدا ساخته شود.
اما هرچه یک مدل هوش مصنوعی زمان (و انرژی) بیشتری را صرف پردازش یک پرسش کند، هزینه اجرای آن بالاتر میرود. جدولهای رتبهبندی مدلهای استدلالی نشان میدهند که انجام تنها یک کار میتواند بیش از ۲۰۰ دلار هزینه داشته باشد. وعده این مدلها آن است که صرف زمان و هزینهی بیشتر، به آنها کمک میکند تا در انجام وظایف دشوار مانند تحلیل کد یا جمعآوری اطلاعات از اسناد متعدد بهتر عمل کنند.
کورای کاووکچوگلو (Koray Kavukcuoglu)، مدیر ارشد فنی Google DeepMind میگوید: «هرچه بتوانید فرضیات و ایدههای بیشتری را بررسی کنید، احتمال اینکه به پاسخ درست برسید بیشتر است.»
البته این قضیه همیشه صادق نیست. تولسی دوشی (Tulsee Doshi)، که سرپرستی تیم محصول در Gemini را بر عهده دارد، درباره مدل جدید Gemini Flash 2.5 که امروز معرفی شده و دارای یک اسلایدر برای تنظیم میزان «فکر کردن» است، میگوید: «مدل بیش از اندازه فکر میکند. برای درخواستهای ساده، مدل بیش از حد لازم فکر میکند.»
وقتی یک مدل زمان بیشتری از حد نیاز برای یک مسئله صرف میکند، اجرای آن برای توسعهدهندگان پرهزینهتر شده و تأثیرات منفی بیشتری بر محیط زیست دارد.
ناتان حبیب (Nathan Habib)، مهندس شرکت Hugging Face که در زمینه گسترش مدلهای استدلالی تحقیق کرده است، میگوید که پدیده بیشفکری بسیار رایج است. او میگوید: «در شتابی که برای نمایش هوش بالاتر در مدلها وجود دارد، شرکتها مثل این هستند که مدلهای استدلالی را به مثابه چکش استفاده میکنند، حتی وقتی هیچ میخی در کار نیست.» در واقع، وقتی شرکت OpenAI در فوریه امسال از یک مدل جدید رونمایی کرد، اعلام کرد که این مدل آخرین مدل «غیراستدلالی» آنها خواهد بود.
حبیب میگوید افزایش عملکرد مدلهای استدلالی در برخی وظایف «غیرقابل انکار» است، اما در بسیاری از موارد دیگر که کاربران معمولاً از هوش مصنوعی استفاده میکنند، این مزیت وجود ندارد. حتی وقتی از استدلال در مسائل مناسب استفاده شود، باز هم ممکن است نتایج به خطا برود. حبیب مثالی از یک مدل استدلالی پیشرفته را نشان میدهد که باید یک مسئله شیمی آلی را حل میکرد. ابتدا عملکرد خوبی داشت، اما در میانه مسیر، پاسخهایش شکلی شبیه به فروپاشی پیدا کردند—بارها عبارت «صبر کن، اما...» را تکرار کرد. در نهایت، این مدل زمانی بسیار بیشتر از یک مدل غیر استدلالی صرف کرد. کیت اولشِفسکا (Kate Olszewska)، که در دیپمایند روی ارزیابی مدلهای Gemini کار میکند، میگوید مدلهای گوگل نیز میتوانند در حلقههای بیپایان گرفتار شوند.
در این راستا، درجهی استدلالی جدید گوگل تلاشی است برای حل این مشکل. فعلاً این ویژگی برای نسخه مصرفکننده Gemini ارائه نشده و تنها برای توسعهدهندگانی در نظر گرفته شده است که اپلیکیشن طراحی میکنند. توسعهدهندگان میتوانند یک بودجه مشخص برای میزان توان پردازشی که مدل باید روی یک مسئله خاص صرف کند تعیین کنند. ایده این است که اگر مسئلهای به استدلال زیادی نیاز ندارد، درجه را پایین بیاورند. هنگامی که استدلال فعال باشد، تولید خروجی از مدل تقریباً شش برابر پرهزینهتر میشود.
دلیل دیگر این انعطافپذیری آن است که هنوز مشخص نیست در چه شرایطی به استدلال بیشتر برای دستیابی به پاسخ بهتر نیاز داریم.
ری میگوید: «واقعاً سخت است که مرز مشخصی برای اینکه ‘کدام کار دقیقاً نیاز به فکر کردن دارد’ ترسیم کنیم.»
وظایف واضح شامل کدنویسی هستند (مثلاً توسعهدهندگان ممکن است صدها خط کد را درون مدل قرار دهند و درخواست کمک کنند) یا تولید گزارشهای تحقیقی در سطح کارشناسی. در چنین مواردی باید درجه به حداکثر برسد، و توسعهدهندگان احتمالاً هزینه را ارزشمند تلقی میکنند. اما برای تشخیص اینکه چه زمان تنظیمات متوسط یا پایین کفایت میکنند، آزمایشهای بیشتر و دریافت بازخورد از توسعهدهندگان ضروری است.
حبیب میگوید مقدار سرمایهگذاری در مدلهای استدلالی نشان میدهد که پارادایم قدیمی برای بهبود مدلها در حال تغییر است. او میگوید: «قوانین مقیاسپذیری در حال جایگزین شدن هستند.»
بهجای اینکه شرکتها صرفاً مدلهای بزرگتری بسازند، اکنون روی این فرض شرطبندی میکنند که پاسخهای بهتر از طریق زمانهای پردازشی طولانیتر حاصل خواهد شد. چندین سال است که مشخص شده شرکتهای هوش مصنوعی برای استنتاج—یعنی وقتی مدلها واقعاً برای تولید پاسخ فعال میشوند—بیش از آموزش هزینه میکنند، و این روند با فراگیر شدن مدلهای استدلالی شتاب خواهد گرفت. همچنین، استنتاج عامل افزایش سهم انتشار گازهای گلخانهای نیز هست.
(در مورد مدلهایی که «استدلال» یا «تفکر» میکنند: یک مدل هوش مصنوعی نمیتواند این کارها را به شکلی انجام دهد که ما معمولاً هنگام صحبت درباره انسانها در نظر داریم. وقتی از ری پرسیدم چرا شرکت از زبان انسانوار برای توصیف مدلها استفاده میکند، گفت: «این کار به ما اجازه داده یک نام ساده داشته باشیم، و مردم بهصورت شهودی درک میکنند که منظورمان چیست.» کاووکچوگلو نیز میگوید که گوگل قصد ندارد هیچ فرآیند شناختی خاص انسانی را در مدلهایش تقلید کند.)
حتی اگر مدلهای استدلالی همچنان غالب باقی بمانند، Google DeepMind تنها بازیگر این عرصه نیست. وقتی نتایج مدل DeepSeek در دسامبر و ژانویه منتشر شد، باعث شد ارزش بازار سهام تقریباً یک تریلیون دلار افت کند، زیرا وعده داده بود که میتوان مدلهای قدرتمند استدلالی را با هزینه کم در اختیار داشت. این مدل «با وزنهای باز» توصیف میشود—به این معنا که تنظیمات داخلی آن، موسوم به وزنها، بهصورت عمومی در دسترساند و به توسعهدهندگان امکان میدهند آن را خودشان اجرا کنند، بهجای اینکه هزینه دسترسی به مدلهای اختصاصی از گوگل یا OpenAI را بپردازند. (اصطلاح «متنباز» برای مدلهایی به کار میرود که دادههای آموزشی آنها نیز منتشر شده است.)
پس چرا از مدلهای اختصاصی گوگل استفاده کنیم وقتی مدلهای باز مانند DeepSeek عملکرد بسیار خوبی دارند؟ کاووکچوگلو میگوید که در زمینههایی مانند برنامهنویسی، ریاضی و امور مالی، «انتظار میرود مدلها بسیار دقیق و توانمند در درک موقعیتهای پیچیده باشند»، و پیشبینی میکند مدلهایی که بتوانند این نیاز را—چه باز باشند و چه اختصاصی—برآورده کنند، در نهایت پیروز خواهند بود. از دیدگاه دیپمایند، همین استدلال پایهای برای مدلهای آینده هوش مصنوعی خواهد بود که بهجای شما عمل کرده و مسائلتان را حل میکنند.
او میگوید: «استدلال، قابلیت کلیدیای است که هوش را میسازد. از لحظهای که مدل شروع به فکر کردن میکند، نوعی عاملیت برای آن آغاز میشود.»
Credits: "A Google Gemini model now has a “dial” to adjust how much it reasons" by James O'Donnell, published in MIT Technology Review.
Article: https://www.technologyreview.com/2025/04/17/1115375/a-google-gemini-model-now-has-a-dial-to-adjust-how-much-it-reasons/