چگونه DeepSeek قواعد بازی را تغییر داد و چرا همه از آن پیروی خواهند کرد

این شرکت چینی رازهای پشت پرده را فاش کرده و نشان داده که آزمایشگاه‌های پیشرو چگونه مدل‌های نسل جدید خود را توسعه می‌دهند. حالا ماجرا هیجان‌انگیزتر شده است.

چگونه DeepSeek قواعد بازی را تغییر داد و چرا همه از آن پیروی خواهند کرد

شرکت چینی DeepSeek پرده از روش‌های جدیدی برداشته که ممکن است آزمایشگاه‌های برتر دنیا برای ساخت نسل بعدی مدل‌های خود به کار بگیرند. حالا رقابت جذاب‌تر از همیشه شده است.

هفته گذشته، زمانی که DeepSeek مدل زبانی بزرگ خود به نام R1 را معرفی کرد، موجی از شوک در صنعت فناوری ایالات متحده ایجاد شد. نه‌تنها این مدل توانست با برترین مدل‌های داخلی رقابت کند، بلکه با هزینه‌ای به‌مراتب کمتر توسعه یافته و به‌صورت رایگان منتشر شد.

این اتفاق بازار سهام آمریکا را با افت یک تریلیون دلاری مواجه کرد. مارک اندریسن، یکی از سرمایه‌گذاران برجسته سیلیکون‌ولی، در شبکه اجتماعی X نوشت: «DeepSeek R1 یکی از شگفت‌انگیزترین پیشرفت‌هایی است که تاکنون دیده‌ام و به‌عنوان یک پروژه متن‌باز، هدیه‌ای ارزشمند به جهان است.»

اما نوآوری DeepSeek فقط به این مدل خلاصه نمی‌شود. این شرکت با انتشار جزئیات فنی مدل‌های R1 و V3 و ارائه رایگان آن‌ها، نشان داده که توسعه مدل‌های استدلالی بسیار ساده‌تر از چیزی است که تصور می‌شد. DeepSeek توانسته فاصله خود را با آزمایشگاه‌های برتر جهان کاهش دهد.

رقابت داغ‌تر می‌شود

انتشار R1 رقبا را به تکاپو انداخت. این هفته، غول فناوری چین، Alibaba، نسخه جدیدی از مدل زبانی خود به نام Qwen را معرفی کرد. هم‌زمان، مؤسسه AI2 (یک آزمایشگاه پیشروی غیرانتفاعی در آمریکا) مدل Tulu را به‌روزرسانی کرد. هر دو ادعا می‌کنند که مدل‌های جدیدشان از R1 برتر هستند.

سم آلتمن، مدیرعامل OpenAI، R1 را از نظر هزینه «قابل‌توجه» خواند اما با اطمینان اعلام کرد: «بدون شک مدل‌های بسیار بهتری ارائه خواهیم کرد.»

حالا DeepSeek به رقیب اصلی تبدیل شده است. اما این شرکت دقیقاً چه کرده که چنین طوفانی به پا کرده است؟ آیا این همه هیاهو منطقی است؟ و این اتفاقات چه چشم‌اندازی برای آینده هوش مصنوعی رقم می‌زنند؟

مراحل آموزش مدل‌های زبانی

برای درک پیشرفت DeepSeek، ابتدا باید بدانیم که مدل‌های زبانی بزرگ چگونه آموزش داده می‌شوند. این فرایند دو مرحله اصلی دارد: پیش‌آموزش (Pretraining) و پس‌آموزش (Post-training).

پیش‌آموزش: در این مرحله، مدل با میلیاردها سند شامل وب‌سایت‌ها، کتاب‌ها، کدها و موارد دیگر تغذیه می‌شود تا یاد بگیرد که متن‌هایی مشابه منابع آموزشی خود تولید کند. خروجی این فرآیند یک «مدل پایه» است. این بخش پرهزینه‌ترین مرحله آموزش است. به قول آندری کارپاتی (از بنیان‌گذاران OpenAI): «مدل‌های پایه فقط می‌خواهند اسناد اینترنتی را کامل کنند، نه این‌که یک دستیار باشند.»

پس‌آموزش: در این مرحله، مدل یاد می‌گیرد که کارهای خاصی مانند پاسخ‌گویی به سؤالات را انجام دهد. این کار معمولاً از طریق تنظیم دقیق تحت نظارت (Supervised Fine-Tuning) انجام می‌شود، یعنی مدل با نمونه‌های واقعی سؤال‌وجواب که توسط انسان‌ها تهیه شده‌اند، آموزش می‌بیند.

OpenAI سپس تکنیکی به نام یادگیری تقویتی با بازخورد انسانی (RLHF) را معرفی کرد. در این روش، پاسخ‌های مدل توسط انسان‌ها امتیازدهی می‌شوند و مدل یاد می‌گیرد که پاسخ‌های امتیازبالا را بیشتر تولید کند. این تکنیک دلیل اصلی توانایی بالای ChatGPT در مکالمات روان است و اکنون به یک استاندارد در صنعت تبدیل شده است.

اما این مراحل زمان‌بر و پرهزینه هستند. نوآوری DeepSeek در اینجاست: این شرکت نشان داده که می‌توان بدون نیاز به بازخورد انسانی، نتایج مشابهی به دست آورد.

حذف نیروی انسانی از فرایند یادگیری

DeepSeek رویکرد جدیدی را معرفی کرده که در آن مرحله تنظیم دقیق تحت نظارت و RLHF حذف شده و جای خود را به یادگیری تقویتی کاملاً خودکار داده‌اند. در این روش، به‌جای استفاده از بازخورد انسانی، مدل از امتیازهایی که خود کامپیوتر تولید می‌کند، استفاده می‌کند.

ایتامار فریدمن، از مدیران سابق Alibaba، این موضوع را یک پیشرفت بزرگ می‌داند: «شما تقریباً مدل را بدون نیاز به نیروی انسانی آموزش می‌دهید.»

البته این روش یک نقطه‌ضعف دارد: رایانه‌ها در ارزیابی پاسخ‌های مربوط به ریاضیات و کدنویسی عملکرد خوبی دارند، اما در سؤالات باز و خلاقانه ضعیف‌تر هستند. به همین دلیل، DeepSeek همچنان در برخی موارد به بازخورد انسانی متکی است.

اما هزینه این کار در چین کمتر است. «در مقایسه با بازارهای غربی، هزینه تولید داده‌های باکیفیت در چین پایین‌تر است و نیروی کار متخصص در زمینه‌های ریاضی، برنامه‌نویسی و مهندسی بیشتر در دسترس است.»

استفاده از یادگیری تقویتی برای ساخت مدل‌های قوی‌تر

DeepSeek برای ساخت مدل‌های خود از یادگیری تقویتی به شیوه‌ای هوشمندانه استفاده کرده است. به‌عنوان‌مثال، مدل V3 که ماه گذشته معرفی شد، توانست عملکردی در حد GPT-4o داشته باشد. مدل R1 نیز بر پایه V3 توسعه یافته و با تکرار چندین‌باره یادگیری تقویتی ساخته شده است.

گوگل DeepMind در سال ۲۰۱۶ نشان داد که یک مدل بازی تخته‌ای می‌تواند با یادگیری تقویتی، از انجام حرکات تصادفی به سطحی برسد که قهرمانان جهان را شکست دهد. DeepSeek از روشی مشابه در مدل‌های زبانی استفاده کرده و به‌جای حرکات بازی، پاسخ‌های احتمالی را به‌عنوان «حرکت» در نظر گرفته است.

نوآوری‌های فنی DeepSeek

یکی دیگر از تکنیک‌های کلیدی DeepSeek، بهینه‌سازی سیاست نسبی گروهی (GRPO) است که روشی ارزان‌تر برای یادگیری تقویتی ارائه می‌دهد. برخلاف روش‌های سنتی که به یک مدل جداگانه برای امتیازدهی نیاز دارند، GRPO با حدس‌های هوشمندانه این مشکل را حل می‌کند.

علاوه بر این، DeepSeek روش‌های ارزان‌تری برای جمع‌آوری داده‌های آموزشی پیدا کرده است. برای مثال، این شرکت از مجموعه داده رایگان Common Crawl استفاده کرد و به‌طور خودکار فقط اسناد شامل مسائل ریاضی را استخراج کرد. این روش نه‌تنها هزینه را کاهش داد، بلکه کارآمدتر هم بود.

از نظر سخت‌افزاری نیز DeepSeek بهینه‌سازی‌های پیشرفته‌ای انجام داده است. مهندسان این شرکت توانسته‌اند از پردازنده‌های گرافیکی قدیمی، بهره‌وری بیشتری بگیرند و بدون نیاز به سخت‌افزار گران‌قیمت، مدل‌های قدرتمندی بسازند.

آیندۀ هوش مصنوعی: آیا مدل‌های رایگان و قوی‌تر در راه‌اند؟

آنچه DeepSeek با R1 نشان داد این است که اگر یک مدل پایه قوی باشد، می‌توان با یادگیری تقویتی و بدون نظارت انسانی، قابلیت استدلال را در آن تقویت کرد. این بدان معناست که دیگر ساخت مدل‌های استدلالی به منابع عظیم نیازی ندارد.

فریدمن معتقد است که این تغییر می‌تواند باعث افزایش همکاری بین شرکت‌های کوچک و کاهش انحصار غول‌های فناوری شود: «این می‌تواند یک لحظه تاریخی باشد.»


Credit "How DeepSeek ripped up the AI playbook—and why everyone’s going to follow it" By Will Douglas Heaven, published in MIT Technology Review.

Read the article here: https://www.technologyreview.com/2025/01/31/1110740/how-deepseek-ripped-up-the-ai-playbook-and-why-everyones-going-to-follow-it/

Image Credit: Stephanie Arnett/MIT Technology Review | Envato