چگونه DeepSeek قواعد بازی را تغییر داد و چرا همه از آن پیروی خواهند کرد
این شرکت چینی رازهای پشت پرده را فاش کرده و نشان داده که آزمایشگاههای پیشرو چگونه مدلهای نسل جدید خود را توسعه میدهند. حالا ماجرا هیجانانگیزتر شده است.

شرکت چینی DeepSeek پرده از روشهای جدیدی برداشته که ممکن است آزمایشگاههای برتر دنیا برای ساخت نسل بعدی مدلهای خود به کار بگیرند. حالا رقابت جذابتر از همیشه شده است.
هفته گذشته، زمانی که DeepSeek مدل زبانی بزرگ خود به نام R1 را معرفی کرد، موجی از شوک در صنعت فناوری ایالات متحده ایجاد شد. نهتنها این مدل توانست با برترین مدلهای داخلی رقابت کند، بلکه با هزینهای بهمراتب کمتر توسعه یافته و بهصورت رایگان منتشر شد.
این اتفاق بازار سهام آمریکا را با افت یک تریلیون دلاری مواجه کرد. مارک اندریسن، یکی از سرمایهگذاران برجسته سیلیکونولی، در شبکه اجتماعی X نوشت: «DeepSeek R1 یکی از شگفتانگیزترین پیشرفتهایی است که تاکنون دیدهام و بهعنوان یک پروژه متنباز، هدیهای ارزشمند به جهان است.»
اما نوآوری DeepSeek فقط به این مدل خلاصه نمیشود. این شرکت با انتشار جزئیات فنی مدلهای R1 و V3 و ارائه رایگان آنها، نشان داده که توسعه مدلهای استدلالی بسیار سادهتر از چیزی است که تصور میشد. DeepSeek توانسته فاصله خود را با آزمایشگاههای برتر جهان کاهش دهد.
رقابت داغتر میشود
انتشار R1 رقبا را به تکاپو انداخت. این هفته، غول فناوری چین، Alibaba، نسخه جدیدی از مدل زبانی خود به نام Qwen را معرفی کرد. همزمان، مؤسسه AI2 (یک آزمایشگاه پیشروی غیرانتفاعی در آمریکا) مدل Tulu را بهروزرسانی کرد. هر دو ادعا میکنند که مدلهای جدیدشان از R1 برتر هستند.
سم آلتمن، مدیرعامل OpenAI، R1 را از نظر هزینه «قابلتوجه» خواند اما با اطمینان اعلام کرد: «بدون شک مدلهای بسیار بهتری ارائه خواهیم کرد.»
حالا DeepSeek به رقیب اصلی تبدیل شده است. اما این شرکت دقیقاً چه کرده که چنین طوفانی به پا کرده است؟ آیا این همه هیاهو منطقی است؟ و این اتفاقات چه چشماندازی برای آینده هوش مصنوعی رقم میزنند؟
مراحل آموزش مدلهای زبانی
برای درک پیشرفت DeepSeek، ابتدا باید بدانیم که مدلهای زبانی بزرگ چگونه آموزش داده میشوند. این فرایند دو مرحله اصلی دارد: پیشآموزش (Pretraining) و پسآموزش (Post-training).
پیشآموزش: در این مرحله، مدل با میلیاردها سند شامل وبسایتها، کتابها، کدها و موارد دیگر تغذیه میشود تا یاد بگیرد که متنهایی مشابه منابع آموزشی خود تولید کند. خروجی این فرآیند یک «مدل پایه» است. این بخش پرهزینهترین مرحله آموزش است. به قول آندری کارپاتی (از بنیانگذاران OpenAI): «مدلهای پایه فقط میخواهند اسناد اینترنتی را کامل کنند، نه اینکه یک دستیار باشند.»
پسآموزش: در این مرحله، مدل یاد میگیرد که کارهای خاصی مانند پاسخگویی به سؤالات را انجام دهد. این کار معمولاً از طریق تنظیم دقیق تحت نظارت (Supervised Fine-Tuning) انجام میشود، یعنی مدل با نمونههای واقعی سؤالوجواب که توسط انسانها تهیه شدهاند، آموزش میبیند.
OpenAI سپس تکنیکی به نام یادگیری تقویتی با بازخورد انسانی (RLHF) را معرفی کرد. در این روش، پاسخهای مدل توسط انسانها امتیازدهی میشوند و مدل یاد میگیرد که پاسخهای امتیازبالا را بیشتر تولید کند. این تکنیک دلیل اصلی توانایی بالای ChatGPT در مکالمات روان است و اکنون به یک استاندارد در صنعت تبدیل شده است.
اما این مراحل زمانبر و پرهزینه هستند. نوآوری DeepSeek در اینجاست: این شرکت نشان داده که میتوان بدون نیاز به بازخورد انسانی، نتایج مشابهی به دست آورد.
حذف نیروی انسانی از فرایند یادگیری
DeepSeek رویکرد جدیدی را معرفی کرده که در آن مرحله تنظیم دقیق تحت نظارت و RLHF حذف شده و جای خود را به یادگیری تقویتی کاملاً خودکار دادهاند. در این روش، بهجای استفاده از بازخورد انسانی، مدل از امتیازهایی که خود کامپیوتر تولید میکند، استفاده میکند.
ایتامار فریدمن، از مدیران سابق Alibaba، این موضوع را یک پیشرفت بزرگ میداند: «شما تقریباً مدل را بدون نیاز به نیروی انسانی آموزش میدهید.»
البته این روش یک نقطهضعف دارد: رایانهها در ارزیابی پاسخهای مربوط به ریاضیات و کدنویسی عملکرد خوبی دارند، اما در سؤالات باز و خلاقانه ضعیفتر هستند. به همین دلیل، DeepSeek همچنان در برخی موارد به بازخورد انسانی متکی است.
اما هزینه این کار در چین کمتر است. «در مقایسه با بازارهای غربی، هزینه تولید دادههای باکیفیت در چین پایینتر است و نیروی کار متخصص در زمینههای ریاضی، برنامهنویسی و مهندسی بیشتر در دسترس است.»
استفاده از یادگیری تقویتی برای ساخت مدلهای قویتر
DeepSeek برای ساخت مدلهای خود از یادگیری تقویتی به شیوهای هوشمندانه استفاده کرده است. بهعنوانمثال، مدل V3 که ماه گذشته معرفی شد، توانست عملکردی در حد GPT-4o داشته باشد. مدل R1 نیز بر پایه V3 توسعه یافته و با تکرار چندینباره یادگیری تقویتی ساخته شده است.
گوگل DeepMind در سال ۲۰۱۶ نشان داد که یک مدل بازی تختهای میتواند با یادگیری تقویتی، از انجام حرکات تصادفی به سطحی برسد که قهرمانان جهان را شکست دهد. DeepSeek از روشی مشابه در مدلهای زبانی استفاده کرده و بهجای حرکات بازی، پاسخهای احتمالی را بهعنوان «حرکت» در نظر گرفته است.
نوآوریهای فنی DeepSeek
یکی دیگر از تکنیکهای کلیدی DeepSeek، بهینهسازی سیاست نسبی گروهی (GRPO) است که روشی ارزانتر برای یادگیری تقویتی ارائه میدهد. برخلاف روشهای سنتی که به یک مدل جداگانه برای امتیازدهی نیاز دارند، GRPO با حدسهای هوشمندانه این مشکل را حل میکند.
علاوه بر این، DeepSeek روشهای ارزانتری برای جمعآوری دادههای آموزشی پیدا کرده است. برای مثال، این شرکت از مجموعه داده رایگان Common Crawl استفاده کرد و بهطور خودکار فقط اسناد شامل مسائل ریاضی را استخراج کرد. این روش نهتنها هزینه را کاهش داد، بلکه کارآمدتر هم بود.
از نظر سختافزاری نیز DeepSeek بهینهسازیهای پیشرفتهای انجام داده است. مهندسان این شرکت توانستهاند از پردازندههای گرافیکی قدیمی، بهرهوری بیشتری بگیرند و بدون نیاز به سختافزار گرانقیمت، مدلهای قدرتمندی بسازند.
آیندۀ هوش مصنوعی: آیا مدلهای رایگان و قویتر در راهاند؟
آنچه DeepSeek با R1 نشان داد این است که اگر یک مدل پایه قوی باشد، میتوان با یادگیری تقویتی و بدون نظارت انسانی، قابلیت استدلال را در آن تقویت کرد. این بدان معناست که دیگر ساخت مدلهای استدلالی به منابع عظیم نیازی ندارد.
فریدمن معتقد است که این تغییر میتواند باعث افزایش همکاری بین شرکتهای کوچک و کاهش انحصار غولهای فناوری شود: «این میتواند یک لحظه تاریخی باشد.»
Credit "How DeepSeek ripped up the AI playbook—and why everyone’s going to follow it" By Will Douglas Heaven, published in MIT Technology Review.
Read the article here: https://www.technologyreview.com/2025/01/31/1110740/how-deepseek-ripped-up-the-ai-playbook-and-why-everyones-going-to-follow-it/
Image Credit: Stephanie Arnett/MIT Technology Review | Envato