چگونه یک مدل هوش مصنوعی چینی بر تحریمهای آمریکا غلبه کرد؟

مدل جدید متنباز DeepSeek R1، که قابلیت استدلال پیشرفتهای دارد، توجه بسیاری را در جامعه هوش مصنوعی به خود جلب کرده است.
این مدل توسط استارتاپ چینی DeepSeek توسعه یافته و مدعی است که عملکردی مشابه یا حتی بهتر از ChatGPT o1 در چندین معیار کلیدی دارد، اما با هزینهای بسیار پایینتر عمل میکند.
هانچنگ کائو، استادیار سیستمهای اطلاعاتی در دانشگاه اموری، معتقد است: «این پیشرفت میتواند یک نقطه عطف برای پژوهشگران و توسعهدهندگانی باشد که منابع محدودی دارند، بهویژه در کشورهای در حال توسعه.»
DeepSeek در شرایطی به این موفقیت دست یافته که شرکتهای هوش مصنوعی چینی با محدودیتهای شدیدی به دلیل تحریمهای صادراتی آمریکا بر تراشههای پیشرفته روبهرو هستند. اما شواهد نشان میدهد که این تحریمها نه تنها تواناییهای هوش مصنوعی چین را تضعیف نکردهاند، بلکه شرکتهایی مانند DeepSeek را به نوآوری و توسعه راهکارهای کارآمدتر سوق دادهاند.
خلاقیت در شرایط محدودیت
برای توسعه مدل R1، تیم DeepSeek مجبور شد فرآیند آموزش مدل را بازطراحی کند تا از فشار وارد بر پردازندههای گرافیکی خود بکاهد. این پردازندهها، که توسط Nvidia برای بازار چین تولید شدهاند، از نظر عملکرد به نصف سرعت نسخههای پیشرفته محدود شدهاند. به گفته ژیهان وانگ، کارمند سابق DeepSeek و دانشجوی دکترای علوم کامپیوتر در دانشگاه نورثوسترن، این تغییرات کلیدی بودند.
مدل DeepSeek R1 توانایی بالایی در حل مسائل پیچیده استدلالی، بهویژه در زمینههای ریاضی و کدنویسی دارد. این مدل از رویکرد «زنجیره تفکر» استفاده میکند که مشابه روش ChatGPT o1 برای حل مسائل به صورت گامبهگام است.
دیمیتریس پاپایلیوپولوس، پژوهشگر ارشد در آزمایشگاه تحقیقاتی AI Frontiers مایکروسافت، درباره مدل R1 میگوید: «سادگی مهندسی این مدل شگفتانگیز است. DeepSeek به جای تمرکز بر ارائه تمام مراحل منطقی، به پاسخ دقیق اهمیت داده است. این کار زمان محاسبات را کاهش داده و در عین حال سطح بالایی از کارایی را حفظ کرده است.»
نسخههای سبکتر برای استفاده عمومی
علاوه بر مدل اصلی، DeepSeek شش نسخه کوچکتر از R1 را منتشر کرده است که قابل اجرا بر روی لپتاپ هستند. این شرکت ادعا میکند یکی از این نسخهها در برخی معیارها از مدل OpenAI o1-mini بهتر عمل میکند. آراویند سرینیواس، مدیرعامل Perplexity، در توییتی نوشت: «DeepSeek مدل o1-mini را بازتولید کرده و متنباز ارائه داده است.»
با وجود موفقیت R1، DeepSeek هنوز در سطح جهانی چندان شناختهشده نیست. این شرکت در هانگژو چین مستقر بوده و در ژوئیه 2023 توسط لیانگ ونفنگ، فارغالتحصیل دانشگاه ژجیانگ در رشته مهندسی اطلاعات و الکترونیک، تأسیس شده است. DeepSeek تحت حمایت شرکت سرمایهگذاری High-Flyer، که لیانگ در سال 2015 بنیانگذاری کرده بود، شکل گرفت.
لیانگ، مانند سم آلتمن از OpenAI، رویای ساخت هوش مصنوعی عمومی (AGI) را در سر دارد؛ نوعی هوش مصنوعی که توانایی رقابت یا حتی پیشی گرفتن از انسان در طیف وسیعی از وظایف را دارد.
چالشها و دستاوردها
توسعه مدلهای زبانی بزرگ (LLM) نیازمند تیمهای متخصص و قدرت محاسباتی عظیمی است. کایفو لی، کارآفرین برجسته و مدیر سابق Google China، در مصاحبهای گفت که معمولاً تنها شرکتهای بزرگ قادر به توسعه چنین مدلهایی هستند.
با این حال، High-Flyer پیش از اعمال تحریمهای آمریکا، اقدام به ذخیرهسازی تعداد زیادی از تراشههای Nvidia A100 کرد که اکنون صادرات آنها به چین ممنوع شده است. به گفته رسانههای چینی، این شرکت بیش از 10,000 واحد از این تراشهها را در اختیار دارد، اما برخی تخمینها این عدد را تا 50,000 واحد نیز بالا میبرند. DeepSeek توانسته با استفاده ترکیبی از این تراشهها و مدلهای کمقدرتتر، مدلهای خود را توسعه دهد.
نوآوری در کارایی
لیانگ در مصاحبهای با رسانه 36Kr گفت که یکی از چالشهای بزرگ شرکتهای چینی، بهرهوری پایینتر در مهندسی هوش مصنوعی است. او افزود: «ما اغلب برای رسیدن به نتایج مشابه، به دو برابر قدرت محاسباتی نیاز داریم و با شکافهای بهرهوری داده، این میزان به چهار برابر نیز میرسد. هدف ما کاهش این شکافهاست.»
اما تیم DeepSeek با کاهش مصرف حافظه و افزایش سرعت محاسبات، بدون کاهش قابل توجه دقت، راهحلهایی پیدا کرده است. وانگ میگوید: «تیم ما عاشق تبدیل چالشهای سختافزاری به فرصتهای نوآوری است.»
لیانگ همچنان بهطور مستقیم در پروژههای تحقیقاتی DeepSeek مشارکت دارد و در کنار تیمش آزمایشها را اجرا میکند. وانگ معتقد است: «فرهنگ همکاری و تمرکز بر پژوهشهای بنیادین در این تیم مثالزدنی است.»
پذیرش متنباز در چین
علاوه بر DeepSeek، بسیاری از شرکتهای چینی مانند علیبابا کلود و استارتاپهایی همچون Minimax و 01.AI نیز مدلهای هوش مصنوعی خود را متنباز کردهاند. طبق گزارش آکادمی فناوری اطلاعات و ارتباطات چین، 36 درصد از 1,328 مدل زبانی بزرگ جهان، در چین توسعه یافتهاند و این کشور را به دومین تولیدکننده بزرگ هوش مصنوعی در جهان پس از ایالات متحده تبدیل کردهاند.
مات شیهن، پژوهشگر هوش مصنوعی در بنیاد کارنگی، میگوید: «تحریمهای آمریکا شرکتهای چینی را مجبور کرده است تا با منابع محدود خود بسیار کارآمدتر عمل کنند. این امر به طور غیرمستقیم نوآوری را تقویت کرده است.»
در همین راستا، دو هفته پیش علیبابا کلود اعلام کرد که با استارتاپ 01.AI، به سرپرستی کایفو لی، همکاری کرده تا تیمهای تحقیقاتی خود را ادغام کرده و یک «آزمایشگاه بزرگ مدل صنعتی» ایجاد کند.
هانچنگ کائو، استاد دانشگاه تافتس، معتقد است: «تکامل سریع هوش مصنوعی نیازمند انعطافپذیری شرکتهای چینی برای بقا است و این تغییرات، تقسیم کار طبیعی و مؤثری را در این صنعت به همراه دارد.»
Credit: "How a top Chinese AI model overcame US sanctions" By Caiwei Chenarchive, published in MIT Technology Review
Read full article here: https://www.technologyreview.com/2025/01/24/1110526/china-deepseek-top-ai-despite-sanctions/
Image Credit: Stephanie Arnett/ MIT Technology Review | Rawpixel