چگونه یک مدل هوش مصنوعی چینی بر تحریم‌های آمریکا غلبه کرد؟

چگونه یک مدل هوش مصنوعی چینی بر تحریم‌های آمریکا غلبه کرد؟

مدل جدید متن‌باز DeepSeek R1، که قابلیت استدلال پیشرفته‌ای دارد، توجه بسیاری را در جامعه هوش مصنوعی به خود جلب کرده است.

این مدل توسط استارتاپ چینی DeepSeek توسعه یافته و مدعی است که عملکردی مشابه یا حتی بهتر از ChatGPT o1 در چندین معیار کلیدی دارد، اما با هزینه‌ای بسیار پایین‌تر عمل می‌کند.

هانچنگ کائو، استادیار سیستم‌های اطلاعاتی در دانشگاه اموری، معتقد است: «این پیشرفت می‌تواند یک نقطه عطف برای پژوهشگران و توسعه‌دهندگانی باشد که منابع محدودی دارند، به‌ویژه در کشورهای در حال توسعه.»

DeepSeek در شرایطی به این موفقیت دست یافته که شرکت‌های هوش مصنوعی چینی با محدودیت‌های شدیدی به دلیل تحریم‌های صادراتی آمریکا بر تراشه‌های پیشرفته روبه‌رو هستند. اما شواهد نشان می‌دهد که این تحریم‌ها نه تنها توانایی‌های هوش مصنوعی چین را تضعیف نکرده‌اند، بلکه شرکت‌هایی مانند DeepSeek را به نوآوری و توسعه راهکارهای کارآمدتر سوق داده‌اند.

خلاقیت در شرایط محدودیت

برای توسعه مدل R1، تیم DeepSeek مجبور شد فرآیند آموزش مدل را بازطراحی کند تا از فشار وارد بر پردازنده‌های گرافیکی خود بکاهد. این پردازنده‌ها، که توسط Nvidia برای بازار چین تولید شده‌اند، از نظر عملکرد به نصف سرعت نسخه‌های پیشرفته محدود شده‌اند. به گفته ژی‌هان وانگ، کارمند سابق DeepSeek و دانشجوی دکترای علوم کامپیوتر در دانشگاه نورث‌وسترن، این تغییرات کلیدی بودند.

مدل DeepSeek R1 توانایی بالایی در حل مسائل پیچیده استدلالی، به‌ویژه در زمینه‌های ریاضی و کدنویسی دارد. این مدل از رویکرد «زنجیره تفکر» استفاده می‌کند که مشابه روش ChatGPT o1 برای حل مسائل به صورت گام‌به‌گام است.

دیمیتریس پاپایلیوپولوس، پژوهشگر ارشد در آزمایشگاه تحقیقاتی AI Frontiers مایکروسافت، درباره مدل R1 می‌گوید: «سادگی مهندسی این مدل شگفت‌انگیز است. DeepSeek به جای تمرکز بر ارائه تمام مراحل منطقی، به پاسخ دقیق اهمیت داده است. این کار زمان محاسبات را کاهش داده و در عین حال سطح بالایی از کارایی را حفظ کرده است.»

نسخه‌های سبک‌تر برای استفاده عمومی

علاوه بر مدل اصلی، DeepSeek شش نسخه کوچک‌تر از R1 را منتشر کرده است که قابل اجرا بر روی لپ‌تاپ هستند. این شرکت ادعا می‌کند یکی از این نسخه‌ها در برخی معیارها از مدل OpenAI o1-mini بهتر عمل می‌کند. آراویند سرینیواس، مدیرعامل Perplexity، در توییتی نوشت: «DeepSeek مدل o1-mini را بازتولید کرده و متن‌باز ارائه داده است.»

با وجود موفقیت R1، DeepSeek هنوز در سطح جهانی چندان شناخته‌شده نیست. این شرکت در هانگژو چین مستقر بوده و در ژوئیه 2023 توسط لیانگ ون‌فنگ، فارغ‌التحصیل دانشگاه ژجیانگ در رشته مهندسی اطلاعات و الکترونیک، تأسیس شده است. DeepSeek تحت حمایت شرکت سرمایه‌گذاری High-Flyer، که لیانگ در سال 2015 بنیان‌گذاری کرده بود، شکل گرفت.

لیانگ، مانند سم آلتمن از OpenAI، رویای ساخت هوش مصنوعی عمومی (AGI) را در سر دارد؛ نوعی هوش مصنوعی که توانایی رقابت یا حتی پیشی گرفتن از انسان در طیف وسیعی از وظایف را دارد.

چالش‌ها و دستاوردها

توسعه مدل‌های زبانی بزرگ (LLM) نیازمند تیم‌های متخصص و قدرت محاسباتی عظیمی است. کای‌فو لی، کارآفرین برجسته و مدیر سابق Google China، در مصاحبه‌ای گفت که معمولاً تنها شرکت‌های بزرگ قادر به توسعه چنین مدل‌هایی هستند.

با این حال، High-Flyer پیش از اعمال تحریم‌های آمریکا، اقدام به ذخیره‌سازی تعداد زیادی از تراشه‌های Nvidia A100 کرد که اکنون صادرات آن‌ها به چین ممنوع شده است. به گفته رسانه‌های چینی، این شرکت بیش از 10,000 واحد از این تراشه‌ها را در اختیار دارد، اما برخی تخمین‌ها این عدد را تا 50,000 واحد نیز بالا می‌برند. DeepSeek توانسته با استفاده ترکیبی از این تراشه‌ها و مدل‌های کم‌قدرت‌تر، مدل‌های خود را توسعه دهد.

نوآوری در کارایی

لیانگ در مصاحبه‌ای با رسانه 36Kr گفت که یکی از چالش‌های بزرگ شرکت‌های چینی، بهره‌وری پایین‌تر در مهندسی هوش مصنوعی است. او افزود: «ما اغلب برای رسیدن به نتایج مشابه، به دو برابر قدرت محاسباتی نیاز داریم و با شکاف‌های بهره‌وری داده، این میزان به چهار برابر نیز می‌رسد. هدف ما کاهش این شکاف‌هاست.»

اما تیم DeepSeek با کاهش مصرف حافظه و افزایش سرعت محاسبات، بدون کاهش قابل توجه دقت، راه‌حل‌هایی پیدا کرده است. وانگ می‌گوید: «تیم ما عاشق تبدیل چالش‌های سخت‌افزاری به فرصت‌های نوآوری است.»

لیانگ همچنان به‌طور مستقیم در پروژه‌های تحقیقاتی DeepSeek مشارکت دارد و در کنار تیمش آزمایش‌ها را اجرا می‌کند. وانگ معتقد است: «فرهنگ همکاری و تمرکز بر پژوهش‌های بنیادین در این تیم مثال‌زدنی است.»

پذیرش متن‌باز در چین

علاوه بر DeepSeek، بسیاری از شرکت‌های چینی مانند علی‌بابا کلود و استارتاپ‌هایی همچون Minimax و 01.AI نیز مدل‌های هوش مصنوعی خود را متن‌باز کرده‌اند. طبق گزارش آکادمی فناوری اطلاعات و ارتباطات چین، 36 درصد از 1,328 مدل زبانی بزرگ جهان، در چین توسعه یافته‌اند و این کشور را به دومین تولیدکننده بزرگ هوش مصنوعی در جهان پس از ایالات متحده تبدیل کرده‌اند.

مات شیهن، پژوهشگر هوش مصنوعی در بنیاد کارنگی، می‌گوید: «تحریم‌های آمریکا شرکت‌های چینی را مجبور کرده است تا با منابع محدود خود بسیار کارآمدتر عمل کنند. این امر به طور غیرمستقیم نوآوری را تقویت کرده است.»

در همین راستا، دو هفته پیش علی‌بابا کلود اعلام کرد که با استارتاپ 01.AI، به سرپرستی کای‌فو لی، همکاری کرده تا تیم‌های تحقیقاتی خود را ادغام کرده و یک «آزمایشگاه بزرگ مدل صنعتی» ایجاد کند.

هانچنگ کائو، استاد دانشگاه تافتس، معتقد است: «تکامل سریع هوش مصنوعی نیازمند انعطاف‌پذیری شرکت‌های چینی برای بقا است و این تغییرات، تقسیم کار طبیعی و مؤثری را در این صنعت به همراه دارد.»


Credit: "How a top Chinese AI model overcame US sanctions" By Caiwei Chenarchive, published in MIT Technology Review

Read full article here: https://www.technologyreview.com/2025/01/24/1110526/china-deepseek-top-ai-despite-sanctions/

Image Credit: Stephanie Arnett/ MIT Technology Review | Rawpixel