چرا مدل هوش مصنوعی DeepSeek به برترین اپلیکیشن در آمریکا تبدیل شد؟

چرا مدل هوش مصنوعی DeepSeek به برترین اپلیکیشن در آمریکا تبدیل شد؟
Image Credit: Weiquan Lin/Getty Images

دستیار هوش مصنوعی شرکت DeepSeek روز دوشنبه توجه زیادی جلب کرد و به برترین اپلیکیشن فروشگاه اپل در ایالات متحده تبدیل شد. این موفقیت، باعث کاهش ارزش سهام شرکت‌های فناوری شد. دلیل این هیاهو چیست؟

DeepSeek، یک استارتاپ چینی، صنعت فناوری را با معرفی مدلی جدید شگفت‌زده کرده است که توانایی‌های آن با مدل جدید OpenAI قابل مقایسه است—آن هم با سرمایه‌گذاری بسیار کمتر و استفاده از تراشه‌های کم‌توان‌تر. دولت ایالات متحده صادرات تراشه‌های پیشرفته به چین و فروش تجهیزات ساخت تراشه را محدود کرده است. با این حال، DeepSeek که در شهر هانگژو چین مستقر است، قبل از اعمال این محدودیت‌ها مقداری تراشه‌های قدرتمند Nvidia A100 خریداری کرده بود. اما این شرکت اعلام کرده که مدل جدید خود، DeepSeek-R1، را با تراشه‌های ضعیف‌تر Nvidia H800 آموزش داده است—که یک پیشرفت کلیدی به حساب می‌آید.

آشلیشا نساریکار، مدیرعامل شرکت هوش مصنوعی Plano Intelligence، می‌گوید:
"تا به امروز، موفقیت شرکت‌های بزرگ فناوری در زمینه هوش مصنوعی بیشتر بر اساس میزان سرمایه جذب‌شده بود تا خود فناوری. اما اکنون توجه بیشتری به زیرساخت‌های فناوری این شرکت‌ها خواهیم داشت."

هزینه کمتر، عملکرد مشابه

طبق گزارش VentureBeat، مدل DeepSeek-R1 در آزمون‌های معمول هوش مصنوعی در ریاضیات و کدنویسی توانسته است عملکردی مشابه مدل o1 شرکت OpenAI داشته باشد. شرکت‌های آمریکایی معمولاً هزینه آموزش مدل‌های زبانی بزرگ (LLM) خود را افشا نمی‌کنند، اما سم آلتمن، مدیرعامل OpenAI، در سال ۲۰۲۳ اعلام کرد که آموزش GPT-4 بیش از ۱۰۰ میلیون دلار هزینه داشته است. در مقابل، DeepSeek اعلام کرده که مدل جدید خود را با هزینه‌ای کمتر از ۶ میلیون دلار ساخته است.

علاوه بر این، DeepSeek-R1 به‌صورت رایگان برای دانلود در دسترس است، در حالی که نسخه مشابه ChatGPT ماهانه ۲۰۰ دلار هزینه دارد.

نساریکار اشاره می‌کند که رقم ۶ میلیون دلار احتمالاً نشان‌دهنده هزینه تنظیم و بهینه‌سازی مدل است، نه هزینه ساخت یک مدل زبانی بزرگ از ابتدا. با این حال، او معتقد است که بهره‌وری بالای انرژی این مدل می‌تواند دسترسی بیشتری به هوش مصنوعی برای صنایع مختلف فراهم کند.

این امر همچنین می‌تواند تأثیرات زیست‌محیطی هوش مصنوعی را کاهش دهد، زیرا هزینه‌های محاسباتی تولید داده‌های جدید با مدل‌های زبانی بزرگ ۴ تا ۵ برابر بیشتر از یک جستجوی معمولی در موتورهای جستجو است.

کاهش هزینه‌های اجرایی

هانچنگ کائو، استاد سیستم‌های اطلاعاتی و مدیریت عملیات در دانشگاه اموری، می‌گوید:
"هزینه اجرای DeepSeek-R1 تنها یک دهم هزینه اجرای مدل‌های مشابه است."

این تفاوت در هزینه برای محققان دانشگاهی و استارتاپ‌ها اهمیت زیادی دارد، زیرا امکان دسترسی آسان‌تر به مدل‌های قدرتمند را فراهم می‌کند.

معماری و بهره‌وری متفاوت

به گفته انیل آنانتاسوامی، نویسنده کتاب چرا ماشین‌ها یاد می‌گیرند؟ ریاضیات زیبا در پس هوش مصنوعی مدرن، مدل DeepSeek-R1 برای بهینه‌سازی خود از چندین روش کلیدی استفاده کرده است:

🔹 بزرگ‌ترین مدل زبانی متن‌باز: DeepSeek-R1 دارای ۶۷۰ میلیارد پارامتر است که آن را به بزرگ‌ترین مدل زبانی متن‌باز تبدیل می‌کند.

🔹 معماری "ترکیب متخصصان" (Mixture of Experts): برخلاف مدل‌های دیگر که تمام پارامترها را برای پردازش هر درخواست فعال می‌کنند، فقط بخشی از این پارامترها (چند ده میلیارد به‌جای صدها میلیارد) برای هر درخواست فعال می‌شوند، که باعث کاهش هزینه‌های محاسباتی می‌شود.

🔹 تکنیک "توجه نهان چند‌سری" (Multihead Latent Attention): این روش به بهبود بهره‌وری استنتاج مدل کمک می‌کند.

🔹 تولید چندکلمه‌ای به‌جای پیش‌بینی واژه به واژه: این ویژگی به مدل امکان می‌دهد که سریع‌تر و به‌طور مؤثرتری پاسخ دهد.

یادگیری به روش متفاوت

مدل DeepSeek-R1 همچنین در نحوه یادگیری با دیگر مدل‌ها مانند o1 تفاوت دارد. به‌جای استفاده از یک مدل منتقد خارجی برای تصحیح خطاها، این مدل از مجموعه‌ای از قوانین داخلی برای ارزیابی و انتخاب بهترین پاسخ‌های خود استفاده می‌کند.

آنانتاسوامی توضیح می‌دهد:
"DeepSeek این فرایند را بهینه‌سازی کرده است."

متن‌باز بودن کد مدل

یکی از ویژگی‌های مهم DeepSeek-R1 این است که کد آن به‌صورت متن‌باز منتشر شده است (اگرچه داده‌های آموزشی آن خصوصی باقی مانده‌اند). این اقدام به این معناست که ادعاهای شرکت قابل بررسی است.

آنانتاسوامی می‌گوید:
"اگر این مدل واقعاً به‌اندازه‌ای که DeepSeek ادعا می‌کند کارآمد باشد، مسیر جدیدی برای محققان فراهم می‌کند تا کارهای خود را سریع‌تر و ارزان‌تر انجام دهند."

کاهش شکاف میان دانشگاه و صنعت

آنانتاسوامی نتیجه می‌گیرد:
"مدل‌هایی مانند این، می‌تواند شکاف میان دانشگاه‌ها و صنعت را کاهش دهد، زیرا حالا محققان دانشگاهی هم به کد و فناوری‌های لازم دسترسی دارند."


Credit: “Why DeepSeek’s AI Model Just Became the Top-Rated App in the U.S.“ By Stephanie Pappas edited by Jeanna Bryner, published in SCIENTIFIC AMERICAN.

Read it here: https://www.scientificamerican.com/article/why-deepseeks-ai-model-just-became-the-top-rated-app-in-the-u-s/