چرا مدل هوش مصنوعی DeepSeek به برترین اپلیکیشن در آمریکا تبدیل شد؟

دستیار هوش مصنوعی شرکت DeepSeek روز دوشنبه توجه زیادی جلب کرد و به برترین اپلیکیشن فروشگاه اپل در ایالات متحده تبدیل شد. این موفقیت، باعث کاهش ارزش سهام شرکتهای فناوری شد. دلیل این هیاهو چیست؟
DeepSeek، یک استارتاپ چینی، صنعت فناوری را با معرفی مدلی جدید شگفتزده کرده است که تواناییهای آن با مدل جدید OpenAI قابل مقایسه است—آن هم با سرمایهگذاری بسیار کمتر و استفاده از تراشههای کمتوانتر. دولت ایالات متحده صادرات تراشههای پیشرفته به چین و فروش تجهیزات ساخت تراشه را محدود کرده است. با این حال، DeepSeek که در شهر هانگژو چین مستقر است، قبل از اعمال این محدودیتها مقداری تراشههای قدرتمند Nvidia A100 خریداری کرده بود. اما این شرکت اعلام کرده که مدل جدید خود، DeepSeek-R1، را با تراشههای ضعیفتر Nvidia H800 آموزش داده است—که یک پیشرفت کلیدی به حساب میآید.
آشلیشا نساریکار، مدیرعامل شرکت هوش مصنوعی Plano Intelligence، میگوید:
"تا به امروز، موفقیت شرکتهای بزرگ فناوری در زمینه هوش مصنوعی بیشتر بر اساس میزان سرمایه جذبشده بود تا خود فناوری. اما اکنون توجه بیشتری به زیرساختهای فناوری این شرکتها خواهیم داشت."
هزینه کمتر، عملکرد مشابه
طبق گزارش VentureBeat، مدل DeepSeek-R1 در آزمونهای معمول هوش مصنوعی در ریاضیات و کدنویسی توانسته است عملکردی مشابه مدل o1 شرکت OpenAI داشته باشد. شرکتهای آمریکایی معمولاً هزینه آموزش مدلهای زبانی بزرگ (LLM) خود را افشا نمیکنند، اما سم آلتمن، مدیرعامل OpenAI، در سال ۲۰۲۳ اعلام کرد که آموزش GPT-4 بیش از ۱۰۰ میلیون دلار هزینه داشته است. در مقابل، DeepSeek اعلام کرده که مدل جدید خود را با هزینهای کمتر از ۶ میلیون دلار ساخته است.
علاوه بر این، DeepSeek-R1 بهصورت رایگان برای دانلود در دسترس است، در حالی که نسخه مشابه ChatGPT ماهانه ۲۰۰ دلار هزینه دارد.
نساریکار اشاره میکند که رقم ۶ میلیون دلار احتمالاً نشاندهنده هزینه تنظیم و بهینهسازی مدل است، نه هزینه ساخت یک مدل زبانی بزرگ از ابتدا. با این حال، او معتقد است که بهرهوری بالای انرژی این مدل میتواند دسترسی بیشتری به هوش مصنوعی برای صنایع مختلف فراهم کند.
این امر همچنین میتواند تأثیرات زیستمحیطی هوش مصنوعی را کاهش دهد، زیرا هزینههای محاسباتی تولید دادههای جدید با مدلهای زبانی بزرگ ۴ تا ۵ برابر بیشتر از یک جستجوی معمولی در موتورهای جستجو است.
کاهش هزینههای اجرایی
هانچنگ کائو، استاد سیستمهای اطلاعاتی و مدیریت عملیات در دانشگاه اموری، میگوید:
"هزینه اجرای DeepSeek-R1 تنها یک دهم هزینه اجرای مدلهای مشابه است."
این تفاوت در هزینه برای محققان دانشگاهی و استارتاپها اهمیت زیادی دارد، زیرا امکان دسترسی آسانتر به مدلهای قدرتمند را فراهم میکند.
معماری و بهرهوری متفاوت
به گفته انیل آنانتاسوامی، نویسنده کتاب چرا ماشینها یاد میگیرند؟ ریاضیات زیبا در پس هوش مصنوعی مدرن، مدل DeepSeek-R1 برای بهینهسازی خود از چندین روش کلیدی استفاده کرده است:
🔹 بزرگترین مدل زبانی متنباز: DeepSeek-R1 دارای ۶۷۰ میلیارد پارامتر است که آن را به بزرگترین مدل زبانی متنباز تبدیل میکند.
🔹 معماری "ترکیب متخصصان" (Mixture of Experts): برخلاف مدلهای دیگر که تمام پارامترها را برای پردازش هر درخواست فعال میکنند، فقط بخشی از این پارامترها (چند ده میلیارد بهجای صدها میلیارد) برای هر درخواست فعال میشوند، که باعث کاهش هزینههای محاسباتی میشود.
🔹 تکنیک "توجه نهان چندسری" (Multihead Latent Attention): این روش به بهبود بهرهوری استنتاج مدل کمک میکند.
🔹 تولید چندکلمهای بهجای پیشبینی واژه به واژه: این ویژگی به مدل امکان میدهد که سریعتر و بهطور مؤثرتری پاسخ دهد.
یادگیری به روش متفاوت
مدل DeepSeek-R1 همچنین در نحوه یادگیری با دیگر مدلها مانند o1 تفاوت دارد. بهجای استفاده از یک مدل منتقد خارجی برای تصحیح خطاها، این مدل از مجموعهای از قوانین داخلی برای ارزیابی و انتخاب بهترین پاسخهای خود استفاده میکند.
آنانتاسوامی توضیح میدهد:
"DeepSeek این فرایند را بهینهسازی کرده است."
متنباز بودن کد مدل
یکی از ویژگیهای مهم DeepSeek-R1 این است که کد آن بهصورت متنباز منتشر شده است (اگرچه دادههای آموزشی آن خصوصی باقی ماندهاند). این اقدام به این معناست که ادعاهای شرکت قابل بررسی است.
آنانتاسوامی میگوید:
"اگر این مدل واقعاً بهاندازهای که DeepSeek ادعا میکند کارآمد باشد، مسیر جدیدی برای محققان فراهم میکند تا کارهای خود را سریعتر و ارزانتر انجام دهند."
کاهش شکاف میان دانشگاه و صنعت
آنانتاسوامی نتیجه میگیرد:
"مدلهایی مانند این، میتواند شکاف میان دانشگاهها و صنعت را کاهش دهد، زیرا حالا محققان دانشگاهی هم به کد و فناوریهای لازم دسترسی دارند."
Credit: “Why DeepSeek’s AI Model Just Became the Top-Rated App in the U.S.“ By Stephanie Pappas edited by Jeanna Bryner, published in SCIENTIFIC AMERICAN.
Read it here: https://www.scientificamerican.com/article/why-deepseeks-ai-model-just-became-the-top-rated-app-in-the-u-s/