آنتروپیک اکنون میتواند فرایندهای درونی عجیب مدلهای زبانی بزرگ را ردیابی کند
یافتههای جدید این شرکت، برخی از فرضیات اساسی درباره نحوه عملکرد این فناوری را به چالش میکشد.

شرکت هوش مصنوعی Anthropic روشی نوین برای بررسی فرایندهای داخلی یک مدل زبانی بزرگ توسعه داده است که امکان مشاهده گامبهگام فعالیتهای آن هنگام تولید پاسخ را فراهم میکند. این روش بینشهای کلیدی جدیدی درباره نحوه عملکرد این فناوری ارائه میدهد. نتیجه نهایی؟ مدلهای زبانی بزرگ حتی عجیبتر از آن چیزی هستند که تصور میکردیم.
شگفتیهای پشت پرده مدلهای زبانی
جاشوا بتسون، دانشمند تحقیقاتی در Anthropic، میگوید که تیم تحقیقاتی این شرکت از برخی روشهای غیرمنتظرهای که مدلهای زبانی بزرگ برای تکمیل جملات، حل مسائل ساده ریاضی، کاهش توهمات (hallucinations) و موارد دیگر به کار میگیرند، شگفتزده شدهاند.
مدلهای زبانی بزرگ همواره بهعنوان سیستمهایی با عملکردی مبهم شناخته شدهاند. کمتر فناوریای در سطح بازار انبوه وجود دارد که تا این حد ناشناخته باقی مانده باشد. این موضوع، درک نحوه عملکرد آنها را به یکی از بزرگترین چالشهای علمی تبدیل کرده است.
اما این پژوهش فقط از سر کنجکاوی نیست. روشن شدن نحوه عملکرد این مدلها، نقاط ضعفشان را آشکار میکند—از جمله اینکه چرا اطلاعات نادرست تولید میکنند و چگونه میتوان آنها را به بیراهه کشاند. این یافتهها همچنین به حل اختلافات عمیق درباره قابلیتها و محدودیتهای مدلهای زبانی کمک کرده و میزان قابلاعتماد بودن آنها را نشان میدهد.
روش ردیابی مدارها در مدلهای زبانی
بتسون و همکارانش یافتههای خود را در دو گزارش منتشر کردهاند. گزارش نخست، استفاده Anthropic از تکنیکی به نام "ردیابی مدارها" (circuit tracing) را توضیح میدهد که به محققان اجازه میدهد فرآیند تصمیمگیری یک مدل زبانی را مرحلهبهمرحله دنبال کنند. این شرکت از این روش برای تحلیل مدل Claude 3.5 Haiku در حین انجام وظایف مختلف استفاده کرده است.
گزارش دوم، با عنوان "زیستشناسی یک مدل زبانی بزرگ"، نتایج بررسی ۱۰ وظیفه مختلف را ارائه میدهد.
ساختارهای پنهان در مدلهای زبانی
مدارها در مدلهای زبانی، زنجیرهای از اجزای مختلف هستند که با یکدیگر ارتباط برقرار میکنند. سال گذشته، Anthropic موفق شد برخی از این اجزا را که با مفاهیم واقعی مرتبط بودند، شناسایی کند. برخی از این اجزا مفاهیم خاصی مانند "مایکل جردن" یا "سبزی" را نشان میدادند، در حالی که برخی دیگر، انتزاعیتر بودند، مانند "تضاد بین افراد".
در یک نمونه جالب، محققان دریافتند که یکی از این اجزا با پل گلدن گیت (Golden Gate Bridge) مرتبط است. زمانی که مقدار این مؤلفه را افزایش دادند، Claude نهتنها خود را بهعنوان یک مدل زبانی معرفی نکرد، بلکه خود را پل فیزیکی گلدن گیت تصور کرد!
بینشهای تازه درباره رفتار مدلهای زبانی
تحقیقات Anthropic برخی از روشهای غیرمنتظرهای را که Claude برای پردازش زبان، حل مسائل ریاضی و سرودن شعر به کار میگیرد، آشکار کرده است.
- استفاده از زبانهای مختلف: محققان دریافتند که Claude ابتدا پاسخ را بدون وابستگی به زبان خاصی تولید میکند و سپس زبان مناسب را برای ارائه پاسخ انتخاب مینماید. این نشان میدهد که مدلهای زبانی میتوانند مفاهیم را در یک زبان بیاموزند و در زبانهای دیگر به کار ببرند.
- حل مسائل ریاضی: مدلهای زبانی معمولاً روشهای حل مسئلهای متفاوت از آنچه در دادههای آموزشیشان دیده میشود، ابداع میکنند. به عنوان مثال، برای حل جمع ۳۶ + ۵۹، Claude ابتدا اعدادی تقریبی را در نظر میگیرد (مثلاً ۴۰ و ۶۰) و سپس ترکیبی از محاسبات عددی را انجام میدهد تا به نتیجه برسد. اما اگر از مدل بپرسید که چگونه این مسئله را حل کرده است، پاسخ آن به روشهای متداول و شناختهشده ریاضی اشاره دارد—نه فرآیندی که واقعاً طی کرده است.
- سرودن شعر: برخلاف تصور رایج که مدلهای زبانی کلمهبهکلمه پیش میروند، Anthropic دریافت که Claude هنگام سرودن یک بیت، از قبل کلمه پایانی بیت بعدی را انتخاب کرده است. این کشف، نشاندهنده توانایی برنامهریزی (planning) در مدلهای زبانی است.
- توهمات (hallucinations): Anthropic کشف کرد که جدیدترین مدلهای زبانی، مانند Claude 3.5، OpenAI GPT-4o و Google Gemini، به دلیل آموزشهای پس از پردازش (post-training) کمتر دچار توهم میشوند. اما این آموزشها باعث شده که مدلها بهطور پیشفرض از حدس و گمان پرهیز کنند. در عین حال، اگر موضوعی شامل اطلاعات زیاد باشد (مثلاً نام افراد مشهور)، ممکن است این محدودیت نادیده گرفته شود و مدل اطلاعات نادرست تولید کند.
چشمانداز آینده
درک مدلهای زبانی همچنان در مراحل اولیه است. به گفته بتسون، "اینکه ما توانستهایم برخی از مؤلفههای مدل را ببینیم، به معنای داشتن تصویری کامل از آنها نیست. در واقع، هنوز بخشهای زیادی از این ساختارها ناشناخته باقی ماندهاند."
با وجود پیشرفتهای اخیر، روشهای فعلی برای بررسی مدلهای زبانی همچنان زمانبر هستند و تحلیل پاسخهای کوتاه نیز ساعتها طول میکشد. علاوه بر این، مدلهای زبانی میتوانند طیف وسیعی از وظایف را انجام دهند، در حالی که تحقیقات فعلی فقط بخش کوچکی از این قابلیتها را بررسی کرده است.
با این حال، بتسون معتقد است که این پژوهش آغازگر عصری جدید در درک مدلهای زبانی خواهد بود: "ما دیگر نیازی به حدس و گمان درباره اینکه آیا مدلها فکر میکنند، استدلال میکنند یا رویاپردازی میکنند نداریم. اگر بتوانیم گامبهگام ببینیم که آنها چه کار میکنند، دیگر نیازی به استعارهها نخواهد بود."
Credits: "Anthropic can now track the bizarre inner workings of a large language model" By Will Douglas Heaven, published in MIT Technology Review.
Read full article here: https://www.technologyreview.com/2025/03/27/1113916/anthropic-can-now-track-the-bizarre-inner-workings-of-a-large-language-model/