آنتروپیک اکنون می‌تواند فرایندهای درونی عجیب مدل‌های زبانی بزرگ را ردیابی کند

یافته‌های جدید این شرکت، برخی از فرضیات اساسی درباره نحوه عملکرد این فناوری را به چالش می‌کشد.

آنتروپیک اکنون می‌تواند فرایندهای درونی عجیب مدل‌های زبانی بزرگ را ردیابی کند

شرکت هوش مصنوعی Anthropic روشی نوین برای بررسی فرایندهای داخلی یک مدل زبانی بزرگ توسعه داده است که امکان مشاهده گام‌به‌گام فعالیت‌های آن هنگام تولید پاسخ را فراهم می‌کند. این روش بینش‌های کلیدی جدیدی درباره نحوه عملکرد این فناوری ارائه می‌دهد. نتیجه نهایی؟ مدل‌های زبانی بزرگ حتی عجیب‌تر از آن چیزی هستند که تصور می‌کردیم.

شگفتی‌های پشت پرده مدل‌های زبانی

جاشوا بتسون، دانشمند تحقیقاتی در Anthropic، می‌گوید که تیم تحقیقاتی این شرکت از برخی روش‌های غیرمنتظره‌ای که مدل‌های زبانی بزرگ برای تکمیل جملات، حل مسائل ساده ریاضی، کاهش توهمات (hallucinations) و موارد دیگر به کار می‌گیرند، شگفت‌زده شده‌اند.

مدل‌های زبانی بزرگ همواره به‌عنوان سیستم‌هایی با عملکردی مبهم شناخته شده‌اند. کمتر فناوری‌ای در سطح بازار انبوه وجود دارد که تا این حد ناشناخته باقی مانده باشد. این موضوع، درک نحوه عملکرد آن‌ها را به یکی از بزرگ‌ترین چالش‌های علمی تبدیل کرده است.

اما این پژوهش فقط از سر کنجکاوی نیست. روشن شدن نحوه عملکرد این مدل‌ها، نقاط ضعفشان را آشکار می‌کند—از جمله اینکه چرا اطلاعات نادرست تولید می‌کنند و چگونه می‌توان آن‌ها را به بیراهه کشاند. این یافته‌ها همچنین به حل اختلافات عمیق درباره قابلیت‌ها و محدودیت‌های مدل‌های زبانی کمک کرده و میزان قابل‌اعتماد بودن آن‌ها را نشان می‌دهد.

روش ردیابی مدارها در مدل‌های زبانی

بتسون و همکارانش یافته‌های خود را در دو گزارش منتشر کرده‌اند. گزارش نخست، استفاده Anthropic از تکنیکی به نام "ردیابی مدارها" (circuit tracing) را توضیح می‌دهد که به محققان اجازه می‌دهد فرآیند تصمیم‌گیری یک مدل زبانی را مرحله‌به‌مرحله دنبال کنند. این شرکت از این روش برای تحلیل مدل Claude 3.5 Haiku در حین انجام وظایف مختلف استفاده کرده است.

گزارش دوم، با عنوان "زیست‌شناسی یک مدل زبانی بزرگ"، نتایج بررسی ۱۰ وظیفه مختلف را ارائه می‌دهد.

ساختارهای پنهان در مدل‌های زبانی

مدارها در مدل‌های زبانی، زنجیره‌ای از اجزای مختلف هستند که با یکدیگر ارتباط برقرار می‌کنند. سال گذشته، Anthropic موفق شد برخی از این اجزا را که با مفاهیم واقعی مرتبط بودند، شناسایی کند. برخی از این اجزا مفاهیم خاصی مانند "مایکل جردن" یا "سبزی" را نشان می‌دادند، در حالی که برخی دیگر، انتزاعی‌تر بودند، مانند "تضاد بین افراد".

در یک نمونه جالب، محققان دریافتند که یکی از این اجزا با پل گلدن گیت (Golden Gate Bridge) مرتبط است. زمانی که مقدار این مؤلفه را افزایش دادند، Claude نه‌تنها خود را به‌عنوان یک مدل زبانی معرفی نکرد، بلکه خود را پل فیزیکی گلدن گیت تصور کرد!

بینش‌های تازه درباره رفتار مدل‌های زبانی

تحقیقات Anthropic برخی از روش‌های غیرمنتظره‌ای را که Claude برای پردازش زبان، حل مسائل ریاضی و سرودن شعر به کار می‌گیرد، آشکار کرده است.

  • استفاده از زبان‌های مختلف: محققان دریافتند که Claude ابتدا پاسخ را بدون وابستگی به زبان خاصی تولید می‌کند و سپس زبان مناسب را برای ارائه پاسخ انتخاب می‌نماید. این نشان می‌دهد که مدل‌های زبانی می‌توانند مفاهیم را در یک زبان بیاموزند و در زبان‌های دیگر به کار ببرند.
  • حل مسائل ریاضی: مدل‌های زبانی معمولاً روش‌های حل مسئله‌ای متفاوت از آنچه در داده‌های آموزشی‌شان دیده می‌شود، ابداع می‌کنند. به عنوان مثال، برای حل جمع ۳۶ + ۵۹، Claude ابتدا اعدادی تقریبی را در نظر می‌گیرد (مثلاً ۴۰ و ۶۰) و سپس ترکیبی از محاسبات عددی را انجام می‌دهد تا به نتیجه برسد. اما اگر از مدل بپرسید که چگونه این مسئله را حل کرده است، پاسخ آن به روش‌های متداول و شناخته‌شده ریاضی اشاره دارد—نه فرآیندی که واقعاً طی کرده است.
  • سرودن شعر: برخلاف تصور رایج که مدل‌های زبانی کلمه‌به‌کلمه پیش می‌روند، Anthropic دریافت که Claude هنگام سرودن یک بیت، از قبل کلمه پایانی بیت بعدی را انتخاب کرده است. این کشف، نشان‌دهنده توانایی برنامه‌ریزی (planning) در مدل‌های زبانی است.
  • توهمات (hallucinations): Anthropic کشف کرد که جدیدترین مدل‌های زبانی، مانند Claude 3.5، OpenAI GPT-4o و Google Gemini، به دلیل آموزش‌های پس از پردازش (post-training) کمتر دچار توهم می‌شوند. اما این آموزش‌ها باعث شده که مدل‌ها به‌طور پیش‌فرض از حدس و گمان پرهیز کنند. در عین حال، اگر موضوعی شامل اطلاعات زیاد باشد (مثلاً نام افراد مشهور)، ممکن است این محدودیت نادیده گرفته شود و مدل اطلاعات نادرست تولید کند.

چشم‌انداز آینده

درک مدل‌های زبانی همچنان در مراحل اولیه است. به گفته بتسون، "اینکه ما توانسته‌ایم برخی از مؤلفه‌های مدل را ببینیم، به معنای داشتن تصویری کامل از آن‌ها نیست. در واقع، هنوز بخش‌های زیادی از این ساختارها ناشناخته باقی مانده‌اند."

با وجود پیشرفت‌های اخیر، روش‌های فعلی برای بررسی مدل‌های زبانی همچنان زمان‌بر هستند و تحلیل پاسخ‌های کوتاه نیز ساعت‌ها طول می‌کشد. علاوه بر این، مدل‌های زبانی می‌توانند طیف وسیعی از وظایف را انجام دهند، در حالی که تحقیقات فعلی فقط بخش کوچکی از این قابلیت‌ها را بررسی کرده است.

با این حال، بتسون معتقد است که این پژوهش آغازگر عصری جدید در درک مدل‌های زبانی خواهد بود: "ما دیگر نیازی به حدس و گمان درباره اینکه آیا مدل‌ها فکر می‌کنند، استدلال می‌کنند یا رویاپردازی می‌کنند نداریم. اگر بتوانیم گام‌به‌گام ببینیم که آن‌ها چه کار می‌کنند، دیگر نیازی به استعاره‌ها نخواهد بود."


Credits: "Anthropic can now track the bizarre inner workings of a large language model" By Will Douglas Heaven, published in MIT Technology Review.

Read full article here: https://www.technologyreview.com/2025/03/27/1113916/anthropic-can-now-track-the-bizarre-inner-workings-of-a-large-language-model/