مدلهای زبانی بزرگ، مشابه مغز انسان، دادههای متنوع را پردازش میکنند
یک مطالعه جدید نشان میدهد که مدلهای زبانی بزرگ (LLM) انواع مختلف دادهها را بر اساس معنای زیربناییشان پردازش میکنند و در زبان غالب خود به استدلال درباره دادهها میپردازند. این یافتهها به درک بهتر عملکرد این مدلها و نحوه پردازش دادههای چندگانه کمک میکند

تحولی در پردازش دادهها توسط مدلهای زبانی بزرگ
در روزهای اولیه توسعه مدلهای زبانی، این مدلها تنها قادر به پردازش متن بودند. اما مدلهای زبانی بزرگ امروزی قادرند وظایف متنوعی را روی دادههای مختلف انجام دهند. برای مثال، آنها میتوانند زبانهای متعددی را درک کنند، کدهای برنامهنویسی تولید کنند، مسائل ریاضی را حل کنند یا به سؤالاتی در مورد تصاویر و صدا پاسخ دهند. این پیشرفتها باعث شده است که محققان به بررسی عمیقتر نحوه پردازش این دادههای متنوع توسط LLMها بپردازند.
محققان مؤسسه فناوری ماساچوست (MIT) به بررسی سازوکارهای درونی مدلهای زبانی بزرگ پرداختند تا بفهمند چگونه این مدلها دادههای مختلف را پردازش میکنند. آنها شواهدی یافتند که نشان میدهد این مدلها در برخی جنبهها شباهتهایی با مغز انسان دارند.
شباهت مدلهای زبانی با عملکرد مغز انسان
دانشمندان علوم اعصاب معتقدند که مغز انسان دارای یک "مرکز معنایی" در لوب گیجگاهی قدامی است که اطلاعات معنایی را از منابع مختلف، مانند دادههای بصری و ورودیهای لمسی، یکپارچه میکند. این مرکز معنایی با "شاخههای خاص مدالیته" در ارتباط است که اطلاعات را به این مرکز منتقل میکنند.
پژوهشگران MIT دریافتند که مدلهای زبانی بزرگ از مکانیزمی مشابه استفاده میکنند. این مدلها دادههای ورودی را در یک قالب عمومی و انتزاعی پردازش کرده و به یک روش متمرکز آنها را استدلال میکنند. بهعنوانمثال، یک مدل زبانی که زبان غالب آن انگلیسی است، از این زبان بهعنوان یک رسانه مرکزی برای پردازش ورودیهای ژاپنی یا استدلال درباره مسائل ریاضی، کدهای کامپیوتری و غیره استفاده میکند.
نحوه پردازش دادههای متنوع در مدلهای زبانی بزرگ
این پژوهش بر اساس مطالعات قبلی که نشان داده بودند مدلهای زبانی بزرگ مبتنی بر زبان انگلیسی از این زبان برای انجام پردازشها و استدلال در مورد زبانهای دیگر استفاده میکنند، انجام شد. محققان MIT این ایده را گسترش دادند و به بررسی دقیقتر مکانیزمهای پردازشی این مدلها پرداختند.
یک مدل زبانی بزرگ که از چندین لایه بههمپیوسته تشکیل شده است، ورودیهای متنی را به واحدهای کوچکتر، که "توکن" نام دارند، تجزیه میکند. مدل برای هر توکن یک نمایش (representation) اختصاص میدهد که به آن امکان میدهد روابط بین توکنها را بررسی کرده و کلمه بعدی را در یک توالی تولید کند. در مورد تصاویر یا صداها، این توکنها به بخشهای خاصی از تصویر یا کلیپ صوتی مربوط میشوند.
محققان دریافتند که لایههای اولیه مدل دادهها را بهصورت اختصاصی در مدالیته خاص خود پردازش میکنند، درست مانند شاخههای خاص مدالیته در مغز انسان. سپس، مدل، توکنها را به نمایشهایی مستقل از مدالیته تبدیل میکند و در لایههای درونی خود به تحلیل آنها میپردازد، همانگونه که مرکز معنایی مغز اطلاعات متنوع را یکپارچه میکند.
این مدلها به ورودیهایی که دارای معانی مشابه هستند، نمایشهای مشابهی اختصاص میدهند، حتی اگر نوع دادههای آنها متفاوت باشد، مانند تصاویر، صدا، کدهای کامپیوتری و مسائل ریاضی. برای مثال، اگر یک تصویر و توضیح متنی آن دارای همان معنا باشند، مدل زبانی بزرگ آنها را بهصورت مشابه پردازش میکند.
تأیید فرضیه مرکز معنایی در مدلهای زبانی
برای آزمایش این فرضیه، پژوهشگران دو جمله با معانی یکسان اما به زبانهای مختلف را وارد مدل کردند و میزان شباهت نمایشهای مدل برای هر جمله را اندازهگیری کردند. سپس، آزمایش دیگری انجام شد که در آن مدل زبانی غالباً انگلیسی را با ورودیهایی به زبانهای دیگر، مانند چینی، تغذیه کردند و بررسی کردند که آیا نمایشهای درونی مدل بیشتر شبیه نمایشهای انگلیسی هستند یا نمایشهای زبان ورودی.
این آزمایشها برای سایر انواع دادهها نیز انجام شد. پژوهشگران دریافتند که مدل بهطور مداوم نمایشهای مشابهی را برای جملات با معانی یکسان تولید میکند. علاوه بر این، در بسیاری از انواع دادهها، توکنهایی که مدل در لایههای داخلی خود پردازش میکند، بیشتر به نمایشهای انگلیسی شباهت دارند تا به نوع داده اصلی.
"بسیاری از این انواع دادههای ورودی از زبان بسیار متفاوت به نظر میرسند، بنابراین ما واقعاً شگفتزده شدیم که میتوانیم توکنهای انگلیسی را حتی زمانی که مدل در حال پردازش دادههای ریاضی یا برنامهنویسی است، شناسایی کنیم." زائوفنگ وو، نویسنده اصلی این پژوهش و دانشجوی دکتری مهندسی برق و علوم کامپیوتر در MIT میگوید.
مزایا و چالشهای این رویکرد در مدلهای زبانی
پژوهشگران معتقدند که مدلهای زبانی بزرگ احتمالاً این استراتژی مرکز معنایی را در طی فرآیند آموزش خود میآموزند، زیرا این یک روش کارآمد برای پردازش دادههای متنوع است.
"هزاران زبان در جهان وجود دارد، اما بسیاری از دانشهای عمومی و حقایق میان آنها مشترک هستند. مدل نیازی ندارد که این دانش را بهطور جداگانه برای هر زبان ذخیره کند." وو توضیح میدهد.
پژوهشگران همچنین بررسی کردند که آیا میتوانند با استفاده از متن انگلیسی در لایههای داخلی مدل، زمانی که مدل در حال پردازش زبانهای دیگر است، در خروجیهای آن تغییر ایجاد کنند. نتایج نشان داد که چنین مداخلهای امکانپذیر است و حتی زمانی که خروجی به زبانی دیگر تولید میشود، میتوان از انگلیسی برای هدایت مدل استفاده کرد.
این یافتهها میتوانند به بهینهسازی مدلهای زبانی آینده کمک کنند تا کارایی بهتری در پردازش دادههای متنوع داشته باشند. بااینحال، چالشهایی نیز وجود دارد. برخی مفاهیم یا دانشها ممکن است قابلانتقال میان زبانها و انواع دادهها نباشند، مانند دانش فرهنگی خاص. در چنین مواردی، ممکن است نیاز باشد که مدلهای زبانی دارای مکانیزمهای پردازشی خاص زبان باشند.
وو در پایان میگوید: "سؤال کلیدی این است که چگونه میتوان تا حد امکان اشتراکگذاری دانش میان زبانها و انواع دادهها را به حداکثر رساند، درحالیکه اجازه داد برخی پردازشهای خاص زبانی نیز حفظ شوند. این موضوع میتواند در آینده برای توسعه معماریهای بهینهتر مورد بررسی قرار گیرد."
این پژوهش که یافتههای آن در کنفرانس بینالمللی نمایشهای یادگیری (ICLR) ارائه خواهد شد، میتواند نقش مهمی در توسعه مدلهای چندوجهی و درک ارتباط آنها با عملکرد مغز انسان داشته باشد.
Credits: "Like human brains, large language models reason about diverse data in a general way" by Adam Zewe | MIT News
Read here: https://news.mit.edu/2025/large-language-models-reason-about-diverse-data-general-way-0219