مدل‌های زبانی بزرگ، مشابه مغز انسان، داده‌های متنوع را پردازش می‌کنند

یک مطالعه جدید نشان می‌دهد که مدل‌های زبانی بزرگ (LLM) انواع مختلف داده‌ها را بر اساس معنای زیربنایی‌شان پردازش می‌کنند و در زبان غالب خود به استدلال درباره داده‌ها می‌پردازند. این یافته‌ها به درک بهتر عملکرد این مدل‌ها و نحوه پردازش داده‌های چندگانه کمک می‌کند

مدل‌های زبانی بزرگ، مشابه مغز انسان، داده‌های متنوع را پردازش می‌کنند

تحولی در پردازش داده‌ها توسط مدل‌های زبانی بزرگ

در روزهای اولیه توسعه مدل‌های زبانی، این مدل‌ها تنها قادر به پردازش متن بودند. اما مدل‌های زبانی بزرگ امروزی قادرند وظایف متنوعی را روی داده‌های مختلف انجام دهند. برای مثال، آن‌ها می‌توانند زبان‌های متعددی را درک کنند، کدهای برنامه‌نویسی تولید کنند، مسائل ریاضی را حل کنند یا به سؤالاتی در مورد تصاویر و صدا پاسخ دهند. این پیشرفت‌ها باعث شده است که محققان به بررسی عمیق‌تر نحوه پردازش این داده‌های متنوع توسط LLMها بپردازند.

محققان مؤسسه فناوری ماساچوست (MIT) به بررسی سازوکارهای درونی مدل‌های زبانی بزرگ پرداختند تا بفهمند چگونه این مدل‌ها داده‌های مختلف را پردازش می‌کنند. آن‌ها شواهدی یافتند که نشان می‌دهد این مدل‌ها در برخی جنبه‌ها شباهت‌هایی با مغز انسان دارند.

شباهت مدل‌های زبانی با عملکرد مغز انسان

دانشمندان علوم اعصاب معتقدند که مغز انسان دارای یک "مرکز معنایی" در لوب گیجگاهی قدامی است که اطلاعات معنایی را از منابع مختلف، مانند داده‌های بصری و ورودی‌های لمسی، یکپارچه می‌کند. این مرکز معنایی با "شاخه‌های خاص مدالیته" در ارتباط است که اطلاعات را به این مرکز منتقل می‌کنند.

پژوهشگران MIT دریافتند که مدل‌های زبانی بزرگ از مکانیزمی مشابه استفاده می‌کنند. این مدل‌ها داده‌های ورودی را در یک قالب عمومی و انتزاعی پردازش کرده و به یک روش متمرکز آن‌ها را استدلال می‌کنند. به‌عنوان‌مثال، یک مدل زبانی که زبان غالب آن انگلیسی است، از این زبان به‌عنوان یک رسانه مرکزی برای پردازش ورودی‌های ژاپنی یا استدلال درباره مسائل ریاضی، کدهای کامپیوتری و غیره استفاده می‌کند.

نحوه پردازش داده‌های متنوع در مدل‌های زبانی بزرگ

این پژوهش بر اساس مطالعات قبلی که نشان داده بودند مدل‌های زبانی بزرگ مبتنی بر زبان انگلیسی از این زبان برای انجام پردازش‌ها و استدلال در مورد زبان‌های دیگر استفاده می‌کنند، انجام شد. محققان MIT این ایده را گسترش دادند و به بررسی دقیق‌تر مکانیزم‌های پردازشی این مدل‌ها پرداختند.

یک مدل زبانی بزرگ که از چندین لایه به‌هم‌پیوسته تشکیل شده است، ورودی‌های متنی را به واحدهای کوچک‌تر، که "توکن" نام دارند، تجزیه می‌کند. مدل برای هر توکن یک نمایش (representation) اختصاص می‌دهد که به آن امکان می‌دهد روابط بین توکن‌ها را بررسی کرده و کلمه بعدی را در یک توالی تولید کند. در مورد تصاویر یا صداها، این توکن‌ها به بخش‌های خاصی از تصویر یا کلیپ صوتی مربوط می‌شوند.

محققان دریافتند که لایه‌های اولیه مدل داده‌ها را به‌صورت اختصاصی در مدالیته خاص خود پردازش می‌کنند، درست مانند شاخه‌های خاص مدالیته در مغز انسان. سپس، مدل، توکن‌ها را به نمایش‌هایی مستقل از مدالیته تبدیل می‌کند و در لایه‌های درونی خود به تحلیل آن‌ها می‌پردازد، همان‌گونه که مرکز معنایی مغز اطلاعات متنوع را یکپارچه می‌کند.

این مدل‌ها به ورودی‌هایی که دارای معانی مشابه هستند، نمایش‌های مشابهی اختصاص می‌دهند، حتی اگر نوع داده‌های آن‌ها متفاوت باشد، مانند تصاویر، صدا، کدهای کامپیوتری و مسائل ریاضی. برای مثال، اگر یک تصویر و توضیح متنی آن دارای همان معنا باشند، مدل زبانی بزرگ آن‌ها را به‌صورت مشابه پردازش می‌کند.

تأیید فرضیه مرکز معنایی در مدل‌های زبانی

برای آزمایش این فرضیه، پژوهشگران دو جمله با معانی یکسان اما به زبان‌های مختلف را وارد مدل کردند و میزان شباهت نمایش‌های مدل برای هر جمله را اندازه‌گیری کردند. سپس، آزمایش دیگری انجام شد که در آن مدل زبانی غالباً انگلیسی را با ورودی‌هایی به زبان‌های دیگر، مانند چینی، تغذیه کردند و بررسی کردند که آیا نمایش‌های درونی مدل بیشتر شبیه نمایش‌های انگلیسی هستند یا نمایش‌های زبان ورودی.

این آزمایش‌ها برای سایر انواع داده‌ها نیز انجام شد. پژوهشگران دریافتند که مدل به‌طور مداوم نمایش‌های مشابهی را برای جملات با معانی یکسان تولید می‌کند. علاوه بر این، در بسیاری از انواع داده‌ها، توکن‌هایی که مدل در لایه‌های داخلی خود پردازش می‌کند، بیشتر به نمایش‌های انگلیسی شباهت دارند تا به نوع داده اصلی.

"بسیاری از این انواع داده‌های ورودی از زبان بسیار متفاوت به نظر می‌رسند، بنابراین ما واقعاً شگفت‌زده شدیم که می‌توانیم توکن‌های انگلیسی را حتی زمانی که مدل در حال پردازش داده‌های ریاضی یا برنامه‌نویسی است، شناسایی کنیم." زائوفنگ وو، نویسنده اصلی این پژوهش و دانشجوی دکتری مهندسی برق و علوم کامپیوتر در MIT می‌گوید.

مزایا و چالش‌های این رویکرد در مدل‌های زبانی

پژوهشگران معتقدند که مدل‌های زبانی بزرگ احتمالاً این استراتژی مرکز معنایی را در طی فرآیند آموزش خود می‌آموزند، زیرا این یک روش کارآمد برای پردازش داده‌های متنوع است.

"هزاران زبان در جهان وجود دارد، اما بسیاری از دانش‌های عمومی و حقایق میان آن‌ها مشترک هستند. مدل نیازی ندارد که این دانش را به‌طور جداگانه برای هر زبان ذخیره کند." وو توضیح می‌دهد.

پژوهشگران همچنین بررسی کردند که آیا می‌توانند با استفاده از متن انگلیسی در لایه‌های داخلی مدل، زمانی که مدل در حال پردازش زبان‌های دیگر است، در خروجی‌های آن تغییر ایجاد کنند. نتایج نشان داد که چنین مداخله‌ای امکان‌پذیر است و حتی زمانی که خروجی به زبانی دیگر تولید می‌شود، می‌توان از انگلیسی برای هدایت مدل استفاده کرد.

این یافته‌ها می‌توانند به بهینه‌سازی مدل‌های زبانی آینده کمک کنند تا کارایی بهتری در پردازش داده‌های متنوع داشته باشند. بااین‌حال، چالش‌هایی نیز وجود دارد. برخی مفاهیم یا دانش‌ها ممکن است قابل‌انتقال میان زبان‌ها و انواع داده‌ها نباشند، مانند دانش فرهنگی خاص. در چنین مواردی، ممکن است نیاز باشد که مدل‌های زبانی دارای مکانیزم‌های پردازشی خاص زبان باشند.

وو در پایان می‌گوید: "سؤال کلیدی این است که چگونه می‌توان تا حد امکان اشتراک‌گذاری دانش میان زبان‌ها و انواع داده‌ها را به حداکثر رساند، درحالی‌که اجازه داد برخی پردازش‌های خاص زبانی نیز حفظ شوند. این موضوع می‌تواند در آینده برای توسعه معماری‌های بهینه‌تر مورد بررسی قرار گیرد."

این پژوهش که یافته‌های آن در کنفرانس بین‌المللی نمایش‌های یادگیری (ICLR) ارائه خواهد شد، می‌تواند نقش مهمی در توسعه مدل‌های چندوجهی و درک ارتباط آن‌ها با عملکرد مغز انسان داشته باشد.


Credits: "Like human brains, large language models reason about diverse data in a general way" by Adam Zewe | MIT News

Read here: https://news.mit.edu/2025/large-language-models-reason-about-diverse-data-general-way-0219