داده‌های ساخت هوش مصنوعی از کجا می‌آیند؟

یافته‌های جدید نشان می‌دهند که منابع داده‌ای در حال متمرکز کردن قدرت در دست شرکت‌های فناوری قدرتمندتر هستند

داده‌های ساخت هوش مصنوعی از کجا می‌آیند؟
Image Credits: Stephanie Arnett/MIT Technology Review | Adobe Stock

هوش مصنوعی تماماً در مورد داده‌ها است. حجم عظیمی از داده‌ها برای آموزش الگوریتم‌ها به‌کار می‌رود تا آن‌ها بتوانند کارهایی را که ما از آن‌ها می‌خواهیم انجام دهند. آنچه که در این مدل‌ها وارد می‌شود، تعیین‌کننده‌ی آن چیزی است که از آن‌ها خارج می‌شود. اما مشکلی که وجود دارد این است که توسعه‌دهندگان و پژوهشگران هوش مصنوعی اطلاعات زیادی در مورد منابع داده‌هایی که استفاده می‌کنند، ندارند. روش‌های جمع‌آوری داده‌ها در هوش مصنوعی هنوز از لحاظ بلوغ با پیچیدگی‌های موجود در توسعه مدل‌های هوش مصنوعی هم‌راستا نیستند. بسیاری از مجموعه‌های داده‌ی عظیم فاقد اطلاعات واضحی در مورد محتوا و منبع داده‌ها هستند.

طرح ابتکار منبع داده‌ها (Data Provenance Initiative) که گروهی از بیش از ۵۰ پژوهشگر از دنیای آکادمیک و صنعتی را شامل می‌شود، تصمیم گرفت این مشکل را حل کند. هدف این گروه، به‌طور ساده، یافتن پاسخ به این سوال بود که: داده‌هایی که برای ساخت هوش مصنوعی استفاده می‌شوند، از کجا می‌آیند؟ این گروه نزدیک به ۴۰۰۰ مجموعه داده‌ی عمومی را بررسی کرد که شامل بیش از ۶۰۰ زبان، ۶۷ کشور و سه دهه زمان بود. داده‌ها از ۸۰۰ منبع مختلف و نزدیک به ۷۰۰ سازمان گردآوری شده بودند.

یافته‌های این گروه که به‌طور انحصاری با MIT Technology Review به اشتراک گذاشته شده‌اند، نشان‌دهنده‌ی روند نگران‌کننده‌ای هستند: شیوه‌های جمع‌آوری داده‌ها در هوش مصنوعی ممکن است قدرت را به‌شدت در دست چند شرکت بزرگ فناوری متمرکز کنند.

تحولی در دهه ۲۰۱۰ و ظهور مدل‌های بزرگ

در اوایل دهه ۲۰۱۰، مجموعه‌های داده از منابع مختلف و متنوعی گردآوری می‌شدند. این داده‌ها تنها از دایرة‌المعارف‌ها و وب جمع‌آوری نمی‌شدند، بلکه از منابع دیگری مانند متون پارلمانی، تماس‌های درآمدی شرکت‌ها و گزارش‌های آب‌و‌هوایی نیز استفاده می‌شدند. در آن زمان، مجموعه‌های داده به‌طور خاص برای انجام وظایف خاص جمع‌آوری می‌شدند و برای هر وظیفه به‌طور جداگانه تنظیم می‌شدند.

اما با اختراع معماری ترنسفورمر (Transformer) در سال ۲۰۱۷، که اساس مدل‌های زبانی را تشکیل می‌دهد، صنعت هوش مصنوعی متوجه شد که هرچه اندازه مدل‌ها و مجموعه‌های داده بزرگ‌تر باشد، عملکرد مدل‌ها بهبود می‌یابد. امروزه بیشتر مجموعه‌های داده به‌طور بی‌انتخاب از منابع مختلف اینترنت جمع‌آوری می‌شوند. از سال ۲۰۱۸، وب به منبع غالب برای داده‌ها در تمام رسانه‌ها از جمله صدا، تصویر و ویدئو تبدیل شده است و شکاف بین داده‌های جمع‌آوری‌شده از وب و داده‌های دقیق‌تر دست‌چین‌شده، گسترش یافته است.

شاین لانگ‌پری، پژوهشگر MIT که عضو این پروژه است، می‌گوید:

"در توسعه مدل‌های بنیادین، هیچ چیزی مهم‌تر از مقیاس و تنوع داده‌ها و همچنین اهمیت وب به‌نظر نمی‌رسد."

نیاز به مقیاس و حجم بالا باعث افزایش چشمگیر استفاده از داده‌های مصنوعی نیز شده است.

ظهور مدل‌های مولتی‌مدال

چند سال اخیر شاهد رشد مدل‌های مولتی‌مدال مولد هوش مصنوعی بوده‌ایم که قادر به تولید ویدئو و تصاویر هستند. همانند مدل‌های زبان بزرگ، این مدل‌ها نیز به حجم زیادی داده نیاز دارند و بهترین منبع برای این داده‌ها، یوتیوب است. برای مدل‌های ویدئویی، بیش از ۷۰ درصد از داده‌ها برای هر دو مجموعه داده‌ی گفتاری و تصویری از یک منبع می‌آید.

این وضعیت می‌تواند به نفع آلفابت، شرکت مادر گوگل، تمام شود که مالک یوتیوب است. در حالی که داده‌های متنی در سراسر وب منتشر شده و تحت کنترل وب‌سایت‌ها و پلتفرم‌های مختلف هستند، داده‌های ویدئویی به‌شدت در یک پلتفرم متمرکز شده‌اند.

لانگ‌پری می‌گوید:

"این به یک شرکت قدرت عظیمی می‌دهد که بتواند بر بخش بزرگی از مهم‌ترین داده‌های وب تسلط یابد."

و از آنجا که گوگل نیز مدل‌های هوش مصنوعی خود را توسعه می‌دهد، این مزیت عظیم به‌طور خاص سوالاتی را درباره نحوه‌ی اشتراک‌گذاری داده‌ها با رقبا به‌وجود می‌آورد.

چالش‌های داده‌ها و محدودیت‌های آن‌ها

شرکت‌های هوش مصنوعی معمولاً داده‌هایی که برای آموزش مدل‌های خود استفاده کرده‌اند را به‌طور عمومی منتشر نمی‌کنند. یکی از دلایل این امر این است که این شرکت‌ها می‌خواهند از مزیت رقابتی خود محافظت کنند. دلیل دیگر این است که به‌دلیل پیچیدگی و عدم شفافیت در بسته‌بندی و توزیع داده‌ها، آن‌ها ممکن است حتی ندانند تمام داده‌ها از کجا آمده‌اند.

پژوهشگران این ابتکار همچنین دریافتند که بسیاری از مجموعه‌های داده مجوزها یا شرایط محدودکننده‌ای دارند که باید استفاده از آن‌ها را در زمینه‌های تجاری محدود کنند. لانگ‌پری می‌گوید:

"این عدم سازگاری در منشأ داده‌ها انتخاب درست داده برای توسعه‌دهندگان را بسیار دشوار می‌کند."

این وضعیت می‌تواند همچنین باعث شود که توسعه‌دهندگان نتوانند با اطمینان از استفاده از داده‌های دارای حقوق مالکیت معنوی، مدل‌های خود را آموزش دهند.

متمرکز شدن قدرت در دست شرکت‌های بزرگ

این روند به نفع بزرگ‌ترین بازیگران صنعت هوش مصنوعی است که می‌توانند چنین قراردادهای انحصاری با ناشران و پلتفرم‌های اجتماعی مانند ردیت و یوتیوب امضا کنند. این قراردادهای انحصاری می‌تواند قدرت را در دست شرکت‌های بزرگ فناوری متمرکز کند و دسترسی به داده‌ها را برای پژوهشگران و سازمان‌های کوچک‌تر دشوار سازد.

لانگ‌پری می‌گوید:

"این یک موج جدید از دسترسی نامتقارن است که در وب آزاد تا به امروز به این اندازه دیده نشده است."

تمرکز جغرافیایی داده‌ها و سوگیری فرهنگی

داده‌های استفاده‌شده برای آموزش مدل‌های هوش مصنوعی نیز به‌شدت به مناطق غربی متمایل است. بیش از ۹۰ درصد از مجموعه‌های داده که توسط پژوهشگران مورد بررسی قرار گرفت، از اروپا و آمریکای شمالی آمده‌اند و کمتر از ۴ درصد از آفریقا.

هوکر می‌گوید:

"این مجموعه‌های داده تنها بخشی از دنیای ما و فرهنگ‌مان را منعکس می‌کنند و سایر بخش‌ها را کاملاً نادیده می‌گیرند."

این تمرکز جغرافیایی به‌ویژه در مدل‌های مولتی‌مدال آشکار می‌شود. وقتی از یک مدل هوش مصنوعی خواسته می‌شود تا نمایی از یک عروسی را نمایش دهد، ممکن است تنها قادر به نمایش عروسی‌های غربی باشد، چون مدل‌های هوش مصنوعی فقط با داده‌های مربوط به عروسی‌های غربی آموزش دیده‌اند.

این می‌تواند باعث تقویت سوگیری فرهنگی شود و مدل‌های هوش مصنوعی را به‌سمت تقویت دیدگاه‌های خاص فرهنگی سوق دهد. هوکر در این‌باره می‌گوید:

"ما از این مدل‌ها در سراسر جهان استفاده می‌کنیم، در حالی که بین آنچه می‌بینیم و آنچه که این مدل‌ها قادر به درک آن نیستند، تفاوت عظیمی وجود دارد."


Credits: "This is where the data to build AI comes By Melissa Heikkilä & Stephanie Arnettarchive page, published in MIT Technology Review

Read here: https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/