دادههای ساخت هوش مصنوعی از کجا میآیند؟
یافتههای جدید نشان میدهند که منابع دادهای در حال متمرکز کردن قدرت در دست شرکتهای فناوری قدرتمندتر هستند

هوش مصنوعی تماماً در مورد دادهها است. حجم عظیمی از دادهها برای آموزش الگوریتمها بهکار میرود تا آنها بتوانند کارهایی را که ما از آنها میخواهیم انجام دهند. آنچه که در این مدلها وارد میشود، تعیینکنندهی آن چیزی است که از آنها خارج میشود. اما مشکلی که وجود دارد این است که توسعهدهندگان و پژوهشگران هوش مصنوعی اطلاعات زیادی در مورد منابع دادههایی که استفاده میکنند، ندارند. روشهای جمعآوری دادهها در هوش مصنوعی هنوز از لحاظ بلوغ با پیچیدگیهای موجود در توسعه مدلهای هوش مصنوعی همراستا نیستند. بسیاری از مجموعههای دادهی عظیم فاقد اطلاعات واضحی در مورد محتوا و منبع دادهها هستند.
طرح ابتکار منبع دادهها (Data Provenance Initiative) که گروهی از بیش از ۵۰ پژوهشگر از دنیای آکادمیک و صنعتی را شامل میشود، تصمیم گرفت این مشکل را حل کند. هدف این گروه، بهطور ساده، یافتن پاسخ به این سوال بود که: دادههایی که برای ساخت هوش مصنوعی استفاده میشوند، از کجا میآیند؟ این گروه نزدیک به ۴۰۰۰ مجموعه دادهی عمومی را بررسی کرد که شامل بیش از ۶۰۰ زبان، ۶۷ کشور و سه دهه زمان بود. دادهها از ۸۰۰ منبع مختلف و نزدیک به ۷۰۰ سازمان گردآوری شده بودند.
یافتههای این گروه که بهطور انحصاری با MIT Technology Review به اشتراک گذاشته شدهاند، نشاندهندهی روند نگرانکنندهای هستند: شیوههای جمعآوری دادهها در هوش مصنوعی ممکن است قدرت را بهشدت در دست چند شرکت بزرگ فناوری متمرکز کنند.
تحولی در دهه ۲۰۱۰ و ظهور مدلهای بزرگ
در اوایل دهه ۲۰۱۰، مجموعههای داده از منابع مختلف و متنوعی گردآوری میشدند. این دادهها تنها از دایرةالمعارفها و وب جمعآوری نمیشدند، بلکه از منابع دیگری مانند متون پارلمانی، تماسهای درآمدی شرکتها و گزارشهای آبوهوایی نیز استفاده میشدند. در آن زمان، مجموعههای داده بهطور خاص برای انجام وظایف خاص جمعآوری میشدند و برای هر وظیفه بهطور جداگانه تنظیم میشدند.
اما با اختراع معماری ترنسفورمر (Transformer) در سال ۲۰۱۷، که اساس مدلهای زبانی را تشکیل میدهد، صنعت هوش مصنوعی متوجه شد که هرچه اندازه مدلها و مجموعههای داده بزرگتر باشد، عملکرد مدلها بهبود مییابد. امروزه بیشتر مجموعههای داده بهطور بیانتخاب از منابع مختلف اینترنت جمعآوری میشوند. از سال ۲۰۱۸، وب به منبع غالب برای دادهها در تمام رسانهها از جمله صدا، تصویر و ویدئو تبدیل شده است و شکاف بین دادههای جمعآوریشده از وب و دادههای دقیقتر دستچینشده، گسترش یافته است.
شاین لانگپری، پژوهشگر MIT که عضو این پروژه است، میگوید:
"در توسعه مدلهای بنیادین، هیچ چیزی مهمتر از مقیاس و تنوع دادهها و همچنین اهمیت وب بهنظر نمیرسد."
نیاز به مقیاس و حجم بالا باعث افزایش چشمگیر استفاده از دادههای مصنوعی نیز شده است.
ظهور مدلهای مولتیمدال
چند سال اخیر شاهد رشد مدلهای مولتیمدال مولد هوش مصنوعی بودهایم که قادر به تولید ویدئو و تصاویر هستند. همانند مدلهای زبان بزرگ، این مدلها نیز به حجم زیادی داده نیاز دارند و بهترین منبع برای این دادهها، یوتیوب است. برای مدلهای ویدئویی، بیش از ۷۰ درصد از دادهها برای هر دو مجموعه دادهی گفتاری و تصویری از یک منبع میآید.
این وضعیت میتواند به نفع آلفابت، شرکت مادر گوگل، تمام شود که مالک یوتیوب است. در حالی که دادههای متنی در سراسر وب منتشر شده و تحت کنترل وبسایتها و پلتفرمهای مختلف هستند، دادههای ویدئویی بهشدت در یک پلتفرم متمرکز شدهاند.
لانگپری میگوید:
"این به یک شرکت قدرت عظیمی میدهد که بتواند بر بخش بزرگی از مهمترین دادههای وب تسلط یابد."
و از آنجا که گوگل نیز مدلهای هوش مصنوعی خود را توسعه میدهد، این مزیت عظیم بهطور خاص سوالاتی را درباره نحوهی اشتراکگذاری دادهها با رقبا بهوجود میآورد.
چالشهای دادهها و محدودیتهای آنها
شرکتهای هوش مصنوعی معمولاً دادههایی که برای آموزش مدلهای خود استفاده کردهاند را بهطور عمومی منتشر نمیکنند. یکی از دلایل این امر این است که این شرکتها میخواهند از مزیت رقابتی خود محافظت کنند. دلیل دیگر این است که بهدلیل پیچیدگی و عدم شفافیت در بستهبندی و توزیع دادهها، آنها ممکن است حتی ندانند تمام دادهها از کجا آمدهاند.
پژوهشگران این ابتکار همچنین دریافتند که بسیاری از مجموعههای داده مجوزها یا شرایط محدودکنندهای دارند که باید استفاده از آنها را در زمینههای تجاری محدود کنند. لانگپری میگوید:
"این عدم سازگاری در منشأ دادهها انتخاب درست داده برای توسعهدهندگان را بسیار دشوار میکند."
این وضعیت میتواند همچنین باعث شود که توسعهدهندگان نتوانند با اطمینان از استفاده از دادههای دارای حقوق مالکیت معنوی، مدلهای خود را آموزش دهند.
متمرکز شدن قدرت در دست شرکتهای بزرگ
این روند به نفع بزرگترین بازیگران صنعت هوش مصنوعی است که میتوانند چنین قراردادهای انحصاری با ناشران و پلتفرمهای اجتماعی مانند ردیت و یوتیوب امضا کنند. این قراردادهای انحصاری میتواند قدرت را در دست شرکتهای بزرگ فناوری متمرکز کند و دسترسی به دادهها را برای پژوهشگران و سازمانهای کوچکتر دشوار سازد.
لانگپری میگوید:
"این یک موج جدید از دسترسی نامتقارن است که در وب آزاد تا به امروز به این اندازه دیده نشده است."
تمرکز جغرافیایی دادهها و سوگیری فرهنگی
دادههای استفادهشده برای آموزش مدلهای هوش مصنوعی نیز بهشدت به مناطق غربی متمایل است. بیش از ۹۰ درصد از مجموعههای داده که توسط پژوهشگران مورد بررسی قرار گرفت، از اروپا و آمریکای شمالی آمدهاند و کمتر از ۴ درصد از آفریقا.
هوکر میگوید:
"این مجموعههای داده تنها بخشی از دنیای ما و فرهنگمان را منعکس میکنند و سایر بخشها را کاملاً نادیده میگیرند."
این تمرکز جغرافیایی بهویژه در مدلهای مولتیمدال آشکار میشود. وقتی از یک مدل هوش مصنوعی خواسته میشود تا نمایی از یک عروسی را نمایش دهد، ممکن است تنها قادر به نمایش عروسیهای غربی باشد، چون مدلهای هوش مصنوعی فقط با دادههای مربوط به عروسیهای غربی آموزش دیدهاند.
این میتواند باعث تقویت سوگیری فرهنگی شود و مدلهای هوش مصنوعی را بهسمت تقویت دیدگاههای خاص فرهنگی سوق دهد. هوکر در اینباره میگوید:
"ما از این مدلها در سراسر جهان استفاده میکنیم، در حالی که بین آنچه میبینیم و آنچه که این مدلها قادر به درک آن نیستند، تفاوت عظیمی وجود دارد."
Credits: "This is where the data to build AI comes By Melissa Heikkilä & Stephanie Arnettarchive page, published in MIT Technology Review
Read here: https://www.technologyreview.com/2024/12/18/1108796/this-is-where-the-data-to-build-ai-comes-from/