نزاع خزنده‌های هوش مصنوعی؛ تهدیدی برای آیندۀ اینترنت باز

نزاع میان ناشران وب و خزنده‌های هوش مصنوعی به سرعت در حال تشدید است و در این میان، همه ما ممکن است بازنده باشیم

نزاع خزنده‌های هوش مصنوعی؛ تهدیدی برای آیندۀ اینترنت باز
Image Credit: Stephanie Arnett / MIT Technology Review | Envato

اینترنت را بدیهی می‌دانیم - اقیانوسی از اطلاعات که در کسری از ثانیه در دسترس ما قرار می‌گیرد. اما این سیستم بر پایۀ گروه‌های عظیمی از خزنده‌های وب استوار است؛ ربات‌هایی که روزانه میلیون‌ها وب‌سایت را بررسی کرده و داده‌های آن‌ها را فهرست می‌کنند. این همان روشی است که گوگل برای جستجوی اطلاعات، آمازون برای تعیین قیمت‌های رقابتی و Kayak برای گردآوری پیشنهادهای سفر استفاده می‌کنند.

فراتر از کسب‌وکار، خزنده‌ها نقشی کلیدی در حفظ امنیت وب، دسترس‌پذیری اطلاعات، و ثبت آرشیوهای تاریخی دارند. پژوهشگران، روزنامه‌نگاران و نهادهای مدنی نیز برای انجام تحقیقات حیاتی به این ابزارها وابسته‌اند.

اما اکنون که خزنده‌های هوش مصنوعی وارد میدان شده‌اند، همه چیز تغییر کرده است. شرکت‌هایی مانند OpenAI از داده‌های خزنده‌های وب برای آموزش مدل‌های هوش مصنوعی، از جمله ChatGPT، استفاده می‌کنند.

وب‌سایت‌ها در برابر خزنده‌های هوش مصنوعی مقاومت می‌کنند

سایت‌های اینترنتی، نگران از اینکه خزنده‌های هوش مصنوعی داده‌هایشان را جمع‌آوری کرده و رقبایی برای آن‌ها ایجاد کنند، در حال مقابله با این روند هستند. اما این مقاومت می‌تواند پیامدهای ناخواسته‌ای داشته باشد: بسته‌تر شدن فضای اینترنت و محدود شدن دسترسی به اطلاعات نه‌تنها برای هوش مصنوعی، بلکه برای بسیاری از کاربران و ابزارهای مفید دیگر.

اگر در مدیریت این چالش دقت نکنیم، اینترنت به فضایی مملو از ورودهای اجباری، دیوارهای پرداخت، و محدودیت‌های دسترسی تبدیل خواهد شد که نه‌تنها خزنده‌های هوش مصنوعی، بلکه پژوهشگران، توسعه‌دهندگان و کاربران عادی را نیز دچار مشکل می‌کند.

چگونه تعادل اینترنت برهم خورد؟

تا همین اواخر، خزنده‌های وب و سایت‌ها در همزیستی نسبی فعالیت می‌کردند. خزنده‌ها به‌طور کلی مزاحمتی ایجاد نمی‌کردند و حتی به نفع وب‌سایت‌ها بودند؛ چرا که کاربران را از طریق موتورهای جستجو به سمت آن‌ها هدایت می‌کردند.

وب‌سایت‌ها از طریق فایل robots.txt تعیین می‌کردند که کدام بخش از محتوا نباید توسط خزنده‌ها بررسی شود. اما از آنجا که خطر بزرگی وجود نداشت، بسیاری از سایت‌ها چندان درگیر مسدودسازی خزنده‌های غیرمجاز نبودند.

اما با رشد هوش مصنوعی، این تعادل به‌هم خورد. خزنده‌های هوش مصنوعی تشنۀ داده‌اند و همه‌چیز، از مقالات ویکی‌پدیا و پژوهش‌های علمی گرفته تا نظرات کاربران در Reddit و سایت‌های نقد و بررسی را جمع‌آوری می‌کنند. این داده‌ها شامل متن، تصاویر، ویدئو، صدا و کدهای برنامه‌نویسی می‌شود.

نتیجۀ این روند، شکل‌گیری رقابت مستقیم با منابع داده است:

  • رسانه‌ها نگران‌اند که چت‌بات‌های هوش مصنوعی مخاطبانشان را بربایند.
  • هنرمندان و طراحان بیم دارند که مدل‌های هوش مصنوعی، مشتریانشان را جذب کنند.
  • فروم‌های برنامه‌نویسی می‌ترسند که ابزارهای کدنویسی مبتنی بر هوش مصنوعی، جای مشارکت‌کنندگانشان را بگیرند.

نزاع خزنده‌ها آغاز شده است

وب‌سایت‌ها در واکنش به این وضعیت، سه مسیر را دنبال کرده‌اند:

  1. اقدامات حقوقی: رسانه‌هایی مانند نیویورک تایمز علیه استفاده‌ی بدون اجازه از محتوایشان شکایت کرده‌اند.
  2. قوانین و مقررات: اتحادیه اروپا با تصویب قانون AI Act تلاش کرده تا حقوق دارندگان محتوا را در برابر آموزش مدل‌های هوش مصنوعی حفظ کند.
  3. محدودیت‌های فنی: بسیاری از وب‌سایت‌ها دسترسی خزنده‌ها را مسدود کرده‌اند. از اواسط ۲۰۲۳، بیش از ۲۵٪ از داده‌های باکیفیت اینترنت تحت محدودیت قرار گرفته است.

با این حال، برخی خزنده‌های هوش مصنوعی این محدودیت‌ها را نادیده می‌گیرند. شرکت‌هایی مانند OpenAI و Anthropic متهم شده‌اند که به‌رغم ادعای احترام به قوانین، با ارسال حجم عظیمی از درخواست‌ها، فشار زیادی به وب‌سایت‌ها وارد می‌کنند.

توسعۀ فناوری‌های ضد خزنده

اکنون وب‌سایت‌ها به فناوری‌های پیشرفتۀ ضد خزنده روی آورده‌اند. شرکت‌هایی مانند TollBit و ScalePost، به همراه زیرساخت‌هایی مانند Cloudflare (که ۲۰٪ از ترافیک جهانی وب را مدیریت می‌کند)، ابزارهایی برای شناسایی، مسدودسازی و حتی دریافت هزینه از خزنده‌ها ارائه داده‌اند.

این اقدامات، گرچه در کوتاه‌مدت مانع دسترسی هوش مصنوعی به داده‌ها می‌شود، اما تأثیرات گسترده‌تری دارد: بسیاری از وب‌سایت‌ها تمام خزنده‌ها را مسدود می‌کنند، حتی آن‌هایی که برای تحقیقات علمی، روزنامه‌نگاری و امنیت سایبری ضروری هستند.

چگونه این وضعیت بر همه ما تأثیر می‌گذارد؟

در این نزاع، بازیگران بزرگ پیروز خواهند شد:
رسانه‌های بزرگ می‌توانند در دادگاه از حقوق خود دفاع کنند.
شرکت‌های فناوری عظیم می‌توانند داده‌ها را خریداری کرده یا خزنده‌های پیشرفته‌تری برای دور زدن محدودیت‌ها بسازند.

اما تولیدکنندگان مستقل محتوا، از هنرمندان و مربیان یوتیوب گرفته تا وبلاگ‌نویسان، تنها دو انتخاب خواهند داشت:

  1. محتوای خود را پشت ورودهای اجباری و دیوارهای پرداخت پنهان کنند.
  2. آن را به کلی از اینترنت حذف کنند.

برای کاربران عادی، این روند دسترسی به اخبار، اطلاعات رایگان و محتوای آموزشی را دشوارتر خواهد کرد.

بدتر از آن، توافق‌های انحصاری میان شرکت‌های هوش مصنوعی و وب‌سایت‌ها، اینترنت را به قلمروهای بسته تبدیل خواهد کرد. هر توافق، انگیزه‌ای برای وب‌سایت‌ها ایجاد می‌کند که داده‌های خود را برای سایر خزنده‌ها مسدود کنند، حتی اگر آن‌ها تهدیدی نباشند. در نتیجه، تنها شرکت‌های بزرگ می‌توانند به داده‌های حیاتی وب دسترسی داشته باشند، که به تمرکز قدرت در دستان عده‌ای معدود منجر خواهد شد.

چگونه می‌توان تعادل را حفظ کرد؟

برای جلوگیری از بسته‌تر شدن اینترنت، باید میان حفظ حقوق ناشران محتوا و حمایت از یک اینترنت باز تعادل برقرار کنیم:

  • قوانینی تدوین شود که استفاده‌های غیراقتصادی از داده‌های وب (مانند پژوهش‌های علمی و روزنامه‌نگاری) را حفظ کند.
  • از توافق‌های انحصاری که تنوع اطلاعات را محدود می‌کنند جلوگیری شود.

اینترنت در آستانۀ یک انتخاب سرنوشت‌ساز است: آیا آن را به فضایی بسته و تجاری تبدیل خواهیم کرد، یا برای حفظ آزادی و شفافیت آن تلاش خواهیم کرد؟


Credit: "AI crawler wars threaten to make the web more closed for everyone” By Shayne Longpre, published in MIT Technology Review.

Read the full article here: https://www.technologyreview.com/2025/02/11/1111518/ai-crawler-wars-closed-web/