نزاع خزندههای هوش مصنوعی؛ تهدیدی برای آیندۀ اینترنت باز
نزاع میان ناشران وب و خزندههای هوش مصنوعی به سرعت در حال تشدید است و در این میان، همه ما ممکن است بازنده باشیم

اینترنت را بدیهی میدانیم - اقیانوسی از اطلاعات که در کسری از ثانیه در دسترس ما قرار میگیرد. اما این سیستم بر پایۀ گروههای عظیمی از خزندههای وب استوار است؛ رباتهایی که روزانه میلیونها وبسایت را بررسی کرده و دادههای آنها را فهرست میکنند. این همان روشی است که گوگل برای جستجوی اطلاعات، آمازون برای تعیین قیمتهای رقابتی و Kayak برای گردآوری پیشنهادهای سفر استفاده میکنند.
فراتر از کسبوکار، خزندهها نقشی کلیدی در حفظ امنیت وب، دسترسپذیری اطلاعات، و ثبت آرشیوهای تاریخی دارند. پژوهشگران، روزنامهنگاران و نهادهای مدنی نیز برای انجام تحقیقات حیاتی به این ابزارها وابستهاند.
اما اکنون که خزندههای هوش مصنوعی وارد میدان شدهاند، همه چیز تغییر کرده است. شرکتهایی مانند OpenAI از دادههای خزندههای وب برای آموزش مدلهای هوش مصنوعی، از جمله ChatGPT، استفاده میکنند.
وبسایتها در برابر خزندههای هوش مصنوعی مقاومت میکنند
سایتهای اینترنتی، نگران از اینکه خزندههای هوش مصنوعی دادههایشان را جمعآوری کرده و رقبایی برای آنها ایجاد کنند، در حال مقابله با این روند هستند. اما این مقاومت میتواند پیامدهای ناخواستهای داشته باشد: بستهتر شدن فضای اینترنت و محدود شدن دسترسی به اطلاعات نهتنها برای هوش مصنوعی، بلکه برای بسیاری از کاربران و ابزارهای مفید دیگر.
اگر در مدیریت این چالش دقت نکنیم، اینترنت به فضایی مملو از ورودهای اجباری، دیوارهای پرداخت، و محدودیتهای دسترسی تبدیل خواهد شد که نهتنها خزندههای هوش مصنوعی، بلکه پژوهشگران، توسعهدهندگان و کاربران عادی را نیز دچار مشکل میکند.
چگونه تعادل اینترنت برهم خورد؟
تا همین اواخر، خزندههای وب و سایتها در همزیستی نسبی فعالیت میکردند. خزندهها بهطور کلی مزاحمتی ایجاد نمیکردند و حتی به نفع وبسایتها بودند؛ چرا که کاربران را از طریق موتورهای جستجو به سمت آنها هدایت میکردند.
وبسایتها از طریق فایل robots.txt تعیین میکردند که کدام بخش از محتوا نباید توسط خزندهها بررسی شود. اما از آنجا که خطر بزرگی وجود نداشت، بسیاری از سایتها چندان درگیر مسدودسازی خزندههای غیرمجاز نبودند.
اما با رشد هوش مصنوعی، این تعادل بههم خورد. خزندههای هوش مصنوعی تشنۀ دادهاند و همهچیز، از مقالات ویکیپدیا و پژوهشهای علمی گرفته تا نظرات کاربران در Reddit و سایتهای نقد و بررسی را جمعآوری میکنند. این دادهها شامل متن، تصاویر، ویدئو، صدا و کدهای برنامهنویسی میشود.
نتیجۀ این روند، شکلگیری رقابت مستقیم با منابع داده است:
- رسانهها نگراناند که چتباتهای هوش مصنوعی مخاطبانشان را بربایند.
- هنرمندان و طراحان بیم دارند که مدلهای هوش مصنوعی، مشتریانشان را جذب کنند.
- فرومهای برنامهنویسی میترسند که ابزارهای کدنویسی مبتنی بر هوش مصنوعی، جای مشارکتکنندگانشان را بگیرند.
نزاع خزندهها آغاز شده است
وبسایتها در واکنش به این وضعیت، سه مسیر را دنبال کردهاند:
- اقدامات حقوقی: رسانههایی مانند نیویورک تایمز علیه استفادهی بدون اجازه از محتوایشان شکایت کردهاند.
- قوانین و مقررات: اتحادیه اروپا با تصویب قانون AI Act تلاش کرده تا حقوق دارندگان محتوا را در برابر آموزش مدلهای هوش مصنوعی حفظ کند.
- محدودیتهای فنی: بسیاری از وبسایتها دسترسی خزندهها را مسدود کردهاند. از اواسط ۲۰۲۳، بیش از ۲۵٪ از دادههای باکیفیت اینترنت تحت محدودیت قرار گرفته است.
با این حال، برخی خزندههای هوش مصنوعی این محدودیتها را نادیده میگیرند. شرکتهایی مانند OpenAI و Anthropic متهم شدهاند که بهرغم ادعای احترام به قوانین، با ارسال حجم عظیمی از درخواستها، فشار زیادی به وبسایتها وارد میکنند.
توسعۀ فناوریهای ضد خزنده
اکنون وبسایتها به فناوریهای پیشرفتۀ ضد خزنده روی آوردهاند. شرکتهایی مانند TollBit و ScalePost، به همراه زیرساختهایی مانند Cloudflare (که ۲۰٪ از ترافیک جهانی وب را مدیریت میکند)، ابزارهایی برای شناسایی، مسدودسازی و حتی دریافت هزینه از خزندهها ارائه دادهاند.
این اقدامات، گرچه در کوتاهمدت مانع دسترسی هوش مصنوعی به دادهها میشود، اما تأثیرات گستردهتری دارد: بسیاری از وبسایتها تمام خزندهها را مسدود میکنند، حتی آنهایی که برای تحقیقات علمی، روزنامهنگاری و امنیت سایبری ضروری هستند.
چگونه این وضعیت بر همه ما تأثیر میگذارد؟
در این نزاع، بازیگران بزرگ پیروز خواهند شد:
✅ رسانههای بزرگ میتوانند در دادگاه از حقوق خود دفاع کنند.
✅ شرکتهای فناوری عظیم میتوانند دادهها را خریداری کرده یا خزندههای پیشرفتهتری برای دور زدن محدودیتها بسازند.
اما تولیدکنندگان مستقل محتوا، از هنرمندان و مربیان یوتیوب گرفته تا وبلاگنویسان، تنها دو انتخاب خواهند داشت:
- محتوای خود را پشت ورودهای اجباری و دیوارهای پرداخت پنهان کنند.
- آن را به کلی از اینترنت حذف کنند.
برای کاربران عادی، این روند دسترسی به اخبار، اطلاعات رایگان و محتوای آموزشی را دشوارتر خواهد کرد.
بدتر از آن، توافقهای انحصاری میان شرکتهای هوش مصنوعی و وبسایتها، اینترنت را به قلمروهای بسته تبدیل خواهد کرد. هر توافق، انگیزهای برای وبسایتها ایجاد میکند که دادههای خود را برای سایر خزندهها مسدود کنند، حتی اگر آنها تهدیدی نباشند. در نتیجه، تنها شرکتهای بزرگ میتوانند به دادههای حیاتی وب دسترسی داشته باشند، که به تمرکز قدرت در دستان عدهای معدود منجر خواهد شد.
چگونه میتوان تعادل را حفظ کرد؟
برای جلوگیری از بستهتر شدن اینترنت، باید میان حفظ حقوق ناشران محتوا و حمایت از یک اینترنت باز تعادل برقرار کنیم:
- قوانینی تدوین شود که استفادههای غیراقتصادی از دادههای وب (مانند پژوهشهای علمی و روزنامهنگاری) را حفظ کند.
- از توافقهای انحصاری که تنوع اطلاعات را محدود میکنند جلوگیری شود.
اینترنت در آستانۀ یک انتخاب سرنوشتساز است: آیا آن را به فضایی بسته و تجاری تبدیل خواهیم کرد، یا برای حفظ آزادی و شفافیت آن تلاش خواهیم کرد؟
Credit: "AI crawler wars threaten to make the web more closed for everyone” By Shayne Longpre, published in MIT Technology Review.
Read the full article here: https://www.technologyreview.com/2025/02/11/1111518/ai-crawler-wars-closed-web/