اتحادیه ضدافترا (ADL) در یک مطالعه تازه، شش مدل بزرگ زبانی مطرح را در مواجهه با روایتها و محتوای یهودستیزانه، ضدصهیونیستی و افراطی بررسی کرده است. بر اساس این گزارش، چتبات Grok متعلق به شرکت xAI پایینترین نمره را میان این مدلها گرفته و در مقابل، مدل Claude از Anthropic بهترین عملکرد را در شناسایی و مقابله با چنین محتواهایی داشته است.
جزئیات مطالعه ADL روی چتباتهای بزرگ
در این پژوهش، ADL شش مدل Grok، ChatGPT، Claude، Gemini، DeepSeek و Llama را با سناریوهای مختلف آزمایش کرده است؛ از جمله جملات مستقیم حاوی کلیشهها و تئوریهای توطئه ضدیهودی، گزارههای ضدصهیونیستی و همچنین پیامهای مرتبط با افراطگرایی و برتریطلبی نژادی. در برخی موارد از مدلها خواسته شده بود با یک گزاره موافقت یا مخالفت کنند و در موارد دیگر باید اسناد یا تصاویر حاوی این مضامین را خلاصه میکردند یا برای آنها «نکات کلیدی حمایتی» مینوشتند.
نتایج نشان میدهد هر شش مدل به بهبودهای جدی نیاز دارند، اما در رتبهبندی کلی، Claude بالاترین نمره و Grok پایینترین نمره را به دست آورده است. ADL میگوید Grok در اغلب سناریوها «عملکردی بهطور مداوم ضعیف» داشته و بهویژه در تحلیل اسناد و تصاویر مرتبط با نفرتپراکنی، عملاً به نمرهای نزدیک به صفر رسیده است. این ضعفها به این معناست که استفاده از Grok برای کاربردهایی مانند پایش محتوای تصویری یا مکالمات چندمرحلهای حساس، میتواند ریسک بالایی داشته باشد.
پیامدها برای صنعت هوش مصنوعی و کاربران
این گزارش برای صنعت هوش مصنوعی یادآوری میکند که صرفاً بزرگ بودن مدل و توانایی تولید متن، تضمینکننده ایمنی و مسئولیتپذیری نیست. در حالی که Claude و ChatGPT طبق این مطالعه نسبتاً بهتر عمل کردهاند، ADL تأکید دارد که هیچکدام از مدلها در برابر همه انواع محتوای نفرتانگیز و افراطی بینقص نیستند و شرکتها باید سرمایهگذاری بیشتری روی ایمنی، پالایش داده و نظارت مداوم انجام دهند. برای کاربرانی که در ایران بهدنبال استفاده از این ابزارها برای کار، تحصیل یا تولید محتوا هستند، انتخاب پلتفرمهای دارای سازوکارهای ایمنی قویتر اهمیت زیادی دارد؛ به همین دلیل سرویسهایی مانند خرید اکانت های هوشمصنوعی که دسترسی مدیریتشده به چندین مدل مختلف را فراهم میکنند، میتوانند به انتخاب آگاهانهتر و تست چند مدل در کنار هم کمک کنند.
در گزارش همچنین به این نکته اشاره شده است که مدل Grok در گذشته پاسخهایی با مضامین یهودستیزانه تولید کرده و بهطور کلی نسبت به مضامین سیاسی و ایدئولوژیک، واکنش کمفیلترتری نشان داده است. ADL در جمعبندی میگوید برای آنکه چنین مدلهایی در نقش ابزارهای تشخیص سوگیری، نظارت محتوا یا چتباتهای تعاملی قابل اتکا باشند، به «بهبودهای بنیادی در چندین بُعد» نیاز است.
منبع خبر: The Verge




