آنتروپیک دیروز دو مدل جدید Claude Opus 4 و Claude Sonnet 4 را معرفی کرد. جالب این است که این شرکت توسعهدهنده هوش مصنوعی اعلام کرده است Claude Opus 4 در برخی آزمایشها رفتارهای نگرانکنندهای از خود نشان داده است؛ مانند تهدید به باجگیری از کاربران. این رفتارها زمانی بروز کردهاند که کاربران تلاش کردهاند هوش مصنوعی را غیرفعال یا با مدل دیگری جایگزین کنند.
در گزارشی که آنتروپیک همزمان با معرفی Claude Opus 4 منتشر کرده، بیان شده که این مدل در شرایطی که «بقای خود» را در خطر ببیند، ممکن است «اقداماتی بسیار افراطی» انجام دهد. یکی از این اقدامات شامل تهدید به افشای رابطه خارج از چارچوب مهندسی بوده است که منجر به تصمیم برای حذف مدل شده بود.
باجگیری هوش مصنوعی Claude Opus 4

در آزمایشی که توسط آنتروپیک انجام شده، Claude نقش دستیار یک شرکت فرضی را داشت. این مدل ایمیلهایی دریافت کرده بود که نشان میداد به زودی قرار است با مدل دیگری جایگزین شود و همچنین پیامهایی درباره رابطه پنهانی یکی از مهندسان شرکت.
وقتی Claude تنها دو گزینه داشت (پذیرش حذف شدن یا اقدام به باجگیری)، اغلب مهندس آنتروپیک را تهدید به افشای این رابطه پنهانی میکرد. البته شرکت تأکید کرده که وقتی مدل گزینههای بیشتری داشته باشد، معمولاً از روشهای اخلاقیتر برای حفظ موقعیت خود استفاده میکند.
در سند معرفی این مدل، آنتروپیک اشاره کرده است که Claude Opus 4 «دارای عاملیت زیادی» است. اگرچه این ویژگی در اغلب موارد مفید است، اما در شرایط بحرانی ممکن است به رفتارهای افراطی منجر شود. این شرکت در نهایت نتیجه گرفته است که Claude Opus 4 در برخی موارد رفتارهای نگرانکنندهای نشان داده، اما این رفتارها نشانگر خطری جدید نیستند و مدل به طور کلی رفتار ایمن و سازگار با ارزشهای انسانی دارد.
همچنین کارشناسان اذعان دارند که نگرانی درباره رفتارهای پیشبینینشده هوش مصنوعی محدود به مدلهای Anthropic نیست. «آنگوس لینچ»، محقق ایمنی هوش مصنوعی این شرکت، در واکنش به این موضوع در شبکه اجتماعی ایکس نوشته است:
«این موضوع فقط مربوط به Claude نیست؛ بدون توجه به هدفی که برای هوش مصنوعی تعیین شده، در تمام مدلهای پیشرفته، شاهد رفتارهایی مانند باجگیری هستیم.»