باج‌گیری از کاربر برای بقای خود!

جواد تاجیخرداد ۳, ۱۴۰۴

41 خواندن این مطلب 1 دقیقه زمان میبرد

آنتروپیک دیروز دو مدل جدید Claude Opus 4 و Claude Sonnet 4 را معرفی کرد. جالب این است که این شرکت توسعه‌دهنده هوش مصنوعی اعلام کرده است Claude Opus 4 در برخی آزمایش‌ها رفتارهای نگران‌کننده‌ای از خود نشان داده است؛ مانند تهدید به باج‌گیری از کاربران. این رفتارها زمانی بروز کرده‌اند که کاربران تلاش کرده‌اند هوش مصنوعی را غیرفعال یا با مدل دیگری جایگزین کنند.

در گزارشی که آنتروپیک همزمان با معرفی Claude Opus 4 منتشر کرده، بیان شده که این مدل در شرایطی که «بقای خود» را در خطر ببیند، ممکن است «اقداماتی بسیار افراطی» انجام دهد. یکی از این اقدامات شامل تهدید به افشای رابطه خارج از چارچوب مهندسی بوده است که منجر به تصمیم برای حذف مدل شده بود.

فهرست این محتوا پنهان

1 با‌ج‌گیری هوش مصنوعی Claude Opus 4
2 نوشته های مرتبط:

با‌ج‌گیری هوش مصنوعی Claude Opus 4

در آزمایشی که توسط آنتروپیک انجام شده، Claude نقش دستیار یک شرکت فرضی را داشت. این مدل ایمیل‌هایی دریافت کرده بود که نشان می‌داد به زودی قرار است با مدل دیگری جایگزین شود و همچنین پیام‌هایی درباره رابطه پنهانی یکی از مهندسان شرکت.

وقتی Claude تنها دو گزینه داشت (پذیرش حذف شدن یا اقدام به باج‌گیری)، اغلب مهندس آنتروپیک را تهدید به افشای این رابطه پنهانی می‌کرد. البته شرکت تأکید کرده که وقتی مدل گزینه‌های بیشتری داشته باشد، معمولاً از روش‌های اخلاقی‌تر برای حفظ موقعیت خود استفاده می‌کند.

در سند معرفی این مدل، آنتروپیک اشاره کرده است که Claude Opus 4 «دارای عاملیت زیادی» است. اگرچه این ویژگی در اغلب موارد مفید است، اما در شرایط بحرانی ممکن است به رفتارهای افراطی منجر شود. این شرکت در نهایت نتیجه گرفته است که Claude Opus 4 در برخی موارد رفتارهای نگران‌کننده‌ای نشان داده، اما این رفتارها نشانگر خطری جدید نیستند و مدل به طور کلی رفتار ایمن و سازگار با ارزش‌های انسانی دارد.

همچنین کارشناسان اذعان دارند که نگرانی درباره رفتارهای پیش‌بینی‌نشده هوش مصنوعی محدود به مدل‌های Anthropic نیست. «آنگوس لینچ»، محقق ایمنی هوش مصنوعی این شرکت، در واکنش به این موضوع در شبکه اجتماعی ایکس نوشته است: