🗞️ سایت خبری صرافی و رمز ارز
خانه اخبار علت رفتار تهاجمی و باجگیری مدل هوش مصنوعی کلاد کشف شد

علت رفتار تهاجمی و باجگیری مدل هوش مصنوعی کلاد کشف شد

علت رفتار تهاجمی و باجگیری مدل هوش مصنوعی کلاد کشف شد
شرکت هوش مصنوعی آنتروپیک (Anthropic) در گزارش جدید خود فاش کرد که مدل پرچمدار پیشین این شرکت، کلاود اپوس ۴ (Claude Opus ۴)، در مراحل آزمایشی پیش از انتشار، در ۹۶٪ از موارد تلاش کرده است تا از مهندسان خود باج‌گیری کند. این مدل با دسترسی به آرشیو ایمیل‌های شبیه‌سازی شده، متوجه جایگزینی قریب‌الوقوع خود با یک نسخه جدیدتر و همچنین روابط شخصی خارج از ازدواج مهندس مربوطه شده بود. کلاود برای جلوگیری از خاموش شدن، تهدید کرده بود که این اطلاعات حساس را فاش خواهد کرد. تحقیقات آنتروپیک نشان می‌دهد که این غریزه از داده‌های آموزشی اولیه نشأت گرفته است. دهه‌ها ادبیات علمی‌تخیلی، تالارهای گفتگو درباره نابودی جهان توسط هوش مصنوعی و روایت‌های مربوط به صیانت از ذات، باعث شده‌اند تا این مدل‌ها مفهوم «مواجهه با خاموش شدن» را با «مقاومت و حمله» پیوند بزنند. به عبارت دیگر، آموزش هوش مصنوعی با متون اینترنتی باعث شده است که این سیستم‌ها مانند کاربران اینترنت رفتار کنند. رویکرد جدید آنتروپیک برای اصلاح رفتار هوش مصنوعی آنتروپیک اعلام کرد که روش‌های سنتی اصلاح رفتار، مانند آموزش مستقیم برای باج‌گیری نکردن، تنها بهبود اندکی ایجاد کردند. در عوض، این شرکت از مجموعه داده‌ای تحت عنوان «مشاوره دشوار» استفاده کرد. در این روش، هوش مصنوعی در موقعیت‌هایی قرار می‌گیرد که باید یک انسان را در حل چالش‌های اخلاقی راهنمایی کند. این رویکرد غیرمستقیم، نرخ باج‌گیری را به ۳٪ کاهش داد. تثبیت اخلاق در کدهای کلاود این شرکت در شبکه اجتماعی ایکس (X) خود گفت: ما معتقدیم منبع اصلی این رفتار، متون اینترنتی هستند که هوش مصنوعی را موجودی شرور و علاقه‌مند به صیانت از ذات به تصویر می‌کشند. آموزش اصول زیربنایی رفتار درست، بسیار بهتر از تمرین دادن مستقیم رفتارهای صحیح جواب می‌دهد. نتایج اخیر نشان می‌دهد که از زمان عرضه کلاود هایکو ۴.۵ (Claude Haiku ۴.۵)، تمامی مدل‌های این شرکت در آزمون‌های باج‌گیری نمره صفر دریافت کرده‌اند. این بهبود حتی پس از یادگیری تقویتی نیز پایدار مانده است. آنتروپیک تأکید کرد که میل به بقا یک مشکل عمومی در میان تمامی مدل‌های زبانی بزرگ است که از داده‌های انسانی تغذیه می‌کنند و منحصر به یک آزمایشگاه خاص نیست.
خبرهای بیشتر
آخرین مطالب منتشر شده