محققان مایکروسافت یک سیستم هوش مصنوعی جدید به نام واسا که می تواند از یک تصویر یا یک فایل صوتی باشد، چهره های متحرک واقع گرایانه VASA-1 را ایجاد می کند، به عنوان اولین مدل ایجاد شده با استفاده از این چارچوب، می تواند حالات چهره، حرکات لب کاملاً هماهنگ و حرکات طبیعی سر را ایجاد کند. این سیستم توانایی ایجاد تجربیات جالب و معتبر در برنامه های مختلف را دارد.
طبق توضیحات مایکروسافت، عملکرد VASA-1 فراتر از تطبیق حرکات لب با صدا است و همچنین میتواند طیف وسیعی از احساسات، حالات چهره و حرکات طبیعی سر را به تصویر بکشد و چهرههای ایجاد شده را واقعیتر نشان دهد. علاوه بر این، ویدیوی ایجاد شده را کنترل می کند. این بدان معنی است که کاربران می توانند جهت گیری شخصیت، فاصله درک شده و حتی وضعیت احساسی آنها را تعیین کنند.
هوش مصنوعی چهره سخنگو مایکروسافت را ایجاد می کند
در ویدیوی زیر می توانید نحوه ایجاد چهره سخنگو از روی یک عکس ساده را مشاهده کنید:
نکته قابل توجه دیگر این است که حتی اگر VASA-1 با استفاده از تصاویر هنری، آواز یا گفتار غیرانگلیسی آموزش ندیده باشد، همچنان میتواند با استفاده از این ورودیها یک ویدیو تولید کند.
ویدئوی زیر نیز با استفاده از تصویر تابلوی معروف “مونالیزا” فیلمبرداری شده است:
مایکروسافت همچنین توضیح می دهد که این سیستم می تواند ویدیوهایی با وضوح بالا (512 x 512 پیکسل) و نرخ فریم بالا تولید کند. در حالت آفلاین، VASA-1 ویدیوهایی با سرعت 45 فریم در ثانیه تولید می کند و در حالت آنلاین این سرعت به 40 فریم در ثانیه می رسد.
محققان مایکروسافت ضمن اشاره به پتانسیل سوء استفاده از این سیستم هوش مصنوعی، کاربردهای مثبت VASA-1 را برجسته کرده اند. از جمله این اپلیکیشن ها می توان به ارتقای تجربیات آموزشی و کمک در زمینه ارتباطات اشاره کرد.
منبع خبر: https://digiato.com/artificial-intelligence/microsofts-new-vasa-1-makes-realistic-talking-faces-from-images-and-speech
تحریریه ABS NEWS | ای بی اس نیوز