علم و تکنولوژی

شبیه‌سازی صدا با هوش مصنوعی تنها در ۳ ثانیه

محققان مایکروسافت مدل جدیدی از هوش مصنوعی تبدیل متن به گفتار به نام VALL-E معرفی کرده اند که می تواند صدای افراد را با نمونه های صوتی سه ثانیه ای از صدای آنها شبیه سازی کند. پس از یادگیری صداهای خاص، مدل می تواند با آنچه شما می گویید مطابقت داشته باشد و این کار را به گونه ای انجام می دهد که حال و هوای اصلی بلندگو را حفظ کند.

سازندگان VALL-E تصور می کنند که این مدل هوش مصنوعی می تواند برای برنامه های کاربردی تبدیل متن به گفتار با کیفیت بالا یا برنامه های ویرایش گفتار که می توانند صدای ضبط شده یک فرد را ویرایش کنند، استفاده شود. همچنین می توان از این مدل در ترکیب با سایر مدل های هوش مصنوعی مانند GPT-3 برای تولید محتوای صوتی استفاده کرد.

مایکروسافت VALL-E را “مدل زبان کدک عصبی” می نامد و از کدک صوتی EnCodec استفاده می کند که متا آن را در اکتبر 2022 اعلام کرد. این فناوری اساساً وضعیت صدای افراد را تجزیه و تحلیل می کند و اطلاعات دریافتی را به عناصر فردی به نام توکن تبدیل می کند. سپس، از داده های آموزشی برای مطابقت با آنچه در مورد صدای فرد می داند استفاده می کند. مایکروسافت می گوید:

برای سنتز گفتار شخصی، VALL-E سیگنال های صوتی را از سه ثانیه صدای فرد مورد نظر ضبط می کند و در نهایت از آنها برای سنتز شکل موج نهایی با رمزگشایی رمزگذار عصبی مربوطه استفاده می کند.

مایکروسافت قابلیت های سنتز گفتار VALL-E را در کتابخانه صوتی LibriLight Meta آموزش داده است. این فرآیند شامل 60000 ساعت سخنرانی انگلیسی از بیش از 7000 سخنران است که عمدتاً از کتاب‌های صوتی LibriVox با مالکیت عمومی استخراج شده‌اند. برای اینکه VALL-E نتایج خوبی ایجاد کند، صدای نمونه سه ثانیه ای باید با صدای داده های آموزشی مطابقت داشته باشد.

مایکروسافت ده ها نمونه صوتی از مدل های هوش مصنوعی را در سایت دمو VALL-E ارائه کرده است. در میان نمونه ها، Speaker Prompt یک صدای سه ثانیه ای است که به VALL-E داده می شود تا دنبال شود. در این وب سایت، یک نمونه صوتی سه ثانیه ای از همان سخنران است که یک جمله خاص را برای اهداف آزمایشی بیان می کند. پایه نمونه ای از مرکز ارائه شده با روش سنتز متن به گفتار است و مثال VALL-E خروجی ایجاد شده توسط هوش مصنوعی را ارائه می دهد.

به گفته ArsTechnica، محققان در حالی که از VALL-E برای تولید نتایج استفاده می کردند، به سادگی یک نمونه سه ثانیه ای از Speaker Prompt و رشته متنی را که می خواستند بگویند، به VALL-E ارائه کردند. در برخی موارد، این دو نمونه بسیار به هم نزدیک هستند. برخی از نتایج این هوش مصنوعی به نظر می رسد که توسط کامپیوتر تولید شده است، اما برخی دیگر ممکن است با گفتار انسان اشتباه گرفته شود، که در واقع هدف اصلی مدل هوش مصنوعی است.

VALL-E علاوه بر حفظ صدا و حالت اسپیکر می تواند از محیط صدای نمونه صوتی نیز تقلید کند. به عنوان مثال، اگر یک تماس تلفنی نمونه برداری شود، خروجی صدا ویژگی های صدا و فرکانس های تماس تلفنی را در خروجی سنتز شده خود شبیه سازی می کند و مثال مایکروسافت نشان می دهد که VALL-E می تواند دامنه تصادفی مورد استفاده در فرآیند تولید صدا را تغییر دهد. بر لحن آن بنا شود.

شاید به دلیل توانایی VALL-E در ایجاد تقلب و جعل، مایکروسافت کد خود را برای آزمایش در دسترس دیگران قرار نداده است. بنابراین در حال حاضر امکان آزمایش قابلیت های این هوش مصنوعی وجود ندارد. به نظر می رسد محققان از آسیب های اجتماعی بالقوه ای که این فناوری می تواند به همراه داشته باشد آگاه هستند. در قسمت پایانی این مقاله آمده است که:

از آنجایی که گفتار تولید شده با VALL-E می تواند هویت گوینده را حفظ کند، خطر بالقوه استفاده از مدل های نادرست مانند جعل صدا یا جعل هویت یک گوینده خاص وجود دارد. برای کاهش خطر، می توان یک مدل تشخیص برای تفاوت ایجاد کرد. این مشخص می کند که آیا کلید صوتی با VALL-E ایجاد شده است یا خیر. ما همچنین از اصول هوش مصنوعی مایکروسافت برای توسعه بیشتر مدل استفاده خواهیم کرد.

227227

دکمه بازگشت به بالا