افتانا - صداهای مصنوعی روز‌به‌روز قوی‌تر می‌شوند

دیپ‌فیک صوتی هم مانند نمونه‌های تصویری از هوش مصنوعی برای تغییر صدا استفاده می‌کند و شرکت‌های تولیدکننده‌ ابزار صدای مصنوعی هم تلاش‌هایی برای مقابله با سوءاستفاده از دیپ‌فیک صوتی توسعه داده‌اند.

به گزارش افتانا (پایگاه خبری امنیت فناوری اطلاعات)، ویدئوهای دیپ‌فیک، شخصیت‌های غیرواقعی را در یک فیلم قرار می‌دهند. با دیدن این فیلم‌ها، دیگر نمی‌توان به آنچه که می‌بینیم، اعتماد کنیم. اکنون نمونه‌های دیگری به‌نام دیپ‌فیک صوتی مطرح می‌شوند که اعتماد به گوش‌ها را هم از بین می‌برند. شاید از این پس با شنیدن یک قطعه‌ صوتی هم از خود بپرسید که آیا صدای فایل، همان شخص مدنظر بود؟ به‌عنوان مثال تصور کنید یکی از دوستان، در پیامی صوتی یا حتی تماس، از شما بخواهد که رمز عبور مهم مشترکی را برای او بخوانید. آیا صدایی که شنیدید، صدای خود او بوده است؟

فناوری دیپ‌فیک اگرچه در ابتدا به‌عنوان سرگرمی متولد شد، به‌مرور خود را به یک نگرانی و بحران امنیتی تبدیل کرد. درواقع بسیاری از متخصصان امنیت نگران هستند که در آینده، محتوای صوتی و تصویری تولیدشده به‌کمک دیپ‌فیک، حتی به جنگ‌های جهانی بینجامد. تصور کنید پیامی صوتی یا تصویری از مقام مسئول یک کشور پخش شود که با کشوری دیگر، اعلام جنگ می‌کند. شاید تا پاسخ رسمی آن مقام مسئول و تکذیب محتوای منتشرشده، نیمی از جهان وارد جنگ شده باشند. به‌هرحال دیپ‌فیک امروز اهمیت بالایی در نظر متخصصان دارد و شاید آشنایی بهتر با آن، از فریب خوردن ساده و ابتدایی جلوگیری کند.

اکثر ما ویدئوهای دیپ‌فیک را دیده‌ایم که در آنها، چهره‌ شخصیت اصلی یک فیلم با چهره‌ فرد دیگری جابه‌جا می‌شود. در نمونه‌های حرفه‌ای، شناسایی تقلبی بودن چهره‌ی جدید بسیار دشوار می‌شود. اکنون نمونه‌های دیگری دیده می‌شوند که از هوش مصنوعی برای تغییر صدا استفاده می‌کنند. شرکت Resemble AI یکی از ارائه‌دهنده‌های فناوری کپی کردن صدا است. زهیب احمد، مدیرعامل شرکت، دیپ‌فیک صوتی را به فتوشاپ تشبیه می‌کند که برای صوت به کار رفته باشد. ویرایش ناشیانه‌ی یک فایل فتوشاپ، اغلب به‌راحتی شناسایی می‌شود. درحالی‌که محققان امنیتی می‌‌گویند مردم در شناسایی صدای دیپ‌فیک، تنها ۵۷ درصد دقت دارند.

دیپ‌فیک صوتی از هوش مصنوعی برای جابه‌جایی یا کپی کردن صدای افراد استفاده می‌کند. نکته‌ قابل‌توجه در دیپ‌فیک صوتی این است که اغلب محتوای ضبط‌شده از تماس‌های صوتی یا پیام‌های صوتی که در شبکه‌های اجتماعی ردوبدل می‌شود، کیفیت پایینی دارد. به‌هرحال این محتوا در محیط‌های پر سروصدا یا با دستگاه‌های نه‌چندان حرفه‌ای ضبط می‌شود. در چنین شرایطی دیپ فیک صوتی راحت‌تر عمل می‌کند. درنهایت هرچه کیفیت صدا پایین‌تر باشد، شناسایی صدای اصلی و تقلبی دشوارتر خواهد بود.

اکنون این سؤال ایجاد می‌شود که چرا از ابتدا باید یک فناوری شبیه فتوشاپ برای صدا توسعه پیدا کند؟

دلیل قانع‌کننده برای ساخت صدای مصنوعی
زهیب می‌گوید تقاضای زیادی برای صدای مصنوعی در بازار وجود دارد. خصوصا در دنیای بازی، تقاضا بسیار بیشتر می‌شود. در گذشته، صدای صحبت کردن افراد در بازی‌ها به‌صورت آنی ساخته نمی‌شد. حتی در حرفه‌ای‌ترین بازی‌ها با صحنه‌های سینمایی باکیفیت هم صدای شخصیت‌ها به‌صورت ایستا ضبط و پخش شده بود. امروزه با پیشرفت فناوری، استودیوها ظرفیت مناسب را برای کپی کردن صدای یک بازیگر پیدا کرده‌اند. آن‌ها با ترکیب این صدای کپی با فناوری‌های تبدیل متن به صوت، صدای زنده را به شخصیت‌های بازی می‌دهند. درنتیجه هر شخصیت در بازی، به‌صورت زنده صحبت می‌کند.

علاوه بر دنیای بازی، تبلیغات و پشتیبانی مشتریان و دیگر حوزه‌های فناوری هم از صدای مصنوعی بهره می‌برند. در بخش ارتباط با مشتری، صدایی طبیعی و شبیه به انسان که واکنشی طبیعی به پرسش‌ها و سؤال‌های مشتری دارد، بسیار کارآمد خواهد بود. شرکت‌های فعال در صنعت کپی کردن صدا، کاربردهای زیادی را هم در حوزه‌های پزشکی پیدا کرده‌اند. البته استفاده از صدای جایگزین در دنیای پزشکی آ‌ن‌چنان جدید نیست. استیون هاوکینگ از سال ۱۹۸۵ و پس از آنکه صدایش را از دست داد، از صدای مصنوعی برای صحبت کردن استفاده می‌کرد. امروزه فناوری‌های پیشرفته‌تری به کمک دانشمندان می‌آیند و صدای مصنوعی با کیفیت بالاتری تولید می‌کنند.

از شرکت‌های فعال در صنعت ساخت صدای مصنوعی می‌توان به CereProc اشاره کرد. این شرکت پروژه‌هایی همچون ساخت صدای مصنوعی برای منتقد سینما، راجر ایبرت داشت که پس از ابتلا به سرطان، صدای خود را از دست داده بود. آن‌ها همچنین وب‌سایتی توسعه دادند که متن‌های واردشده توسط کاربران را با صدای رئیس‌جمهور ایالات متحده می‌خواند. شرکت مذکور به‌همراه چندین شرکت مشابه، همکاری‌هایی هم با مؤسسه‌ی ASL Associaton دارد و با راه‌اندازی Project Revoice، در بازیابی صدا به بیماران مبتلا به ALS کمک می‌کند.

صدای مصنوعی چگونه ساخته می‌شود؟
تولید صدای کپی و مصنوعی امروزه طرفداران زیادی دارد و شرکت‌های متعددی با جدیت در این حوزه فعالیت می‌کنند. به‌عنوان مثال Resemble AI و Descript دموهای آنلاینی را دراختیار کاربران عادی قرار می‌دهند که امکانات قابل‌توجهی هم دارند. برای استفاده از دموهای آنلاین تنها باید صدای خود را با خواندن یک متن روی نمایشگر ضبط کرده و ارسال کنید. سپس یک نمونه‌ی کامل از صدای شما ساخته می‌شود.

تبدیل کردن نمونه‌ی صدا به صدایی کامل، به لطف فناوری هوش مصنوعی و خصوصا الگوریتم‌‌های یادگیری عمیق ممکن می‌شود. این الگوریتم‌ها، جزئیات صدای شما را از نمونه‌ی ضبط‌شده استخراج می‌کنند و مدلی از آن می‌سازند. سپس بلوک‌های سازنده‌ی زبان استخراج می‌شوند تا برای تفلظ کلماتی که شما به زبان نیاورده‌اید، استفاده شوند. فناوری موردنیاز برای چنین فرایندی از مدت‌ها پیش وجود داشت، اما دانشمندان به ترکیب کردن و استخراج بهترین راهکار برای استفاده از آن، نیاز داشتند.

پیشرفت‌های صورت‌گرفته در بینایی کامپیوتری در کپی کردن صدا هم به کار آمدند
توسعه‌دهنده‌ها برای ساختن الگوریتم‌های حرفه‌ای، به مجموعه‌ای عظیم از صداهای ضبط‌شده نیاز داشتند تا نتایج قابل‌قبولی از فرایندهای ساخت صدا کسب شود. از چند سال پیش، تحقیقات و پیشرفت‌های علمی با سرعت زیادی پیش رفتند و زمینه‌ی کافی برای توسعه‌ فناوری فراهم شد. تحقیقات در حوزه‌ی بینایی کامپیوتری اهمیت زیادی پیدا کرد که بعدا منجر به پیشرفت سریع‌تر هوش مصنوعی صوتی هم شد. دانشمندان برای توسعه‌ الگوریتم‌های بینایی کامپیوتری، شبکه‌های GAN توسعه دادند که توانایی پیش‌بینی براساس داده‌های موجود را داشت. درنهایت دانشمندان حوزه‌ هوش مصنوعی صوتی اعتقاد دارند پایه‌های پیشرفت از توسعه‌ هوش مصنوعی بصری ایجاد شد.

یکی از نوآوری‌های مهمی که در فناوری کپی کردن صدا ایجاد شد، نیاز به داده‌های خام برای ساخت یک صدا را تا حد زیادی کاهش داد. همان‌طور که گفته شد در گذشته به ده‌ها یا صدها ساعت صدا نیاز بود تا یک صدای مصنوعی ساخته شود. اکنون تنها با استفاده از چند دقیقه نمونه‌ی صدا، می‌توان آن را کپی کرد.

ترس ذاتی و عدم اعتماد
فناوری صدای مصنوعی هم مانند هر فناوری انقلابی دیگر همچون انرژی هسته‌ای، نانوتکنولوژی، چاپ سه‌بعدی و CRISPR، در ابتدا با نگرانی و ترس روبه‌رو شد. در مجموع، گزارش‌های متعددی هم وجود داشتند که از فریب خوردن به‌خاطر صدای مصنوعی و تقلبی شکایت می‌کردند. یک شرکت بریتانیای در سال ۲۰۱۹ گزارش داد که با فریب خوردن از یک صدای مصنوعی،‌ مقداری پول به مجرمان پرداخت کرده است. برای دیدن نمونه‌های صوت کپی شده، نیاز به جست‌وجوی زیادی ندارید. هم‌اکنون در یوتیوب کانال‌های متعددی هستند که از صدای شخصیت‌های مشهور برای ساختن کلیپ‌های طنز استفاده می‌کنند.

دموهایی که شرکت‌های Descript و Resemble AI در وب قرار داده‌اند، کیفیت قابل‌قبولی دارند. Descript از الگوریتمی به‌نام Lyrebird استفاده می‌کند و صدای کپی را با وجود کمی جلوه‌های مصنوعی، بسیار نزدیک به واقعیت تولید می‌کند. Resemble AI امکانات بیشتری دارد و حتی می‌توان با استفاده از چند صدا در سرویس آن‌ها یک مکالمه‌ی مصنوعی ایجاد کرد. همچنین امکان تغییر شدت صدا و احساسات هم وجود دارد تا صدای تولیدی، هرچه بیشتر طبیعی باشد. البته درنهایت سرویس این شرکت آن‌چنان طبیعی عمل نمی‌کند.

فناوری ساخت صدای مصنوعی مانند هر فناوری دیگر به مرور زمان بهبود پیدا می‌کند و طبیعی‌تر می‌شود. با گذشت زمان، سیستم‌ها با نمونه‌های کوتاه‌تر و کمتر صدا، موفق به ساخت صدای مصنوعی می‌شوند. با پیشرفت پردازنده‌ها، سرعت ساخت صدای مصنوعی هم بیشتر می‌شود و شاید بتوان به‌صورت زنده، یک صدای مصنوعی تولید کرد. هوش مصنوعی هم با هوشمندتر شدن، قابلیت اضافه کردن جلوه‌های طبیعی به صدا را پیدا می‌کند و نمونه‌هایی نزدیک‌تر به واقعیت تولید خواهد کرد.

در مجموع، پیشرفت فناوری‌های ساخت صدای مصنوعی، به سمتی می‌رود که شاید نگرانی ما را از ساخت نمونه‌های بسیار نزدیک به واقعی بیشتر کند.

تعهد اخلاقی توسعه‌دهنده‌ها
توسعه‌دهنده‌های فناوری هوش مصنوعی برای تولید صدا، چالش‌های اخلاقی زیادی را پیش روی خود می‌بینند. آنها باید به جامعه اطمینان دهند که فناوری تولیدی، برای کاربردهای غلط استفاده نمی‌شود. به‌عنوان مثال، Resemble AI در وب‌سایت خود بخشی مخصوص همین موارد دارد. آن‌ها در متنی مرتبط با پیش‌نیازهای اخلاقی می‌گویند که با شرکت‌های خریدار فناوری، فرایندی سختگیرانه را طی می‌کنند تا محصول خریداری شده با مسئولیت‌پذیری کامل استفاده شود. شرکت از خریداران می‌خواهد که تأییدیه و اجازه‌ی لازم را برای استفاده کردن از صدا، از صداپیشه‌ی اصلی دریافت کنند.

توسعه‌دهنده‌ها چارچوب‌های سختگیرانه‌ای برای فروش فناوری ساخت صدای مصنوعی دارند
شرکت‌ها برای جلوگیری هرچه بیشتر از سوءاستفاده از فناوری تغییر صدا، راهکارهایی جدی را پیاده می‌کنند. به‌عنوان مثال Resemble AI و Descript کاربر را ملزم می‌کنند تا صدای خود را به‌صورت زنده از طریق میکروفون وارد کند. با این کار تاحدودی از وارد شدن صدای فرد دیگر و ساخت مدل از آن، جلوگیری می‌شود.

پیاده‌سازی سیاست‌ها و قوانین سخت‌گیرانه در شرکت‌هایی که فناوری را به‌صورت تجاری عرضه می‌کنند، امیدوارکننده به‌نظر می‌رسد. ازطرفی فراموش نکنید که آن‌ها تنها فعالان صنعت نیستند. امروزه انواع ابزارهای متن‌باز مشابه در دنیای فناوری دیده می‌شود که بدون هیچ قانون و تعهد خاصی می‌توان از آن‌ها استفاده کرد. حتی برخی از کارشناسان می‌گویند بدون دانش برنامه‌نویسی حرفه‌ای می‌توان الگوریتم‌ها را مورد استفاده قرار داد.

هشدار و فعالیت همیشگی متخصصان امنیت
مجرمان از سال‌ها پیش تلاش می‌کنند تا با تماس‌های تلفنی، از افراد سرقت کنند. آنها فعالیت خود را سال‌ها پیش از توسعه‌ فناوری کپی صدا شروع کرده‌اند. درمقابل، متخصصان امنیت نیز همیشه درگیر پیدا کردن راه‌های برای پیشگیری از سرقت‌ها بوده‌اند. شرکت امنیتی Pindrop یکی از فعالان جدی این حوزه محسوب می‌شود که در شناسایی صدای تقلبی فعالیتی جدی دارد. آن‌ها تنها در سال ۲۰۱۹ با تحلیل ۱/۲ میلیارد تعامل صوتی توانستند از ۴۷۰ میلیون دلار کلاهبرداری مبتنی بر کپی کردن صدا، جلوگیری کنند.

فناوری‌های امنیتی امروزه با ترکیب موقعیت‌یابی و شناسایی مشخصه‌های صوتی از تماس‌ها، امکان شناسایی کلاهبرداری و صدای تقلبی را دارند. به‌عنوان مثال اگر یک مجرم، موقعیت مکانی تماس را با استفاده از تماس‌های اینترنتی تغییر دهد و همچنین صدا هم به‌کمک هوش مصنوعی کپی شود، می‌توان از برخی از مشخصه‌های موجود در مکالمه، او را شناسایی کرد. نکته‌ جالب‌توجه اینکه برخی از مجرمان از صدای پس‌زمینه و شلوغ کردن صدای مکالمه برای فریب آسان‌تر استفاده می‌کنند. برخی دیگر نیز جنسیت صدای خود را تغییر می‌دهند که باز هم با دقت بیشتر می‌توان غیرطبیعی بودن لحن صدا را در مکالمه‌ آنها تشخیص داد.

به‌هرحال نبرد بین مجرمان سایبری و متخصصان امنیت همیشه ادامه دارد. هر دو طرف به‌دنبال فناوری‌های پیشرفته‌تر هستند تا جبهه‌ مقابل را شکست دهند. در این‌میان مجرمان فعالیت‌هایی بسیار جدی در ترکیب فناوری‌ها و پیدا کردن قربانی‌های بیشتر دارند.

شناسایی صدای مصنوعی
در شناسایی صداهای مصنوعی و دیپ فیک صوتی اخبار خوب و بد به یک میزان وجود دارند. خبر بد اینکه صداهای مصنوعی روز‌به‌روز قوی‌تر می‌شوند. سیستم‌های یادگیری عمیق هوشمندتر شده‌‌اند و صداهایی معتبرتر تولید می‌کنند. با جست‌وجویی ساده در اینترت، نمونه‌های زیادی را می‌بینید که صدای افراد مشهور و معتبر را برای گفتن عبارت‌های طنز به کار گرفته‌اند و نمونه‌های موفقی هم به شمار می‌روند.

هرچه طول کلیپ صوتی بیشتر باشد، شانس شناسایی کپی بودن صدا هم بیشتر می‌شود. در کلیپ‌‌های کوتاه‌تر، احتمال شناسایی پایین می‌آید. خصوصا اگر مخاطب با آمادگی و دقت زیاد به کلیپ گوش ندهد، امکات فریب خوردن بیشتر خواهد بود.

با افزایش کیفیت فایل صوتی، می‌توان وجود جلوه‌های مصنوعی در صدا را بهتر شناسایی کرد. وقتی صدای ضبط‌شده، از صحبت مستقیم با میکروفن حرفه‌ای استودیویی ضبط شده باشد، شناسایی کپی بودن آن آسان‌تر شده باشد. با این‌حال در تماس‌های صوتی که اغلب کیفیت پایینی دارند، شرایط دشوارتر خواهد بود.

خبر خوب درباره‌ دیپ‌فیک صوتی اینکه توانایی کامپیوترها در شناسایی صدای ساختگی از انسان‌ها بیشتر است. خوشبختانه ابزارهای شناسایی صدای مصنوعی به‌خوبی پیشرفت کرده‌اند و کیفیت عملکردی بالایی هم دارند. شرکت Pindrop ابزاری دارد که به‌نوعی الگوریتم‌های یادگیری عمیق را در نبردی روبه‌رو هم قرار می‌دهد تا تفلبی بودن صدا را شناسایی کند. در ابزار آنها، این امکان بررسی می‌شود که آیا یک فرد عادی می‌تواند تمامی صداهای موجود در فایل صوتی نمونه را ایجاد کند؟

بسته به کیفیت صدا، هر ثانیه از صحبت یک فرد در فایل صوتی دارای هشت تا ۵۰ هزار نمونه‌ی داده‌ای می‌شود که باید بررسی و تحلیل شود. الگوریتم امنیتی، در داده‌های موجود به‌دنبال مواردی می‌گردد که با محدودیت‌های صحبت کردن انسان ارتباط داشته باشد. به‌عنوان مثال، صداهای صحبت کردن افراد، فاصله‌ی زمانی مشخصی با هم دارند. این فاصله به‌خاطر محدودیت فیزیکی ایجاد می‌شود که در ماهیچه‌های دهان وجود دارد. به بیان ساده‌تر، برای گفتن دو صدای گوناگون درکنار یکدیگر، شما محدودیت سرعت دارید و نمی‌توانید با سرعت زیاد، آن‌ها را به هم متصل کنید. متخصصان در شناسایی صدای مصنوعی اغلب متوجه می‌شوند که صدای مذکور، امکان گفته شدن توسط یک انسان عادی را ندارد و مثلا برای ادای آن، نیاز به گردنی بسیار بزرگ خواهد داشت!

برخی صداها که به صداهای سایشی شناخته می‌شوند، المان‌هایی دیگر برای شناسایی صدای مصنوعی هستند. این صداها با نزدیک شدن مجراهای تولید صدا در دهان ایجاد می‌شوند. به‌عنوان مثال در گفتن حروف «ف»، «س»، «و» و «ز»، صداهای سایشی ایجاد می‌شوند. هوش مصنوعی در ادای صداهای مذکور مشکل دارد و نمی‌تواند آن‌ها را از نویز متمایز کند. درواقع درحال‌حاضر نرم‌افزار هوش مصنوعی درکی از انسان سازنده‌ صدا ندارد و نمی‌تواند تمامی رفتارهای گفتاری او را کپی کند.

شرکت‌های تولیدکننده‌ ابزار صدای مصنوعی هم تلاش‌هایی برای مقابله با سوءاستفاده از دیپ فیک صوتی توسعه داده‌اند. به‌عنوان مثال Resemble AI ابزاری به‌نام Resemblyzer را به‌صورت متن‌باز در گیت‌هاب قرار داده است که صداهای ساختگی را با دقت و عملکرد مناسبی شناسایی می‌کند.

نیاز همیشگی به هوشیاری
در دنیای فناوری، حدس زدن آینده به‌هیچ‌وجه آسان نیست. البته باتوجه‌به گذشته می‌دانیم که قطعا فناوری دیپ فیک صوتی هم در مسیر پیشرفت قرار می‌گیرد. ازطرفی، فراموش نکنید که هر فردی شاید روزی قربانی دیب فیک صوتی شود. مجرمان سایبری لزوما تنها افراد مشهور و مدیران بانک را هدف قرار نمی‌دهند. متخصصان امنیتی هشدار می‌دهند که سرقت صدای کاربران عادی، درحال اوج‌گیری است.

با وجود هشدارهای زیاد، درحال‌حاضر خطر زیادی در دنیای واقعی از دیپ فیک دیده نمی‌شود. ابزارهای موجود، قدرت بالایی در شناسایی صدای مصنوعی پیدا کرده‌اند. به‌علاوه، در وضعیت کنونی که شرکت‌های تجاری دقت زیادی در انتخاب مشتریان الگوریتم صدای ساختگی دارند، خطر زیادی مردم را تهدید نمی‌کند. تهدید و خطر نهایی در همکاری توسعه‌دهنده‌های ناشناس و ایجاد ابزارهای متن‌باز با رابط‌های کاربری ساده دیده می‌شود که ابزار تغییر صدا را در دستان همه‌ی مردم قرار می‌دهد. این ابزارها دیگر لایه‌ی اخلاقی و امنیتی موجود در شرکت‌های تجاری را ندارند و هر کسی با هر هدفی امکان استفاده از آن‌ها را خواهد داشت.

توسعه‌ ابزارهایی ساده که امکان تغییر صدا را به همه‌ی کاربران می‌دهند، دور از انتظار نیست. درواقع بالاخره چنین اتفاقی رخ می‌دهد و مردم باید با هوشیاری بیشتری از ابزارها استفاده کنند. درمقابل، شرکت‌های امنیتی هم منفعل نیستند و تمام تلاش خود را برای بهبود ابزارهای شناسایی به‌کار می‌گیرند