Meta لمساعدة الناس على صياغة المزيد من التزييف العميق باستخدام الذكاء الاصطناعي “Voicebox”
لدى Meta نموذج ذكاء اصطناعي جديد آخر على قفص الاتهام ، ويبدو أن هذا النموذج مصمم بشكل مثالي لأرض الغد إذا كان هذا المستقبل اليوتوبي مليئًا بأي شيء سوى التزييف العميق والصوت المعدل. مثل مولدات الصور التي تعمل بالذكاء الاصطناعي ، يولد Voicebox أصواتًا اصطناعية بناءً على مطالبة نصية بسيطة من البداية – أو في الواقع – صوتًا من آلاف الكتب الصوتية.
أعلنت Meta يوم الجمعة عن برنامج Voicebox AI الجديد الذي يمكنه إنشاء مقاطع صوتية باستخدام مطالبات نصية بسيطة. في فيديو، شارك الرئيس التنفيذي مارك زوكربيرج على Facebook و Instagram ، قال إن نموذج Voicebox AI يمكنه أخذ رسالة نصية وقراءتها بمجموعة متنوعة من الأصوات البشرية ، على الرغم من أنها رقمية إلى حد ما. بخلاف ذلك ، يمكن لـ Voicebox أيضًا تعديل الصوت لإزالة الضوضاء غير المرغوب فيها من المقاطع الصوتية ، مثل نباح كلب في الخلفية. على عكس العديد من نماذج التوليف الصوتي الأخرى لمنظمة العفو الدولية ، يمكن لمنظمة Meta AI إنشاء صوت بلغات أخرى غير الإنجليزية ، بما في ذلك الفرنسية والإسبانية والألمانية والبولندية والبرتغالية ، وقالت الشركة إن الذكاء الاصطناعي يمكنه ترجمة أي مقطع من لغة واحدة إلى آخر ، مع الحفاظ على نفس أسلوب الصوت.
بحسب ميتا، يمكن لـ Voicebox أخذ عينة صوتية لا تتجاوز مدتها ثانيتين ثم تتطابق مع نمط الصوت هذا لتوليد تحويل النص إلى كلام. إذا كان هذا صحيحًا ، فهو أكثر تعقيدًا من نماذج التوليف الأخرى مثل Speechify أو أحد عشر مختبراتالتي تتطلب عادةً قدرًا أكبر قليلاً من البيانات قبل أن تتمكن من إنشاء صوت اصطناعي عالي الجودة.
في مقطع Meta الترويجي ، يبدو أحد الأصوات التي يتم تعديلها بشكل غريب مثل Zuckerberg نفسه. اعتمادًا على مدى قدرة النموذج حقًا ، فإن سماع Zuck يعيد إلى الذهن بعض من التزييف العميق على غرار الرئيس التنفيذي لشركة Meta.
على عكس الشركة العديد من إصدارات AI الأخرى مؤخرًا، Voicebox لم يكن مفتوح المصدر عند ظهوره لأول مرة ، وكل هذا يذكرنا أن Meta قد تقيد أحدث إصدار من الذكاء الاصطناعي بسبب الأضرار المحتملة التي قد تنتج عن ذلك. بينما استخدم بعض الأشخاص عبر الإنترنت برامج مماثلة لصياغة مقاطع صوتية لشخصياتهم المفضلة في الوسائط للمتعةاستخدمها الآخرون في حملات التحرش ضد الممثلين الصوتيين أنفسهم. لذلك قد يكون يحاول منع الضرر أو قد يوفر هذا النموذج المربح لبعض المشاريع المستقبلية.
بحسب ال ورقة بحث فويس بوكس، تم تدريب النظام على أكثر من 50000 ساعة من الكلام غير المصفاة وغير المحسن من الكتب الصوتية الإنجليزية و 60.000 ساعة أخرى من الاستماع من الكتب الصوتية متعددة اللغات. لهذا السبب في فيديو Meta ، يبدو الكلام التركيبي أقل تخاطبًا ، وأكثر مثل شخص يقرأ قصة ما قبل النوم للطفل. قال الباحثون إنهم في النهاية سيوسعون النموذج ليشمل المزيد من الكلام غير الرسمي.
النموذج محدود أيضًا من حيث أن المستخدمين لا يستطيعون التحكم بشكل مستقل في نوع الصوت في قرود الذكاء الاصطناعي والعاطفية لعينة كلام مختلفة.
ولكن الأمر الأكثر إثارة للقلق هو أن Meta لا يبدو أنها تخاطب الفيل في الغرفة بأحدث أوراقها. الباحثون لم يذكروا أي منها كانت الكتب الصوتية تستخدم لتدريب الذكاء الاصطناعي ، و من أين أتوا. من غير الواضح ما إذا كانت عشرات الآلاف من الساعات من الكتب الصوتية ستعادل عدة آلاف من الكتب الصوتية.
تواصلت Gizmodo مع Meta للحصول على مزيد من المعلومات حول الكتب الصوتية التي تم استخدامها في بيانات التدريب. قال متحدث باسم Meta إنها كتب صوتية “ملكية عامة” ، على الرغم من أن الشركة رفضت توضيح مكان تنزيل الشركة لهذه الكتب.
الممثلين الصوت لديهم لم يكن سعيدًا بشكل خاص بانتشار الذكاء الاصطناعي، وتهتم بشكل خاص بالعقود التي تسمح للشركات بتجميع أصواتها دون مقابل. أبل لديها بالفعل مأخوذ من الحرارة لإطلاق سلسلة من الكتب بهدوء ترويها أصوات تم إنشاؤها بواسطة الذكاء الاصطناعي. يقال إن عملاق التكنولوجيا قد اقترب من العديد من ناشري الكتب المسموعة لإنشاء هذه القصص الجديدة المروية بالذكاء الاصطناعي.
النظر في كيف كانت عائدات سوق الكتب المسموعة تنمو بأرقام مزدوجة عامًا بعد عام ، والطريقة التي تسرع بها الصناعات الإبداعية في خفض تكاليف العمالة ، قد يثبت هذا النموذج الأخير مشكلة أخرى لمحترفي الصوت.
هل تريد معرفة المزيد عن الذكاء الاصطناعي وروبوتات المحادثة ومستقبل التعلم الآلي؟ تحقق من تغطيتنا الكاملة لـ الذكاء الاصطناعيأو تصفح أدلةنا إلى أفضل مولدات فنية مجانية لمنظمة العفو الدوليةو أفضل بدائل ChatGPTو كل ما نعرفه عن ChatGPT الخاص بـ OpenAI.