تعلن Meta عن Voicebox ، وهو نموذج تكويني لمهام تركيب الصوت المتعددة
انضم إلى كبار المديرين التنفيذيين في سان فرانسيسكو يومي 11 و 12 يوليو ، لمعرفة كيف يدمج القادة استثمارات الذكاء الاصطناعي ويحسنونها لتحقيق النجاح.. يتعلم أكثر
في الأسبوع الماضي ، قدم ذراع أبحاث الذكاء الاصطناعي في Meta Platforms نظام Voicebox ، وهو نموذج للتعلم الآلي يمكنه توليد الكلام من النص. ما يميز Voicebox عن نماذج تحويل النص إلى كلام الأخرى هو قدرته على أداء العديد من المهام التي لم يتم تدريبه عليها ، بما في ذلك التحرير وإزالة الضوضاء ونقل النمط.
تم تدريب النموذج باستخدام طريقة خاصة طورها باحثو ميتا. على الرغم من أن Meta لم تصدر Voicebox بسبب مخاوف أخلاقية بشأن إساءة الاستخدام ، فإن النتائج الأولية واعدة ويمكن أن تشغل العديد من التطبيقات في المستقبل.
“مطابقة التدفق”
Voicebox هو نموذج تكويني يمكنه تجميع الكلام عبر ست لغات ، بما في ذلك الإنجليزية والفرنسية والإسبانية والألمانية والبولندية والبرتغالية. مثل نماذج اللغات الكبيرة ، تم تدريبه على مهمة عامة جدًا يمكن استخدامها في العديد من التطبيقات. ولكن بينما تحاول LLM تعلم الانتظام الإحصائي للكلمات وتسلسلات النص ، تم تدريب Voicebox على تعلم الأنماط التي تحدد عينات الصوت الصوتية إلى نصوصها.
يمكن بعد ذلك تطبيق هذا النموذج على العديد من المهام النهائية مع القليل من الضبط الدقيق أو بدونه. كتب باحثو Meta في ورقتهم (PDF) يصفون التفاصيل الفنية لـ Voicebox: “الهدف هو بناء نموذج واحد يمكنه أداء العديد من مهام إنشاء الكلام الموجهة بالنص من خلال التعلم في السياق”.
حدث
تحويل 2023
انضم إلينا في سان فرانسيسكو يومي 11 و 12 يوليو ، حيث سيشارك كبار المسؤولين التنفيذيين في كيفية دمج استثمارات الذكاء الاصطناعي وتحسينها لتحقيق النجاح وتجنب المزالق الشائعة.
سجل الان
تم تدريب النموذج بواسطة تقنية Meta “Flow Matching” ، وهي أكثر كفاءة وقابلية للتعميم من طرق التعلم القائمة على الانتشار المستخدمة في النماذج التوليدية الأخرى. تتيح هذه التقنية لـ Voicebox “التعلم من بيانات الكلام المتنوعة دون الحاجة إلى تصنيف هذه الاختلافات بعناية.” دون الحاجة إلى وضع العلامات اليدوية ، تمكن الباحثون من تدريب Voicebox على 50000 ساعة من الكلام والنصوص من الكتب الصوتية.
يستخدم النموذج “ملء الكلام الموجه بالنص” كهدف تدريبي له ، مما يعني أنه يجب أن يتنبأ بجزء من الكلام بالنظر إلى الصوت المحيط به ونسخة النص الكاملة. في الأساس ، هذا يعني أنه أثناء التدريب ، يتم تزويد النموذج بعينة صوتية والنص المقابل لها. يتم بعد ذلك إخفاء أجزاء من الصوت ويحاول النموذج إنشاء الجزء المقنع باستخدام الصوت المحيط والنسخة كسياق. من خلال القيام بذلك مرارًا وتكرارًا ، يتعلم النموذج إنشاء كلام طبيعي من النص بطريقة قابلة للتعميم.
تكرار الأصوات عبر اللغات وتعديل الأخطاء في الكلام والمزيد
على عكس النماذج التوليدية التي تم تدريبها لتطبيق معين ، يمكن لـ Voicebox أداء العديد من المهام التي لم يتم تدريبها عليها. على سبيل المثال ، يمكن للنموذج استخدام عينة صوتية مدتها ثانيتان لتوليد الكلام لنص جديد. تقول Meta إن هذه الإمكانية يمكن استخدامها لإيصال الكلام إلى الأشخاص غير القادرين على التحدث أو تخصيص أصوات شخصيات اللعبة غير القابلة للعب والمساعدين الافتراضيين.
ينفذ Voicebox أيضًا نقل النمط بطرق مختلفة. على سبيل المثال ، يمكنك تقديم النموذج مع عينتين صوتيتين ونصيتين. سيستخدم العينة الصوتية الأولى كنمط للمرجع وتعديل العينة الثانية لتتناسب مع الصوت ونبرة المرجع. ومن المثير للاهتمام أن النموذج يمكن أن يفعل الشيء نفسه عبر لغات مختلفة ، والذي يمكن استخدامه “لمساعدة الناس على التواصل بطريقة طبيعية وأصيلة – حتى لو لم يتحدثوا نفس اللغات”.
يمكن للنموذج أيضًا القيام بمجموعة متنوعة من مهام التحرير. على سبيل المثال ، إذا كان كلب ينبح في الخلفية أثناء قيامك بتسجيل صوتك ، فيمكنك توفير الصوت والنسخة إلى Voicebox وإخفاء المقطع بضوضاء الخلفية. سيستخدم النموذج النص لتوليد الجزء المفقود من الصوت بدون ضوضاء الخلفية.
يمكن استخدام نفس الأسلوب لتحرير الكلام. على سبيل المثال ، إذا أخطأت في نطق كلمة ، فيمكنك إخفاء ذلك الجزء من عينة الصوت وتمريرها إلى Voicebox مع نسخة من النص المحرر. سيولد النموذج الجزء المفقود بالنص الجديد بطريقة تتطابق مع الصوت والنبرة المحيطة.
أحد تطبيقات Voicebox المثيرة للاهتمام هو أخذ العينات الصوتية. يمكن للنموذج إنشاء عينات كلام مختلفة من تسلسل نصي واحد. يمكن استخدام هذه الإمكانية لإنشاء بيانات تركيبية لتدريب نماذج معالجة الكلام الأخرى. تُظهر نتائجنا أن نماذج التعرف على الكلام المُدرَّبة على الكلام الاصطناعي الذي تم إنشاؤه بواسطة Voicebox تعمل تقريبًا بنفس أداء النماذج المُدرَّبة على الكلام الحقيقي ، مع انخفاض معدل الخطأ بنسبة 1 بالمائة مقارنةً بتدهور الكلام الاصطناعي بنسبة 45 إلى 70 بالمائة من نماذج تحويل النص إلى كلام السابقة يكتب ميتا.
Voicebox له حدود أيضًا. نظرًا لأنه تم تدريبه على بيانات الكتب الصوتية ، فإنه لا ينتقل بشكل جيد إلى خطاب المحادثة غير الرسمي ويحتوي على أصوات غير لفظية. كما أنه لا يوفر تحكمًا كاملاً في السمات المختلفة للكلام الذي تم إنشاؤه ، مثل أسلوب الصوت والنغمة والعاطفة والحالة الصوتية. يستكشف فريق البحث Meta تقنيات للتغلب على هذه القيود في المستقبل.
لم يتم إصدار النموذج
هناك قلق متزايد بشأن تهديدات المحتوى الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي. على سبيل المثال ، حاول مجرمو الإنترنت مؤخرًا خداع امرأة من خلال الاتصال بها واستخدام صوت تم إنشاؤه بواسطة الذكاء الاصطناعي لانتحال شخصية حفيدها. يمكن استخدام أنظمة تركيب الكلام المتقدمة مثل Voicebox لأغراض مماثلة أو لأفعال شائنة أخرى ، مثل إنشاء أدلة مزيفة أو التلاعب بالصوت الحقيقي.
وكتبت Meta في مدونة الذكاء الاصطناعي الخاصة بها: “كما هو الحال مع ابتكارات الذكاء الاصطناعي الجديدة القوية الأخرى ، ندرك أن هذه التكنولوجيا تجلب احتمالية إساءة الاستخدام والضرر غير المقصود”. بسبب هذه المخاوف ، لم تطلق Meta النموذج ولكنها قدمت تفاصيل فنية حول الهندسة المعمارية وعملية التدريب في الورقة الفنية. تحتوي الورقة أيضًا على تفاصيل حول نموذج مصنف يمكنه اكتشاف الكلام والصوت اللذين يولدهما Voicebox للتخفيف من مخاطر استخدام النموذج.
عقيدة GamesBeat عندما تكون تغطية صناعة الألعاب “حيث يلتقي الشغف بالعمل”. ماذا يعني هذا؟ نريد أن نخبرك بمدى أهمية الأخبار بالنسبة لك – ليس فقط كصانع قرار في استوديو ألعاب ، ولكن أيضًا كمشجع للألعاب. سواء كنت تقرأ مقالاتنا أو تستمع إلى ملفاتنا الصوتية أو تشاهد مقاطع الفيديو الخاصة بنا ، فإن GamesBeat ستساعدك على التعرف على الصناعة والاستمتاع بالتفاعل معها. اكتشف إحاطاتنا.
اكتشاف المزيد من إشراق التقنية
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.