قامت Microsoft بتطوير VALL-E - وهو نموذج الذكاء الاصطناعي لتحويل النص إلى كلام والذي يحاكي أي صوت بمجرد الاستماع إلى عينة صوتية مدتها 3 ثوانٍ.
قبل مواصلة القراءة، أود أن أوضح أن يختلف VALL-E عن WALL-E. على الرغم من أن البعض منا قد ينطق كلتا الكلمتين بنفس الطريقة تمامًا، إلا أن هناك فرقًا كبيرًا بين الاثنين. WALL-E هو فيلم رسوم متحركة من Disney-Pixar تم إصداره في عام 2008، والذي يتضمن روبوتًا لطيفًا وودودًا يعمل بالذكاء الاصطناعي.إن عامل الذكاء الاصطناعي هو في الواقع تشابه بين VALL-E وWALL-. ه.
ماذا نعرف عن VALL-E؟
من الناحية الفنية، تطلق Microsoft على VALL-E اسم "نموذج لغة الترميز العصبي". بلغة أكثر بساطة، يعد VALL-E نموذجًا للذكاء الاصطناعي يمكنه إنشاء صوت من إدخال النص بالإضافة إلى تقليد صوت أي عينة صوتية مقدمة. ومن خلال سماع عينة صوتية قصيرة مدتها ثلاث ثوان، يمكنه تقليد أي صوت. VALL-E ليس متاحًا لعامة الناس بعد. لا يمكن أن يناسب الصوت فحسب، بل يناسب أيضًا الحالة المزاجية والصوتيات للمساحة. هناك مشاكل أخلاقية فيه، على الرغم من أنه يمكن تطبيقه بعدة طرق مفيدة.
نماذج التدريب –
يدعي الباحثون أنهم قاموا بتدريب VALL-E على 60,000 ساعة من المتحدثين باللغة الإنجليزية، مقارنة بأكثر من 7,000 شخص في مكتبة Meta's LibriLight الصوتية. يجب أن يشبه صوت المتحدث المستهدف إلى حد كبير بيانات التدريب حتى يتم محاكاته. بهذه الطريقة يمكن لـ Al الاستفادة من "تدريبه" لمحاولة تقليد صوت المتحدث المستهدف.
تقليد العواطف –
يجب التأكيد على أن نموذج Al قد يحاكي صوتيات الغرفة بالإضافة إلى النغمة العاطفية للمتحدث بالإضافة إلى طبقة الصوت والقشرة والملمس. لذلك، سوف يحاكي VALL-E الصوت المستهدف كما لو كان به اضطراب إذا كان الصوت المستهدف به اضطراب.
وبحسب فريق أبحاث Microsoft، "توضح نتائج التجارب أن أداء VALL-E أفضل بكثير من حيث طبيعية الكلام وتشابه المتحدث من نظام تحويل النص إلى كلام (TTS) الأكثر تقدمًا. بالإضافة إلى ذلك، اكتشفنا أن VALL-E قد يحافظ على انفعال المتحدث والسياق الصوتي للموجه الصوتي أثناء التوليف.
التهديدات -
Al يمكن تطبيق النموذج على الروبوتات وإنتاج الوسائط وتطبيقات تحويل النص إلى كلام المخصصة. ومع ذلك، إذا تم استخدامه بشكل غير صحيح، فإنه يمكن أن يشكل تهديدا. وحذر رجال الأعمال أنه قد يتم إساءة استخدام النموذج لانتحال شخصية أو انتحال الهوية الصوتية لأن VALL-E يمكنه تركيب الكلام مع الحفاظ على هوية المتحدث.
يمكن استخدام VALL-E، على سبيل المثال، لإنشاء مكالمات غير مرغوب فيها تبدو مشروعة من أجل خداع الناس. السياسيون أو أي شخص يتمتع بحضور اجتماعي محترم هم أيضًا عرضة لانتحال الشخصية، كما يتضح من الخدع. قد تصل التهديدات إلى المستخدمين الذين يستخدمون التطبيقات التي تحتاج إلى أوامر صوتية أو كلمات مرور صوتية. علاوة على ذلك، يمكن إلغاء وظائف الممثلين الصوتيين بواسطة VALL-E.
الموقف الأخلاقي –
بالإضافة إلى ذلك، فإن الأعمال التجارية يتضمن بيانًا عن الأخلاق ينص على ما يلي: "تم إجراء التجارب في هذا العمل على افتراض أن مستخدم النموذج هو المتحدث المستهدف وقد تم قبوله من قبل المتحدث." وذكر أن البروتوكول الذي يضمن موافقة المتحدث على تنفيذ التعديل ويجب تضمين نظام اكتشاف الكلام المعدل مع نماذج تحرير الصوت، عند تعميم النموذج على جميع المتحدثين.
كيف يتم VALL -E مختلف عن DALL-E؟
DALL-E هو نموذج للتعلم الآلي تم إنشاؤه بواسطة OpenAI يقوم بإنشاء رسومات من أوصاف النص. تُستخدم المطالبات لوصف أوصاف تحويل النص إلى صورة. مجرد وصف المشهد يكفي للخوارزمية لإنتاج صور واقعية. DALL-E هي تقنية شبكة عصبية تقوم ببناء صور دقيقة من الكلمات القصيرة المقدمة من المستخدم. فهو يتعلم اللغة باستخدام الأوصاف النصية ومن بيانات "التعلم" التي ساهم بها المستخدمون والمطورون في مجموعات البيانات الخاصة به.
ما رأيك في VALL-E؟نأمل الآن أن تعرف كل شيء عن VALL-E (تحويل النص إلى صوت) مقارنة بـ DALL-E (تحويل النص إلى صورة). لا يوجد تاريخ محدد للوقت الذي سيكون فيه VALL-E متاحًا للوصول إليه واستخدامه من قبل عامة الناس. وبقدر ما يتعلق الأمر بـ DALL-E، فقد تم إتاحته للجميع بالفعل.
يُرجى إعلامنا في التعليقات أدناه إذا كانت لديك أي أسئلة أو توصيات. سيكون من دواعي سرورنا أن نقدم لك القرار. ننشر بشكل متكرر النصائح والحيل والحلول للمشكلات الشائعة المتعلقة بالتكنولوجيا. يمكنك أيضًا العثور علينا على Facebook، وTwitter، وYouTube، وInstagram، وFlipboard، وPinterest.
قراءة: 0