إنشاء نموذج أولي لتطبيق ترجمة صوتية فورية بالذكاء الاصطناعي استقطب المستثمرين بنجاح

قطاع الصناعة

المنتجات البرمجية

التقنيات

الذكاء الاصطناعي (AI), Azure

العميل

شركة إماراتية ناشئة مبتكرة في مجال تطوير حلول الترجمة الصوتية ودبلجة الفيديو بالذكاء الاصطناعي.

الحاجة إلى تطبيق للترجمة الصوتية في الوقت الفعلي بإمكانات استنساخ الصوت

كان العميل لديه فكرة مبتكرة لتطبيق ويب يتيح ترجمة الكلام المباشر واستنساخ صوت المتحدث، لإصدار أصوات مطابقة للصوت الحقيقي باللغة المستهدفة.

لجذب المستثمرين، احتاج العميل إلى إنشاء نموذج أولي للتطبيق. ونظرًا لافتقار الشركة إلى الكفاءات الداخلية اللازمة لتنفيذ الوظائف المطلوبة، قرر العميل الاستعانة بساينس سوفت للحصول على خدمات استشارات وتطوير حلول الذكاء الاصطناعي.

وضع تَصوُّر للتطبيق، وإعداد استراتيجية الذكاء الاصطناعي

لتنفيذ المشروع، شكَّلت ساينس سوفت فريقًا مكونًا من مدير المشروع، و4 من مطوري حلول الذكاء الاصطناعي. وقد اتفقنا وشركة العميل على البدء بإنشاء نموذج أولي للمنتج (POC)، يليه تطوير التطبيق بشكل كامل بعد نجاح الشركة الناشئة في جذب المستثمرين.

في أثناء تصميم التطبيق، وضعت ساينس سوفت الأولوية لتحقيق أعلى جودة للنتائج، وضمان قابلية التطبيق للتوسُّع بمرونة في المستقبل. وعلى الرغم من أن الحل الواضح كان تمكين الترجمة الصوتية المباشرة من لغة إلى أخرى، إلا أن فريقنا قرر دمج خطوات الترجمة الوسيطة. بهذا النهج، سيُحوِّل التطبيق الصوت إلى نص، ثم يُترجم النص، وبعدها يُحوِّل الترجمة إلى كلام مع استنساخ صوت المتحدث أيضًا. يُحقق هذا النهج المقترح العديد من المزايا، وذلك للأسباب الآتية:

تحقق نماذج الذكاء الاصطناعي للترجمة النصية نتائج أكثر دقة من نماذج الترجمة الصوتية.
تُغطي نماذج الترجمة النصية لغات أكثر من نماذج الترجمة الصوتية.
يتيح تقسيم عملية الترجمة إلى عدة خطوات المزيد من المرونة في التطوير المستقبلي للتطبيقات. وبفضل البنية المعيارية للتطبيق، سيكون من السهل إضافة لغات جديدة أو تحديث نماذج الذكاء الاصطناعي واستبدالها.

بعد ذلك، اختار خبراؤنا التقنيات المناسبة لكل قسم في وظائف التطبيق. كما أجرينا مقارنة بين الخيارات المتاحة في السوق، ووجدنا أن خدمة Azure AI Speech Service تُظْهِر توازنًا مثاليًا بين جودة النتائج، وسرعتها، وسهولة التكامل، وسهولة التخصيص، بالإضافة إلى تكاليف الخدمة.

أما فيما يتعلق باستنساخ الصوت، فقد اختار خبراؤنا أداة توليد الأصوات بالذكاء الاصطناعي (AI Voice Generator) التي طورتها شركة ElevenLabs، وذلك لتمتعها بمرونة في التخصيص أكثر من منصة Azure.

كان تنفيذ وظيفة استنساخ الصوت يُمثِّل الجزء الأكثر تكلفةً واستهلاكًا للوقت في تطوير التطبيق المستقبلي. لذلك، اقترحت ساينس سوفت اختيار 5 نماذج صوتية مختلفة لتضمينها في التطبيق، بهدف تعظيم الاستفادة من تكلفة ومدة تنفيذ المشروع. بهذا النهج، سيتمكن مستخدمو النموذج التجريبي من تسجيل أصواتهم واختيار واحدة من النماذج الصوتية الخمسة لترجمة ما يقولونه. وبعد جذب الشركة للمستثمرين، ستتم زيادة قدرات الذكاء الاصطناعي لتشمل استنساخ صوت أي متحدث.

تطوير تطبيق للترجمة الصوتية بالذكاء الاصطناعي يوفر نتائج دقيقة في أقل من 3 ثوان

real time ai voice translation web app

طوَّرت ساينس سوفت نموذجًا أوليًا يعمل عبر الويب لتطبيق الترجمة الصوتية بالذكاء الاصطناعي. حيث يتم استضافته عبر خدمات Azure السحابية ويعمل بأربع خدمات للذكاء الاصطناعي، وهي: Azure Speech to Text، وAzure Text Translation، وAzure Text to Speech، وElevenLabs AI Voice Generator. تم تخصيص حاويات فردية لتشغيل أول خدمتين، بينما تتشارك الخدمتان الأخيرتان في حاوية مشتركة. وتتواصل الحاويات جميعها عبر وحدات الاتصال بخدمات النسخ والترجمة وتحويل الكلام إلى نص مكتوب. ولتوفير ترجمة صوتية آلية بأكثر من 100 لغة، يعمل التطبيق بالخطوات الآتية:

تسجيل الكلام

في تطبيق الويب، يُحدد المستخدم اللغة الأصلية واللغة المستهدفة، بعدها يختار الصوت الذي يرغب في استنساخه، ثم يبدأ تسجيل الكلام. بعد ذلك، يُسجِّل التطبيق كلام المستخدم الوارد من الميكروفون أو سماعة الرأس بصيغة OPUS، وذلك بالاستعانة بواجهة MediaRecorder لتسجيل الوسائط.

تحويل الكلام إلى نص

تُرسَل التسجيلات إلى وحدة النسخ عبر بروتوكول WebSocket. وتستخدم وحدة النسخ أداة معالجة الصوت FFmpeg لتحويل ملفات OPUS إلى صيغة PCM، ثم تُرسِل التسجيلات إلى حاوية خدمة Azure Speech to Text، حيث يتم تحويل الكلام إلى نص.

ترجمة النصوص

يصل النص إلى حاوية خدمة Azure Text Translation، حيث يُتَرْجَم النص إلى اللغة المستهدفة، وبعدها يُرسَل إلى حاوية تحويل النص إلى كلام.

تحويل النص إلى كلام واستنساخ الصوت

تُحوِّل خدمة Azure Text to Speech النص المترجم إلى صوت. بعدها، يُقلِّد التطبيق صوت المتحدث المُختار باستخدام مولد الصوت بالذكاء الاصطناعي AI Voice Generator المُطوَّر بواسطة شركة ElevenLabs (في النسخة الكاملة، سيقوم التطبيق باستنساخ صوت الشخص الذي سجَّل الصوت). ثم يُرسل الترجمة الصوتية إلى واجهة المستخدم (UI) عبر بروتوكول WebSocket، حيث يمكن للمستخدمين التحكم بالتشغيل، والإيقاف المؤقت، والإيقاف التام، وإعادة التشغيل بسهولة. ولا يستغرق التطبيق أكثر من 3 ثوان لترجمة جملة أو جملتين.

النموذج التجريبي لتطبيق الترجمة الصوتية بالذكاء الاصطناعي ينجح في جذب المستثمرين

في غضون 8 أسابيع فقط، قدمت ساينس سوفت لشركة العميل نموذجًا أوليًا لتطبيق ويب يعمل بالذكاء الاصطناعي، يتيح الترجمة الصوتية الفورية بأكثر من 100 لغة. ويوفر التطبيق نتائج دقيقة في أقل من 3 ثوان، كما أنه قادر على استنساخ 5 أصوات يختارها المستخدم مسبقًا.

باستخدام النموذج الأولي للتطبيق، تمكَّنت شركة العميل من جذب المستثمرين لاستكمال تطوير الإصدار الكامل من منتجها البرمجي المبتكر. حتى فبراير 2024، لا يزال التعاون مستمرًا بين شركة العميل وساينس سوفت لتحويل النموذج الأولي إلى منتج كامل بقدرات متقدمة لاستنساخ الأصوات، مع توفير نسخة لأجهزة الجوال.

التقنيات والأدوات

JavaScript, Azure Cloud, Azure Speech to Text, Azure Text Translator, Azure Text to Speech, ElevenLabs AI Voice Generator.

هل تحتاج إلى استشارة؟

تواصل معنا! نحن هنا للإجابة عن أسئلتك على مدار الساعة وطوال أيام الأسبوع.

كيف يمكننا مساعدتك؟

الاسم الكامل

الشركة

البريد الإلكتروني للعمل

رقم الهاتف

نتواصل معكم على الفور

اتصل بنا أرسل بريد إلكتروني واتساب الدردشة المباشرة