نشرات أخبار، إرشادات للحماية من كورونا المستجد، إرشادات للسفر، وغيرها من المقاطع المصورة التي يتم نشرها عبر الشبكات الاجتماعية، لا يحمل عديد منها أي وصف أو نص لما يقال على الشاشة، ما يجعل مجموعة من الناس حول العالم محرومين من معرفة ما يدور حولهم، وهم من يعانون من ضعف السمع أو الصمم.
وفق منظمة الصحة العالمية يوجد أكثر من 466 مليون شخص يعانون من ضعف السمع أو الصمم وهم يشكلون أكثر من 5 في المئة من سكان العالم، وسيرتفع العدد إلى 900 مليون في 2050.
قررت فايسبوك أن تطور نظاما يعتمد على الذكاء الاصطناعي، ليقوم بإضافة نص الفيديو أو تفريغ لما يقال به بشكل مباشر، بحيث يستطيع أي شخص يشاهده قراءة ما يتحدثون به أيضا على الشاشة، حتى وإن كانت هذه المقاطع المصورة يتم بثها بشكل مباشر.
وأتاحت فيسبوك هذا النظام حاليا بست لغات: الإنكليزية، الإسبانية، البرتغالية، الإيطالية، الألمانية والفرنسية.
وأوضح بيان من الشركة أن هذا الأمر لم يكن سينجح لولا تطور تقنيات الذكاء الاصطناعي خاصة تلك التي تتيح التعرف بشكل تلقاي على الكلام الذي يتم الحديث به “ASR”.
وأشارت إلى أنه رغم وجود هذه التقنية منذ مطلع الألفية الثانية، إلا أنها لا تزال تواجه تحديات خاصة في التمييز بين اللهجات في اللغة الواحدة، أو بوجود أكثر من شخص يتحدث في الوقت ذاته، أو عزل صوت الموسيقى الذي يكون مصاحبا للفيديو.
كما أن النظام يحتاج أن يتعلم ملايين الكلمات والاحتمالات لطريقة لفظها، وحتى بما في ذلك المصطلحات غير الشائعة، وهي مهمة أصعب من مهام أنظمة الرد الآلي التي تعتمد على مجموعة احتمالات وكلمات محددة مسبقا.