الأساليب الحديثة للتعرف التلقائي على الكلام. تحليل مقارن لأنظمة التعرف على الكلام مفتوحة المصدر

15 يوليو 2009 الساعة 10:16 مساءً

التعرف على الكلام. الجزء 1. تصنيف أنظمة التعرف على الكلام

  • الذكاء الاصطناعي
كتابة منقوشة
في روسيا، فإن مجال أنظمة التعرف على الكلام ضعيف جدًا بالفعل. أعلنت Google منذ فترة طويلة عن نظام لتسجيل المحادثات الهاتفية والتعرف عليها. لسوء الحظ، لم أسمع بعد عن أنظمة مماثلة من حيث الحجم وجودة التعرف باللغة الروسية.

لكن لا ينبغي للمرء أن يعتقد أن كل شخص في الخارج قد اكتشف كل شيء منذ وقت طويل ولن نتمكن من اللحاق بهم أبدًا. عندما كنت أبحث عن مادة لهذه السلسلة، كان علي أن أبحث في سحابة من الأدبيات والأطروحات الأجنبية. علاوة على ذلك، فإن هذه المقالات والأطروحات كانت من علماء أمريكيين رائعين هوانغ شيودونغ؛ هيسايوشي كوجيما؛ دونج سوك يوكإلخ. ومن الواضح من يدعم هذا الفرع من العلوم الأمريكية؟ ;0)

في روسيا، أعرف شركة ذكية واحدة فقط تمكنت من الارتقاء بأنظمة التعرف على الكلام المحلية إلى المستوى التجاري: مركز تقنيات الكلام. لكن ربما بعد هذه السلسلة من المقالات سيخطر ببال أحد أنه من الممكن والضروري البدء في تطوير مثل هذه الأنظمة. علاوة على ذلك، من حيث الخوارزميات والحصيرة. نحن عمليا لم نتخلف عن الجهاز.

تصنيف أنظمة التعرف على الكلام

واليوم، يخفي مفهوم "التعرف على الكلام" مجالًا كاملاً من النشاط العلمي والهندسي. بشكل عام، تتلخص كل مهمة للتعرف على الكلام في استخراج الكلام البشري وتصنيفه والاستجابة له بشكل مناسب من تدفق الصوت المدخل. ويمكن أيضا أن يكون التنفيذ عمل معينبناءً على أمر الشخص، واختيار كلمة محددة من مجموعة كبيرة من المحادثات الهاتفية، وأنظمة إدخال النص الصوتي.

علامات تصنيف أنظمة التعرف على الكلام
يحتوي كل نظام من هذه الأنظمة على مهام معينة تم تصميمه لحلها ومجموعة من الأساليب المستخدمة لحل المشكلات. دعونا نفكر في الميزات الرئيسية التي يمكن من خلالها تصنيف أنظمة التعرف خطاب انسانيوكيف يمكن أن يؤثر هذا العرض على تشغيل النظام.
  • حجم القاموس.من الواضح أنه كلما زاد حجم القاموس المدمج في نظام التعرف، زاد معدل الخطأ عند التعرف على الكلمات بواسطة النظام. على سبيل المثال، يمكن التعرف على قاموس مكون من 10 أرقام تقريبًا بدون أخطاء، بينما يمكن أن تصل نسبة الخطأ عند التعرف على قاموس مكون من 100000 كلمة إلى 45%. ومن ناحية أخرى، حتى الاعتراف ليس كذلك قاموس كبيرقد ينتج عنه عدد كبير من أخطاء التعرف إذا كانت الكلمات الموجودة في هذا القاموس متشابهة جدًا مع بعضها البعض.
  • اعتماد المتحدث أو استقلال المتحدث في النظام.بحكم التعريف، تم تصميم النظام المعتمد على مكبر الصوت ليتم استخدامه من قبل مستخدم واحد، في حين تم تصميم النظام المستقل عن مكبر الصوت للعمل مع أي مكبر صوت. يعد استقلال المتحدث هدفًا يصعب تحقيقه، لأنه عند تدريب النظام، يتم ضبطه وفقًا لمعايير المتحدث الذي يتم تدريبه على مثاله. معدل الخطأ في التعرف على هذه الأنظمة عادة ما يكون أعلى بمقدار 3-5 مرات من معدل الخطأ في الأنظمة المعتمدة على السماعات.
  • الكلام المنفصل أو المستمر.وإذا كان في الكلام كل كلمة يفصلها عن الأخرى قسم من الصمت، فإنهم يقولون إن هذا الكلام منفصل. الكلام المستمر هو الجمل المنطوقة بشكل طبيعي. يعد التعرف على الكلام المستمر أكثر صعوبة نظرًا لأن حدود الكلمات الفردية غير محددة بوضوح وأن نطقها مشوه بشكل كبير بسبب عدم وضوح الأصوات المنطوقة.
  • غاية.يحدد الغرض من النظام المستوى المطلوب من التجريد الذي سيتم من خلاله التعرف على الكلام المنطوق. في نظام الأوامر (على سبيل المثال، الاتصال الصوتي الهاتف الخلوي) على الأرجح، سيتم التعرف على الكلمة أو العبارة من خلال التعرف على عنصر واحد من عناصر الكلام. سيتطلب نظام إملاء النص دقة أكبر في التعرف، وعلى الأرجح، عند تفسير العبارة المنطوقة، لن يعتمد فقط على ما تم التحدث به هذه اللحظةولكن أيضًا حول مدى ارتباطه بما قيل من قبل. أيضًا، يجب أن يحتوي النظام على مجموعة مدمجة القواعد النحوية، والتي يجب أن يفي بها النص الواضح والمميز. كلما كانت هذه القواعد أكثر صرامة، كلما كان من الأسهل تنفيذ نظام التعرف وكلما كانت مجموعة الجمل التي يمكنه التعرف عليها أكثر محدودية.
الاختلافات بين طرق التعرف على الكلام
عند إنشاء نظام التعرف على الكلام، تحتاج إلى اختيار مستوى التجريد المناسب للمهمة، وما هي معلمات الموجة الصوتية التي سيتم استخدامها للتعرف وطرق التعرف على هذه المعلمات. دعونا نفكر في الاختلافات الرئيسية في هيكل وعملية تشغيل أنظمة التعرف على الكلام المختلفة.
  • حسب نوع الوحدة الهيكلية.عند تحليل الكلام، كما الوحدة الأساسيةيمكن تحديد كلمات فردية أو أجزاء من الكلمات المنطوقة، مثل الصوتيات، وdi- أو triphones، وAllophones. اعتمادًا على الجزء الهيكلي الذي تم اختياره، يتغير هيكل وتعدد الاستخدامات وتعقيد قاموس العناصر المعترف بها.
  • من خلال تحديد الميزات.يعد تسلسل قراءات ضغط الموجة الصوتية في حد ذاته زائدًا عن الحاجة بالنسبة لأنظمة التعرف على الصوت ويحتوي على الكثير من المعلومات غير الضرورية التي ليست ضرورية للتعرف عليها، أو حتى ضارة. وبالتالي، لتمثيل إشارة الكلام، من الضروري تحديد بعض المعلمات منها التي تمثل هذه الإشارة بشكل مناسب للتعرف عليها.
  • حسب آلية العمل.في الأنظمة الحديثة يتم استخدامها على نطاق واسع مقاربات مختلفةلآلية عمل أنظمة الاعتراف. يتكون نهج الشبكة الاحتمالية من حقيقة أن إشارة الكلام مقسمة إلى أجزاء معينة (إطارات، أو حسب الخصائص الصوتية)، وبعد ذلك يتم إجراء تقييم احتمالي لعنصر القاموس المعترف به الذي يتعلق به. هذا الجزءو/أو إشارة الإدخال بأكملها. النهج القائم على الحل مشكلة عكسيةيتكون تركيب الصوت من حقيقة أن طبيعة حركة مفاصل الجهاز الصوتي يتم تحديدها من خلال إشارة الإدخال ويتم تحديد الصوتيات الواضحة باستخدام قاموس خاص.

محدث:تم النقل إلى "الذكاء الاصطناعي". إذا كان هناك اهتمام، سأستمر في النشر هناك.

البرامج التجاريةظهرت تقنية التعرف على الكلام في أوائل التسعينات. يتم استخدامها عادةً من قبل الأشخاص الذين لا يستطيعون كتابة كمية كبيرة من النص بسبب إصابة في اليد. تقوم هذه البرامج (على سبيل المثال، Dragon NaturallySpeaking، VoiceNavigator) بترجمة صوت المستخدم إلى نص، وبالتالي إراحة يديه. إن موثوقية الترجمة لمثل هذه البرامج ليست عالية جدًا، ولكنها تحسنت تدريجيًا على مر السنين.

زيادة قوة الحوسبة أجهزة محمولةجعل من الممكن إنشاء برامج لهم مع وظائف التعرف على الكلام. ومن بين هذه البرامج تجدر الإشارة إلى تطبيق Microsoft Voice Command، الذي يتيح لك العمل مع العديد من التطبيقات باستخدام صوتك. على سبيل المثال، يمكنك تشغيل الموسيقى في المشغل الخاص بك أو إنشاء مستند جديد.

تعد حلول الكلام الذكية التي تقوم بتجميع الكلام البشري والتعرف عليه تلقائيًا هي الخطوة التالية في تطوير أنظمة الصوت التفاعلية (IVR). إن استخدام تطبيق الهاتف التفاعلي ليس موضة في الوقت الحالي، بل هو ضرورة حيوية. إن تقليل عبء العمل على مشغلي مراكز الاتصال والسكرتارية، وتقليل تكاليف العمالة وزيادة إنتاجية أنظمة الخدمة ليست سوى بعض من الفوائد التي تثبت جدوى مثل هذه الحلول.

ومع ذلك، فإن التقدم لا يزال قائما، ومؤخرا بدأ استخدام أنظمة التعرف الآلي على الكلام وتركيبه بشكل متزايد في تطبيقات الهاتف التفاعلية. في هذه الحالة، يصبح التواصل مع البوابة الصوتية أكثر طبيعية، حيث يمكن إجراء الاختيار فيه ليس فقط باستخدام الاتصال بالنغمة، ولكن أيضًا باستخدام الأوامر الصوتية. وفي الوقت نفسه، تكون أنظمة التعرف مستقلة عن المتحدثين، أي أنها تتعرف على صوت أي شخص.

يمكن اعتبار الخطوة التالية في تقنيات التعرف على الكلام هي تطوير ما يسمى بواجهات الكلام الصامت (SSI). تعتمد أنظمة معالجة الكلام هذه على استقبال إشارات الكلام ومعالجتها في مرحلة مبكرة من النطق. هذه المرحلةيرجع تطور التعرف على الكلام إلى عيبين كبيرين في أنظمة التعرف الحديثة: الحساسية المفرطة للضوضاء، وكذلك الحاجة إلى كلام واضح ومميز عند الوصول إلى نظام التعرف. يتمثل نهج SSI في استخدام أجهزة استشعار جديدة لا تتأثر بالضوضاء كمكمل للإشارات الصوتية المعالجة.

اليوم، هناك خمسة مجالات رئيسية لاستخدام أنظمة التعرف على الكلام:

التحكم الصوتي هو وسيلة للتفاعل والتحكم في تشغيل الجهاز باستخدام الأوامر الصوتية. أنظمة التحكم الصوتي غير فعالة لإدخال النص، ولكنها ملائمة لإدخال الأوامر، مثل:

أنواع الأنظمة

يوجد اليوم نوعان من أنظمة التعرف على الكلام - تلك التي تعمل "على أساس العميل" وتلك التي تعمل على مبدأ "خادم العميل". عند استخدام تقنية خادم العميل، يتم إدخال أمر الكلام على جهاز المستخدم ونقله عبر الإنترنت إلى خادم بعيد، حيث تتم معالجته وإعادته إلى الجهاز في شكل أمر (Google Voice، Vlingo، إلخ.) ; في ضوء كمية كبيرةبالنسبة لمستخدمي الخادم، يتلقى نظام التعرف قاعدة كبيرة للتدريب. الخيار الأول يعمل على الآخر الخوارزميات الرياضيةوهو نادر (برنامج Speereo) - وفي هذه الحالة يتم إدخال الأمر على جهاز المستخدم ومعالجته هناك. تتمثل ميزة المعالجة "على العميل" في إمكانية التنقل والاستقلال عن توفر الاتصالات وتشغيل المعدات عن بعد. وبالتالي، فإن النظام الذي يعمل "على العميل" يبدو أكثر موثوقية، ولكنه في بعض الأحيان يكون محدودًا بقوة الجهاز من جانب المستخدم.

إرسال عملك الجيد في قاعدة المعرفة أمر بسيط. استخدم النموذج أدناه

عمل جيدإلى الموقع">

سيكون الطلاب وطلاب الدراسات العليا والعلماء الشباب الذين يستخدمون قاعدة المعرفة في دراساتهم وعملهم ممتنين جدًا لك.

تم النشر على http://www.allbest.ru/

مقدمة

تمت دراسة الكلام البشري لفترة طويلة. في منتصف القرن العشرين، نشأت مشكلة التعرف التلقائي على الكلام بواسطة أجهزة الكمبيوتر. على مدى نصف قرن، تمكن العلماء من تجميع كمية هائلة من المعرفة حول موضوع البحث. أصبح من الواضح أن التعرف على الكلام مهمة صعبة للغاية.

التقنية الأساسية للعديد من أنظمة التعرف على الكلام هي الطريقة الإحصائيةتسمى نمذجة ماركوف المخفية (HMM). يتم تطوير مثل هذه الأنظمة في العديد من المراكز وهي قادرة على التعرف على الكلمات الكلامية بشكل جيد. يصل احتمال التعرف على الكلمات إلى 80 - 90٪.

مجالات تطبيق أنظمة التعرف التلقائي على الكلام متنوعة للغاية. على سبيل المثال، منذ أوائل التسعينيات، قامت العديد من الشركات الأمريكية والكندية، بتكليف من وزارة الدفاع الأمريكية، بتطوير أنظمة التعرف المصممة لاعتراض المحادثات الهاتفية. في الآونة الأخيرة، تم استخدام أنظمة التعرف في الدورات التدريبية للكمبيوتر. لغة اجنبية، أنظمة إعداد المستندات النصية. والمجالات الواعدة هي تطوير أنظمة المساعدة للأشخاص ذوي الإعاقة وتحسين التفاعل بين الإنسان والآلة.

العوامل التي تعيق التنفيذ الواسع النطاق لأنظمة التعرف التلقائي على الكلام هي:

تعقيد التنفيذ في الأجهزة المحمولة صغيرة الحجم بسبب ارتفاع التكاليف الحسابية وعدم انتظامها الكبير، فضلاً عن الحاجة إلى تخزين قاموس كبير (مجموعة من نماذج وحدات الكلام التي يمكن التعرف عليها) في الذاكرة؛

تدهور كبير في معلمات الجودة في ظل ظروف التداخل.

تعرض هذه الورقة المبادئ الأساسية لبناء أنظمة التعرف على الكلام، والمعالجة المسبقة لإشارة المصدر، وبناء النماذج الصوتية واللغوية، وتنظر في النهج الحديث لحصانة أنظمة التعرف على الضوضاء. يتم النظر في طرق تقييم جودة أنظمة الاعتراف.

يتم الاهتمام أيضًا بمشاكل التطوير وآفاق التطوير والتحسين المستمر لأنظمة الاعتراف.

1. أنظمة التعرف على الكلام

التعرف على الكلام هو عملية تحويل الإشارة الصوتية المحولة كهربائيًا إلى سلسلة من الكلمات. يمكن أن تكون الكلمات المعترف بها النتيجة النهائيةإذا كان غرض النظام هو المراقبة أو إدخال البيانات أو إعداد المستندات. وقد تكون أيضًا أساسًا للمعالجة اللغوية اللاحقة لتحقيق فهم الكلام.

1.1 تصنيف وهيكل أنظمة التعرف على الكلام

تصنيف

تتميز أنظمة التعرف على الكلام بالعديد من المعلمات، وترد أهمها في الجدول 1.1.

الجدول 1.1. المعلمات العامة لأنظمة التعرف على الكلام

معامل

نطاق التغيير

الاتصال

كلمات مفردة أو كلام مستمر

الكلام مبني على نص مكتوب أو عفوي

تعديل

الاعتماد أو الاستقلال على المتحدث

من الصغيرة(<20 слов) до большого(>20000)

نموذج اللغة

الحالة أو تعتمد على السياق

الحيرة

من الصغيرة (< 10) до большой (> 100)

كبير (> 30 ديسيبل) إلى صغير (<10dB)

إذا كان النظام مصممًا للتعرف على الكلمات الفردية، فيجب على المتحدث التوقف مؤقتًا بينها، وإذا كان للكلام المستمر، فلا. عادة ما يحتوي الكلام العفوي على قدر أكبر من عدم التماسك من كلام شخص يقرأ نصًا مكتوبًا، وبالتالي يصعب التعرف عليه. تتطلب بعض الأنظمة مطابقة المتحدث، حيث يجب على المستخدم قول بعض الكلمات أو العبارات لضبط النظام قبل استخدام النظام، بينما لا تتطلب الأنظمة الأخرى ذلك. يكون التعرف بشكل عام أكثر صعوبة عندما يكون حجم المفردات كبيرًا ويحتوي على العديد من الكلمات المتشابهة.

يمكن وصف أبسط نموذج للغة من خلال شبكة تحتوي على عدد معين من الحالات. فيه مجموعة الكلمات الصالحة التي تلي كل كلمة محددة. يتم تعريف النماذج التي تقارب اللغة الطبيعية باستخدام قواعد نحوية حساسة للسياق.

من المؤشرات المستخدمة على نطاق واسع لتعقيد المشكلة التي يتم حلها عن طريق نظام التعرف الحيرة (الصعوبة، التعقيد، التعقيد). يتم تعريف الحيرة على أنها عدد الكلمات المحتملة التي تتبع كلمة معينة في نموذج لغة معين.

يتميز نظام التعرف أيضًا بمعلمة مثل الحد الأقصى المسموح به لنسبة الإشارة إلى الضوضاء (SNR).

يعد التعرف على الكلام مهمة معقدة، ويرجع ذلك أساسًا إلى العدد الكبير من المصادر التي تؤثر على معلمات إشارة الكلام:

يعتمد الصوت الصوتي للفونيمات، وهي أصغر وحدات الكلام، بشكل كبير على السياق الصوتي المحيط بها (/t/ في الكلمتين اثنين، صحيح، زبدة)، وفي العبارات يصبح الاعتماد على السياق أقوى (“إنتاج جيد”، “تعلم جيد” أخلاق")؛

اختلافات الإشارة الصوتية بسبب الاختلافات في صوتيات الغرفة وخصائص الميكروفون وموضعه؛

الحالة الجسدية والعاطفية للمتحدث؛

عمره، جنسه، حالته الاجتماعية، لهجته.

يتم عرض الهيكل العام لنظام التعرف على الكلام في الشكل 1.1.

الشكل 1.1 - هيكل نظام التعرف على الكلام.

يتم تقسيم إشارة الكلام إلى أقسام، ويتم حساب مجموعة من المعلمات لكل قسم. تُستخدم هذه المعلمات للعثور على أفضل كلمة مرشحة ضمن النماذج الصوتية والمعجمية واللغوية المتاحة. النماذج المعجمية في الأنظمة الحديثة تدخل في النموذج اللغوي كمبادئ وطرق لإنشاء قاموس يعتمد على قاعدة النص الموجودة والبحث فيها. في أبسط الأنظمة، يتحول نموذج اللغة إلى نموذج معجمي.

1.2 المستوى الحالي للتنمية

يتم عادةً تقييم جودة نظام التعرف باستخدام مؤشر مثل معدل الخطأ:

(1.1)

N هو العدد الإجمالي للكلمات في مجموعة الاختبار، S، I، D هو عدد استبدال الكلمات وإدراجها وحذفها، على التوالي.

منذ التسعينيات، تم إحراز تقدم كبير في تكنولوجيا التعرف على الكلام. انخفض معدل الخطأ بمقدار مرتين تقريبًا كل عامين. لقد تم التغلب إلى حد كبير على عوائق اعتماد نظام التعرف على المتحدث، والتعرف المستمر على الكلام، واستخدام قاموس كبير. وقد ساهمت عدة عوامل في ذلك:

- استخدام نماذج ماركوف المخفية (HMM)؛

تطوير قواعد قياسية لتجميع قواعد بيانات الكلام للتدريب والاختبار (TIMIT، RM، ATIS، WSJ، وما إلى ذلك)، فهي تسمح للمطورين بتحديد عدد الإشارات الصوتية المهمة للتأكيد على الميزات الصوتية، بناءً على التقنيات الإحصائية. كما أن توحيد قواعد التدريب والاختبار يجعل من الممكن مقارنة أداء الأنظمة المختلفة؛

- زيادة كبيرة في أداء أنظمة الحوسبة.

تتمثل المهمة النموذجية ذات المستوى المنخفض من الحيرة (PP = 11) في التعرف على الأرقام في قناة الهاتف القياسية. هنا، تم تحقيق معدل خطأ قدره 0.3% مع طول معروف لتسلسل الأرقام.

المهام ذات المستوى المتوسط ​​من الحيرة هي مهام إدارة الموارد، على سبيل المثال، نظام التعرف التلقائي على الكلام لنظام معلومات الحركة الجوية (Air Travel Information Service, ATIS) مع قاموس حوالي 2000 كلمة وPP=15 يحقق معدل خطأ بما لا يزيد عن 3%.

تتمتع الأنظمة المصممة لإملاء النص بمستوى عالٍ من الحيرة (PP؟ 200) وقاموس كبير (حوالي 20000 كلمة). معدل الخطأ الذي حققوه هو حوالي 7٪.

المجالات الرئيسية لتطبيق أنظمة التعرف هي الاتصال الصوتي برقم هاتف (على سبيل المثال، "الاتصال بالمنزل" بدلاً من الاتصال برقم)، وإعداد المستندات، وأنظمة المعلومات والمراجع، وأنظمة تدريس اللغات الأجنبية.

1.3 الآفاق

مناعة الضوضاء

تتناقص جودة تشغيل أنظمة التعرف بشكل كارثي مع زيادة الفرق بين شروط تسجيل بيانات الكلام التدريبي وظروف العمل الحقيقي بسبب التداخلات المختلفة. ولذلك، سيتم إيلاء اهتمام خاص لتأثير البيئة الصوتية والخصائص الكهربائية لقناة الإرسال.

قابلية التنقل

عندما يتم نقل الأنظمة الحديثة لحل مشكلة جديدة، تنخفض جودة عملها بشكل كبير. لتحسينه، مطلوب إعادة تدريب النظام. تتضمن قابلية النقل القدرة على استخدام النظام لحل المشكلات المختلفة بأقل قدر من التعديل.

التكيف، التكيف

حتى أثناء تشغيل النظام لحل نفس المشكلة، قد تتغير الظروف الخارجية (مكبرات الصوت، والميكروفونات، وما إلى ذلك). من الضروري تحديد كيفية إجبار النظام على تحسين جودة العمل أثناء التشغيل والتكيف مع الظروف الجديدة.

نماذج اللغة

تستخدم الأنظمة الحديثة نماذج لغة إحصائية لتقليل مساحة البحث وحل عدم اليقين في النموذج الصوتي. مع نمو حجم المفردات وتخفيف القيود الأخرى، يصبح تحديد القواعد والقيود التي يفرضها بناء جملة اللغة التي يتم التعرف عليها ذا أهمية متزايدة لإنشاء أنظمة قابلة للتطبيق. وفي الوقت نفسه، ستتضمن نماذج اللغة الإحصائية البحتة المزيد والمزيد من القواعد والقيود النحوية والدلالية.

مقياس الثقة في الفرضيات

تربط معظم أنظمة التعرف على ترتيب الفرضيات كل فرضية بوزن أو رقم معين. حاليًا، هذا الوزن، كقاعدة عامة، ليس مؤشرًا على الثقة في فرضية معينة (أي لماذا هذه الفرضية أفضل من غيرها). بالنسبة لمشاكل الإدارة، من الضروري تحسين طرق تقييم موثوقية الفرضيات.

الكلمات غير المدرجة في القاموس

تم تصميم الأنظمة للاستخدام مع مفردات محددة. ومع ذلك، في الحياة الواقعية، ستكون هناك دائمًا نسبة معينة من الكلمات غير المدرجة في القاموس. ويجب أن تكون هناك طرق للكشف عن وجود مثل هذه الكلمات ومعالجتها.

كلام عفوي

تواجه الأنظمة التي تعمل في ظروف حقيقية دائمًا ظواهر مختلفة متأصلة في الكلام التلقائي: البدايات الخاطئة، والتأتأة، والإنشاءات غير النحوية، وما إلى ذلك. وقد أدى تطوير ATIS إلى حل العديد من المشكلات في هذا المجال، ولكن ليس كلها.

العروض (التنغيم والإيقاع)

يحمل التنغيم والبنية الإيقاعية للكلام معلومات حول معنى الكلمات المنطوقة. ومع ذلك، فإن مسألة كيفية دمج المعلومات العروضية في نظام التعرف لم يتم حلها بعد.

محاكاة الديناميكيات

تستقبل الأنظمة الحديثة سلسلة من أقسام الإشارة الصوتية وتعالجها على أنها ثابتة ومستقلة عن بعضها البعض. ومع ذلك، فمن المعروف أن أقسام الإشارة التي يتم إدراكها على أنها صوتيات وكلمات تتطلب مجموعة من المعلمات المستخرجة من الإشارة وعرضها في الديناميكيات. وهذا من شأنه أن يعكس التعبير الديناميكي. إن كيفية نمذجة ديناميكيات إشارة الكلام لنظام التعرف هي مشكلة لم يتم حلها.

2. تمثيل الإشارة الأصلية

2.1 مبادئ المعالجة المسبقة للإشارة

في التعرف على الكلام استنادًا إلى الأساليب الإحصائية، يتم أخذ عينات من الإشارة الأصلية بتردد يتراوح من 6.6 إلى 20 كيلو هرتز ومعالجتها لتمثيلها كسلسلة من المتجهات في مساحة الميزة التي تمثل حالة الجهاز الصوتي للمتكلم. في هذه الحالة، يتم توسيع جزء من الإشارة الأصلية بمدة 10 - 25 مللي ثانية، أي 150 - 300 عينة، عادة ما تكون مرتبطة بشكل كبير مع بعضها البعض، إلى سلسلة متعامدة ويتم عرضها، بالنسبة لقيمة خطأ معينة، في شكل 10 - 20 معاملات التوسع، تسمى المعلمات.

تُستخدم متجهات المعلمات هذه في خطوات لاحقة لتقدير احتمالية وجود متجه أو تسلسل متجهات تنتمي إلى صوت أو كلمة كاملة عند اختبار فرضية العضوية.

في معظم الأنظمة، ترتبط عمليات تمثيل المتجهات للإشارة وتقدير الاحتمال ارتباطًا وثيقًا. ولذلك، فمن المفترض أنه إذا تم تطبيق عملية أو إجراء على إشارة الكلام، فإنه ينتمي إلى مرحلة العرض. إذا تم استخدامه لاختبار فرضية، فهو جزء من مرحلة حساب الامتثال.

الغرض من مرحلة تمثيل الإشارة هو الحفاظ على جميع المعلومات المفيدة اللازمة للتعرف الصوتي لقسم إشارة الكلام المعني. وفي الوقت نفسه، يجب أن يكون العرض التقديمي محصنًا قدر الإمكان ضد عوامل مثل الاختلافات بين المتحدثين، وخصائص قنوات الاتصال، والحالة العاطفية. يجب أيضًا أن يكون العرض التقديمي مضغوطًا قدر الإمكان.

تعكس التمثيلات المستخدمة في الأنظمة الحديثة خصائص إشارة الكلام بسبب شكل القناة الصوتية أكثر من إشارة الإثارة (النغمة الأساسية التي تولدها الحنجرة والأحبال الصوتية). تحدد التمثيلات فقط ما إذا كانت الحبال الصوتية تهتز أم لا، أي. ما إذا كان الصوت منطوقا.

يتم دائمًا تقريبًا اشتقاق التمثيلات المستخدمة من طيف طاقة محدود، وهو الكثافة الطيفية لقدرة الإشارة

حيث x1، ...، xl، ...، xn هو التسلسل الأولي للعينات في المقطع؛ S(ejš) - المعاملات الطيفية. يُنصح باستخدام طيف الطاقة لأن الأذن غير حساسة لمرحلة الإشارة الصوتية.

بالإضافة إلى ذلك، يستخدم طيف الطاقة دائمًا تمثيلًا لوغاريتميًا. وهذا يجعل من الممكن تقليل التغييرات الكبيرة جدًا في المعلمات مع تقلبات كبيرة في سعة الإشارة، بالإضافة إلى تحويل التأثيرات الصوتية المضاعفة والتداخل من المعدات المستخدمة إلى تداخل إضافي. عيب التمثيل اللوغاريتمي هو عدم اليقين في لوغاريتم الصفر. ويتطلب ذلك تحديد الحد الأدنى لمقياس سعة الإشارة إلى قيمة غير صفرية وقصر الإشارة نفسها من الأسفل لتجنب الحساسية المفرطة للمكونات الطيفية منخفضة الطاقة، والتي تتكون أساسًا من الضوضاء. .

الشكل 2.1 - تمثيل إشارة الكلام للتعرف عليها

قبل حساب الطيف، تخضع الإشارة عادةً لتصفية أولية، مما يضمن زيادة كسب الإشارة مع زيادة التردد مع ميل قدره 6 ديسيبل/أوكتاف للتعويض عن التوهين الناتج عن المسار الكهربائي. يتم بعد ذلك تقسيم الإشارة الأصلية إلى أقسام متتالية ومتداخلة، يبلغ طولها عادةً 25 مللي ثانية، والتي تتم معالجتها بواسطة وظيفة الجرس لتقليل سعة الإشارة عند حواف القسم. ومن ثم يتم حساب الكثافة الطيفية للقدرة.

يحتوي طيف الطاقة الناتج على مكون توافقي غير مرغوب فيه عند التردد الأساسي. يمكن اختزال هذا المكون عن طريق تجميع مجموعات متجاورة من المكونات الطيفية لتكوين مجموعة مكونة من حوالي 20 نطاقًا قبل حساب لوغاريتم القدرة. غالبًا ما يتم توسيع هذه النطاقات تدريجيًا بزيادات قدرها 1 كيلو هرتز. من الممكن أيضًا استخدام مجموعة من المرشحات الرقمية. النتائج متشابهة.

يؤدي التمثيل الرأسي للإشارة إلى تقليل ارتباط العينات المجاورة في الإشارة الأصلية. من المفترض هنا أن الكلام هو إشارة الخرج لنظام خطي ذي معلمات تتغير ببطء - القناة الصوتية، التي يتم استثارتها إما عن طريق سلسلة من نبضات النغمات الأساسية أو عن طريق الضوضاء. يتكون تحليل إشارة الكلام في هذه الحالة من حساب معلمات القناة الصوتية من المعلمات المقاسة لإشارة الكلام وتقييمها بمرور الوقت. بما أن إشارة الإثارة x(n) والاستجابة النبضية للمرشح h(n) تتفاعلان من خلال عملية الالتفاف، فإن مشكلة التحليل تعتبر مشكلة فصل المكونات المشاركة في عملية الالتفاف. تسمى هذه المشكلة بمشكلة الالتواء العكسي أو مشكلة إلغاء التغليف. لحلها، من الضروري إيجاد التجانس التالي: C(x(n)*h(n)) = C(x(n)) + C(h(n)). يمكن تنفيذ هذا التماثل باستخدام التحويل التالي:

ج(ن) = F-1(قانون الجنسية[ |F(x(n))| ]),(2.2)

والذي يسمى cepstrum للإشارة المنفصلة x(n)، F وF-1، على التوالي، تحويل فورييه المنفصل المباشر والعكس.

يرتبط تمثيل الانحدار الذاتي للإشارة (التنبؤ الخطي، LPC) بنفس نموذج تكوين إشارة الكلام. يتم حساب معاملات الانحدار الذاتي من حالة التقليل المباشر للارتباط بين العينات القريبة من إشارة الكلام x(ti):

في المرحلة الأولية لحساب معلمات الإشارة، يستخدم المطورون المختلفون نماذج مختلفة أو طيف الطاقة أو الانحدار التلقائي، على سبيل المثال، عادة ما يتم استخدام الانحدار التلقائي في الاتصالات الهاتفية، حيث يتم حساب هذه المعلمات في جميع أجهزة التشفير الصوتي الهاتفية الحديثة. في أنظمة الحوسبة، يتم حساب الطيف عادةً لأن المكونات المستخدمة لحسابه يمكن استخدامها بواسطة تطبيقات أخرى. في المستقبل، سيتم حساب المعاملات الرأسية Ci، لأنها الأكثر ملاءمة لمهمة التعرف. يعد حساب cepstrum من خلال الانحدار الذاتي أكثر اقتصادا من الناحية الحسابية، وهو أمر جيد لموارد الهاتف المحدودة. لا توجد مثل هذه القيود الصارمة على أجهزة الكمبيوتر، ولكن تعدد الاستخدامات والقدرة على إعادة استخدام التعليمات البرمجية أمران مهمان، لذا فإن الطيف أفضل. تقوم بعض الأنظمة أيضًا بحساب ديناميكيات التغيرات في معلمات الإشارة dCi داخل قسم الإشارة وبين الأقسام المجاورة.

تظهر العديد من العوامل الخارجية الثابتة، مثل خصائص اتصال هاتفي معين، كعنصر ثابت (تحيز) للطيف أو Cepstrum. الفرق، المعلمات الديناميكية dCi لا تخضع لمثل هذه التأثيرات. إذا تم تمرير المعلمات الديناميكية من الدرجة الأولى عبر المُكامل، فستتم استعادة القيم القريبة من المعلمات الأصلية الثابتة Ci. هناك تقنية مماثلة مطبقة على تسلسلات معاملات طيف القدرة، قبل أخذ اللوغاريتم، وهي مفيدة لتقليل التداخل الناتج عن الضوضاء الإضافية الثابتة أو المتغيرة ببطء.

وبما أن المعاملات الرأسية غير مترابطة تقريبًا، فإن الطريقة الفعالة حسابيًا للحصول على تقديرات احتمالية جيدة إلى حد معقول في عملية المطابقة اللاحقة هي حساب المسافات الإقليدية إلى متجهات النموذج المقابلة. يتم حساب المسافات بعد الترجيح المناسب للمعاملات (المعلمات). هناك العديد من طرق الترجيح، مقسمة إلى فئتين رئيسيتين: التجريبية والإحصائية.

هناك تقنيات تجمع بين الطرق المذكورة وتجعل من الممكن إزالة ارتباط المعلمات بشكل شبه كامل، ومع ذلك، نظرًا لزيادة التكاليف الحسابية، يتم استخدامها حاليًا لأغراض العرض التوضيحي.

2.2 الآفاق

حالياً يتم دراسة إمكانية استخدام تحويلات المويجات وطرق الشبكات العصبية في مرحلة تقديم الإشارة الأصلية، مما يسمح بعمليات غير خطية مع الإشارة الأصلية أو مع نتائج التحويلات الأخرى. يستمر تطوير التمثيلات التي تعكس صوتيات الغرفة بشكل أكثر دقة، وكذلك استعادة التعبير من إشارة الكلام.

تستخدم الطرق الحديثة لتمثيل الإشارة شكل الطيف فقط، دون مراعاة التردد الأساسي. ومع ذلك، فمن المعروف أنه حتى في التعرف على كلمة واحدة، يمكن أن يكون تردد طبقة الصوت بمثابة دليل لتحديد الكلمات المعجمية. وهذا لا ينطبق فقط على اللغات النغمية مثل الصينية، ولكن أيضًا على اللغات الأوروبية، نظرًا لأن هذا التردد مرتبط بالتشديد المعجمي. في الكلام المتصل، تحمل النغمة الأساسية معلومات حول البنية النحوية للجملة ومزاج المتحدث. وسوف تستمر الأبحاث في هذا المجال.

3. التعرف على الكلام المقاوم للضوضاء

3.1 تحديد مناعة الضوضاء

ترتبط مناعة الضوضاء (المتانة) في التعرف على الكلام بالحاجة إلى ضمان الدقة الكافية في ظل العوامل المزعزعة للاستقرار:

عندما تكون جودة إشارة الكلام المدخلة منخفضة،

عندما تكون هناك اختلافات كبيرة في الخصائص الصوتية والتعبيرية والصوتية للكلام بين ظروف التدريب والاختبار (العمل).

مصادر هذه العوامل هي:

التداخل الصوتي على شكل ضوضاء إضافية،

ظاهرة الترشيح الخطي

التشوهات غير الخطية أثناء تحويل ونقل الإشارة الأصلية،

تداخل النبض

التغييرات في نطق السماعة ناتجة عن وجود مصادر الضوضاء.

لقد حققت الأنظمة الحديثة المصممة للعمل في ظروف صوتية مواتية استقلالية مكبر الصوت إلى حد كبير، وتعويض بعض تدهور الإشارة بسبب الضوضاء والترشيح الخطي غير المعروف. ومع ذلك، بالنسبة لتطبيقات العالم الحقيقي، فإن الحاجة إلى تحسين المتانة واضحة. حتى أفضل الأنظمة الحديثة تؤدي إلى تدهور الأداء بشكل كبير إذا مرت الإشارة التي يتم التعرف عليها عبر قناة هاتفية أو إذا كان المتحدث يتحدث بلكنة. بعد ذلك، نأخذ في الاعتبار مقاومة تشويه الإشارة الناجم عن مصادر التداخل الخارجية المحيطة. تتمثل الأساليب الرئيسية للقوة في التعديل الديناميكي للمعلمات، واستخدام صفائف الميكروفون، ومعالجة الإشارات مع مراعاة النماذج النفسية للإدراك.

3.2 التعديل الديناميكي للمعلمات

عادةً ما تفترض نماذج تكييف الأنظمة مع الظروف البيئية المتغيرة أن مصادر تدهور جودة الكلام هي ضوضاء مضافة مع توزيع غير معروف للكثافة الطيفية للقدرة أو مزيج من الضوضاء المضافة والترشيح الخطي. للتعويض عن هذه التداخلات، يمكن للنظام ضبط المعلمات الصوتية ديناميكيًا، سواء المحسوبة من إشارة الإدخال المعترف بها والنماذج الصوتية للكلام المخزنة بواسطة النظام. هناك ثلاث طرق رئيسية لضبط المعلمات ديناميكيًا:

استخدام التقدير الأمثل للحصول على قيم معلمات جديدة في ظل ظروف الاختبار،

تطبيق التعويض على أساس المقارنة التجريبية لإشارة الكلام في ظروف التدريب والاختبار،

تصفية عالية التمرير لقيم المعلمات.

تقدير المعلمة الأمثل

يتم استخدام طريقتين رئيسيتين للتقدير الأمثل.

الأول يعتمد على الشكل الرسمي النموذج الإحصائيوالذي يميز الفرق بين الكلام المستخدم لتدريب النظام والكلام المستخدم لاختبار النظام. يتم تقدير قيم معلمات النموذج من عينات اختبار الكلام المسجلة في بيئات مختلفة، وبعد ذلك يتم تعديل المعلمات المحسوبة لإشارة الإدخال أو النماذج الصوتية لوحدات الكلام المخزنة في النظام. تظهر التجارب أن هذا النهج يقلل بشكل كبير من عدد الأخطاء عند التعرف على إشارة الكلام ذات الضوضاء الإضافية. ومع ذلك، فإن هذا النهج غير قادر على مواجهة تدهور جودة الكلام بشكل جدي في الظروف الحقيقية.

الطريقة الثانية الشائعة هي استخدام المعرفة بالضوضاء لإجبار النماذج الصوتية على وصف الكلام بالضوضاء. تُشتق المعرفة من أنماط التداخل الموجودة وتستخدم لضبط معلمات النماذج الصوتية (التغيرات في الوسائل والفروق) المحسوبة من الكلام دون تدخل. يتم تنفيذ هذا النهج من خلال تقنية تسمى مجموعة النماذج المتوازية. إنه يعطي نتائج جيدة للتداخل الإضافي والمضاعف وإشارات الكلام الحقيقية. ومع ذلك، فإن التكاليف الحسابية المرتفعة جدًا حاليًا تمنع استخدامه في أنظمة التعرف.

المقارنة التجريبية للمعلمات

تتم مقارنة المعلمات المستخرجة من الكلام دون تداخل مع معلمات نفس الكلام المسجل مع التداخل. وفي هذا النهج، يعتبر التأثير المشترك لمختلف التداخلات بمثابة انتهاكات إضافية لمعلمات الإشارة. عند مقارنة المعلمات، يتم حساب متجهات التصحيح، والتي يتم استخدامها بعد ذلك لتصحيح إما متجهات المعلمات للإشارة المعترف بها على الإدخال أو متجهات المعلمات للنماذج الصوتية المخزنة في نظام التعرف.

يتم تحسين دقة التعرف إذا افترض أن متجهات التصحيح تعتمد على: نسبة الإشارة إلى الضوضاء، أو الموقع في مساحة المعلمة ضمن نسبة إشارة إلى ضوضاء معينة، أو المراسلات المتوقعة للفونيمات.

يمكن توسيع هذا النهج العام ليشمل الحالات التي تكون فيها بيئة الاختبار غير معروفة مسبقًا، من خلال تشكيل مجموعة من متجهات التصحيح للعديد من ظروف الاختبار البيئية المختلفة. يتم بعد ذلك تطبيق متجهات التصحيح بشكل تسلسلي على نماذج الكلام، بدءًا من المتجه المفترض الأكثر احتمالًا، حتى يتم العثور على أفضل تطابق مع المتجه الذي تم الحصول عليه من إشارة الإدخال.

إذا كانت شروط حساب متجهات التصحيح قريبة من ظروف التشغيل الفعلية للنظام، فإن جودة تشغيله تكون عالية جدًا. العيب هو الحاجة إلى استخدام تسجيل الاستريو لإنشاء قاعدة بيانات للنماذج الصوتية.

تطبيق مرشحات تمرير عالية

إن استخدام التردد العالي أو ترشيح تمرير النطاق عند حساب المعاملات الرأسية يسمح بزيادة كبيرة في مناعة الضوضاء للنظام بأقل تكلفة. يتم تنفيذ هذه الطريقة في خوارزميات RASTA وCMN. تُستخدم هذه الخوارزميات الآن في جميع الأنظمة تقريبًا التي تتطلب مناعة ضد الضوضاء.

3.3 استخدام صفائف الميكروفون

يمكن تحقيق تحسين إضافي في دقة التعرف عند نسب الإشارة إلى الضوضاء المنخفضة باستخدام مصفوفة الميكروفون. يمكن لمثل هذه المصفوفة، من حيث المبدأ، تحقيق حساسية الاتجاه بخاصية لها الحد الأقصى في اتجاه السماعة والحد الأدنى في اتجاه مصادر التداخل، على غرار هوائي المصفوفة المرحلية في الاتصالات الراديوية. من خلال تغيير مراحل العناصر الفردية باستخدام أدوات الجمع وخطوط التأخير، يمكنك ضبط خصائص الاتجاهية مع تغير ظروف التشغيل. وفي الوقت نفسه، تُستخدم الخوارزميات للتعويض عن التلوين الطيفي الذي تقدمه المصفوفة نفسها. أظهرت التجارب التي أجريت على مصفوفة ميكروفون في بيئة مكتبية انخفاضًا في معدل الخطأ إلى 61% للتداخل في شكل مصدر ضوضاء إضافي.

على الرغم من أن المصفوفة فعالة ضد التداخل في شكل ضوضاء مضافة مستقلة، إلا أنها تقلل الأداء بشكل كبير في وجود العديد من الأسطح العاكسة، عندما يكون التداخل جزءًا متأخرًا ومخففًا قليلاً من الإشارة المفيدة.

تستخدم الأنظمة الأكثر تقدمًا خوارزميات تعتمد على الارتباط المتبادل للتعويض عن تداخل تأخير الإشارة. هذه الخوارزميات قادرة على تضخيم المجال الصوتي في اتجاهات معينة. ومع ذلك، فهي تحسن أداء النظام بشكل طفيف فقط مقارنة بخوارزميات التأخير والمجموع البسيطة.

3.4 معالجة الإشارات على أساس نفسي

معالجة إشارة الكلام الأصلية مع الأخذ في الاعتبار النماذج النفسية للإدراك تحاكي الجوانب المختلفة لإدراك الكلام البشري. تشتمل أنظمة المعالجة هذه عادةً على مجموعة من مرشحات تمرير النطاق التي تحاكي حساسية تردد السمع البشري، تليها أجهزة معالجة الإشارات غير الخطية داخل القنوات وفيما بينها.

تظهر التقييمات الأخيرة لأنظمة التعرف أن نماذج المحاكاة الإدراكية توفر دقة تعرف أفضل من سيبستروم التقليدية، سواء في ظل الظروف الصاخبة أو عبر الاختلافات في ظروف التدريب والاختبار. ومع ذلك، فإن هذه النماذج أقل جودة من خوارزميات التعديل الديناميكي للمعلمات، بالإضافة إلى أن التعديل الديناميكي أقل تكلفة.

من الممكن أن يكون فشل نماذج المحاكاة مرتبطًا باستخدام نماذج Hidden Markov للتصنيف، والتي يتبين أنها غير مناسبة للعمل مع المعلمات الناتجة. يعتقد عدد من الباحثين أيضًا أنه لم يتم العثور بعد على المجموعة المثالية من المعلمات المحسوبة باستخدام هذه النماذج وتوصيف إشارة الكلام بأكبر قدر ممكن من الدقة. ولذلك، لا يزال هذا المجال يحظى باهتمام كبير من الباحثين.

3.5 التوقعات

على الرغم من أهميتها الواضحة، إلا أن قوة التعرف على الكلام لم تجذب انتباه الباحثين إلا مؤخرًا. لم يتم تحقيق نجاح كبير إلا في ظروف التداخل "الودي" إلى حد ما، مثل الضوضاء الإضافية أو الترشيح الخطي. إن استقلال الأنظمة عن المتحدث يمتد الآن إلى المتحدثين الأصليين فقط. بالنسبة للأشخاص الذين يتحدثون بلكنة، تكون دقة التعرف أقل بكثير، حتى عند ضبطها على السماعة.

التحدث على الهاتف

يعد التعرف على الكلام الهاتفي أمرًا صعبًا لأن كل قناة هاتفية لها نسبة الإشارة إلى الضوضاء واستجابة التردد الخاصة بها. بالإضافة إلى ذلك، يمكن أن يحدث تشويه الكلام بسبب التداخل قصير المدى أو عدم الخطية. يجب أن تكون تطبيقات خط الهاتف قادرة على التكيف مع القنوات المختلفة مع القليل من بيانات القناة.

بيئة عالية الضوضاء

حتى عند استخدام تقنيات تعويض الضوضاء المختلفة، تنخفض دقة التعرف بشكل ملحوظ عند نسبة الإشارة إلى الضوضاء أقل من 15 ديسيبل، بينما يكون الشخص قادرًا على سماع الكلام بشكل مثالي بنسبة أقل بكثير.

الحديث المتبادل

يعد تأثير المحادثات الأخرى، على سبيل المثال في نفس الغرفة أو التداخل على قناة هاتفية مجاورة، مشكلة أكثر صعوبة من تداخل ضوضاء النطاق العريض. حتى الآن، لم تؤد الجهود المبذولة لاستخدام المعلومات التي تميز الكلام الذي تم التعرف عليه عن الكلام المتداخل إلى نتائج مهمة.

التكيف السريع مع اللهجة في الكلام

في مجتمع اليوم سريع الخطى، يجب أن تكون التطبيقات اللغوية الجادة قادرة على فهم المتحدثين بدون لكنة وكذلك أولئك الذين يتحدثون بلكنة.

تطوير مبادئ إنشاء قواعد بيانات الكلام

سيعتمد التقدم في التعرف على مقاومة الضوضاء أيضًا على تطوير مبادئ إنشاء قواعد بيانات الكلام وبشكل مباشر على إنشاء قواعد البيانات هذه. للقيام بذلك، من الضروري جمع ومعالجة وهيكلة العديد من عينات التشوهات والتداخلات المميزة للمشاكل العملية.

4. النماذج الصوتية

4.1 مكان النموذج الصوتي في النظام

يتم تطبيق أنظمة التعرف على الكلام الحديثة بشكل أساسي كمنتجات برمجية تولد فرضيات حول التسلسل المنطوق للكلمات بناءً على إشارة الإدخال. تعتمد الخوارزميات المستخدمة في مثل هذه الأنظمة على الأساليب الإحصائية.

يتم حساب المتجه للمعلمات الصوتية من إشارة الدخل كل 10-30 مللي ثانية. تعتبر تسلسلات هذه المتجهات بمثابة تسلسلات يمكن ملاحظتها والتي تم إنشاؤها بواسطة النماذج الصوتية. وبناءً على ذلك، يتم حساب احتمال p(ylT/W) لمراقبة تسلسل المتجهات ylT عند نطق تسلسل (كلمة) W، بمعنى آخر، احتمال توليد تسلسل ylT بواسطة نموذج W. بالنظر إلى تسلسل ylT ، يمكنك البحث باستخدام القاعدة:

ابحث عن التسلسل الأكثر احتمالاً للكلمات التي أدت إلى إنشاء ylT. يعثر إجراء البحث هذا على تسلسل الكلمات الذي له أقصى احتمال خلفي. يتم حساب الاحتمال p(ylT/W) بواسطة النموذج الصوتي، وp(W) بواسطة نموذج اللغة.

بالنسبة للأنظمة التي تحتوي على قاموس كبير، يتكون البحث من مرحلتين. في الأول، من خلال حساب الاحتمالات التقريبية في الوقت الحقيقي باستخدام نماذج مبسطة، يتم إنشاء شبكة من أفضل تسلسلات الكلمات. وفي المرحلة الثانية، يتم حساب الاحتمالات الأكثر دقة مع عدد محدود من الفرضيات. تولد بعض الأنظمة تسلسلاً محتملاً للكلمات في خطوة واحدة.

4.2 النماذج الصوتية المبنية على سلاسل ماركوف

النماذج الصوتية هي نماذج احتمالية أولية للوحدات اللغوية الأساسية (أي الصوتيات) وتستخدم لتمثيل وحدات المستوى التالي - الكلمات.

يعتبر تسلسل المعلمات الصوتية التي تم الحصول عليها من العبارة المنطوقة بمثابة تنفيذ لمجموعة من العمليات الموضحة باستخدام نماذج ماركوف المخفية (HMMs). HMM عبارة عن مجموعة من عمليتين عشوائيتين:

سلسلة ماركوف المخفية المسؤولة عن التغيرات مع مرور الوقت،

مجموعات من العمليات الثابتة التي يمكن ملاحظتها والمسؤولة عن التغيرات الطيفية.

لقد أثبتت SMM عمليًا أنها قادرة على التعامل مع المصادر الرئيسية للغموض في إشارة الكلام، مثل الاختلافات في نطق الصوت، مع السماح بإنشاء أنظمة تحتوي على قاموس يضم عشرات الآلاف من الكلمات.

هيكل SMM

يتم تعريف النموذج على أنه زوج من العمليات العشوائية (X، Y). العملية X هي سلسلة ماركوف من الدرجة الأولى، ولا يمكن ملاحظة تطبيقاتها بشكل مباشر. إن تحقيقات العملية Y تأخذ قيمها من فضاء المعلمات الصوتية، ويتم ملاحظتها بشكل مباشر، وتعتمد توزيعاتها على تحقيقات العملية X.

تتميز HMM بافتراضين رسميين. الأول يتعلق بسلسلة ماركوف وينص على أن الحالة التالية للسلسلة يتم تحديدها فقط من خلال الحالة الحالية ولا تعتمد على المسار السابق. ينص الثاني على أن التوزيع الحالي للعملية Y، والتي تؤخذ منها القيمة المرصودة للمعلمة الصوتية، يعتمد فقط على الحالة الحالية لسلسلة ماركوف (العملية X)، وليس على المسارات السابقة للعمليتين X وY.

يوفر الملحق 1 تعريفًا رياضيًا للنموذج، ومثالًا لتوليد تسلسل ملحوظ، وصيغ حسابية.

لإعادة تقدير معلمات النموذج أثناء التدريب، تم استخدام خوارزمية باوم-ويلش، بناءً على إعادة تقدير الاحتمالية باستخدام صيغة بايز.

يمكن تصنيف HMMs وفقًا لعناصر المصفوفة B، والتي تعتبر بطبيعتها وظائف توزيع.

إذا تم تعريف وظائف التوزيع على مساحة محدودة، فسيكون النموذج منفصلا. في هذه الحالة، يكون الإدراك المرصود بمثابة ناقل للقيم من أبجدية محدودة لعناصر M. لكل عنصر من عناصر المتجه Q المحدد من المجموعة V، يتم تحديد كثافة منفصلة غير صفرية (w(k)/k=1,...,M) لتشكل التوزيع. يفترض هذا التعريف استقلالية عناصر المجموعة V.

إذا تم تعريف التوزيعات على أنها كثافات احتمالية على مساحة مستمرة، فسيكون النموذج مستمرًا. وفي هذه الحالة، يتم فرض متطلبات على وظائف التوزيع من أجل تحديد عدد المعلمات المقدرة بالحدود المقبولة. النهج الأكثر شيوعًا هو استخدام مجموعة خطية من الكثافات g من عائلة التوزيعات القياسية G مع شكل حدودي بسيط. عادة، يتم استخدام g كتوزيع طبيعي متعدد المتغيرات، ويتميز بمتجه للتوقعات الرياضية ومصفوفة التغاير. عادةً ما يكون عدد التوزيعات القياسية المتضمنة في التركيبة الخطية لتكوين التوزيع الناتج محدودًا بالقدرات الحسابية وكمية بيانات التدريب المتاحة.

يتطلب ضبط معلمات التوزيع أثناء تدريب النموذج المستمر عددًا كبيرًا من عينات التدريب. وإذا لم تكن كافية، لجأوا إلى استخدام نموذج شبه مستمر، حيث يتم استخدام مجموعة قياسية من الكثافات الأساسية لتكوين مجموعة خطية. تختلف المجموعات الخطية عن بعضها البعض فقط في معاملات الترجيح الخاصة بها. يتمثل النهج العام في ربط كل إحداثيات متجه الإدخال بمجموعته المميزة من الكثافات الأساسية.

4.3 نمذجة الكلمات

التحلل الصوتي

عادة ما يتم تمثيل الكلمة من خلال شبكة من الصوتيات. يمثل كل مسار في الشبكة نطقًا مختلفًا للكلمة.

نفس الصوت، الذي يتم نطقه في سياقات مختلفة، قد يكون له معلمات صوتية مختلفة، وبالتالي يمكن تصميمه من خلال توزيعات مختلفة. Allophones هي أنماط تمثل صوتًا في سياقات مختلفة. يعتمد تحديد عدد الألوفونات التي ستمثل صوتًا معينًا على العديد من العوامل، العامل الرئيسي هو كمية بيانات التدريب لضبط معلمات النموذج الصوتي.

هناك عدة أنواع من طراز allophone. واحد منهم هو البوليفونات. من حيث المبدأ، يختلف نطق الصوت في جميع الكلمات التي يحدث فيها، وبالتالي يتطلب ألوفونات مختلفة. مع وجود مفردات كبيرة، يكاد يكون من المستحيل تدريب مثل هذا النموذج بسبب نقص بيانات التدريب. لذلك، يتم استخدام تمثيل allophones على عدة مستويات من التفاصيل: الكلمة، المقطع، triphone، diphone، والصوت المستقل عن السياق. يمكن الحصول على التوزيعات الاحتمالية للفونونات عند مستويات مختلفة من التفاصيل من خلال الجمع بين توزيعات لمستويات تمثيل أكثر تفصيلاً. يتم تعويض فقدان الميزات من خلال التحسن في تقدير المعلمات الإحصائية للنموذج أثناء تدريبه بسبب زيادة نسبة حجم بيانات التدريب إلى عدد معلمات النموذج المقدرة.

الاختلاف الآخر هو تجميع allophones في عدد معين من فئات السياقات المحتملة. يتم إجراء البحث عن الفصل تلقائيًا باستخدام شجرة التصنيف والانحدار (CART). هذه شجرة ثنائية، في الجذر يوجد صوت، مع كل عقدة يرتبط سؤال حول السياق مثل: "هل الصوت السابق هو حرف ساكن للأنف؟" لكل إجابة محتملة (نعم، لا) هناك فرع لعقدة أخرى. أوراق الشجرة هي allophones. هناك خوارزميات نمو وتشذيب CART التي تربط تلقائيًا الأسئلة من مجموعة تم إنشاؤها يدويًا بالعقد.

تم تصميم كل هاتف allophone في أنظمة التعرف باستخدام HMM. بشكل عام، يمكن بناء جميع النماذج باستخدام توزيعات مأخوذة من مجموعة واحدة مشتركة أو ما يصل إلى عدة آلاف من المجموعات تسمى سينونات.

يمكن أيضًا إنشاء نماذج من allophones ذات المستوى الأعلى، مثل الكلمات، من خلال تسلسل النماذج الأساسية باستخدام انتقالات التوصيل والتوزيعات. تسمى هذه اللبنات الأساسية بالفينونات والمولتونات.

هناك طريقة أخرى لنمذجة الكلمات وهي استخدام كتاب الرموز - وهو عبارة عن مجموعة من الميزات المرجعية التي تمثل كلماتها. باستخدام متجه الإدخال لمعلمات الإشارة، تم العثور على أقرب إشارة مرجعية من كتاب الشفرات، والتي لها رقمها الخاص. بالنسبة لكتاب الشفرات، يتم استخدام مجموعة قياسية من الكثافات الأساسية، ويتم تمثيل الكلمات بتسلسلات من أرقام الميزات. يتم بعد ذلك تصميم كل تسلسل رقمي باستخدام HMM.

تحديد حدود الكلمات والاحتمالات

بشكل عام، لا توفر إشارة الكلام وتمثيلاتها مؤشرات واضحة للحدود بين الكلمات، وبالتالي فإن اكتشاف حدود الكلمة هو جزء من عملية فرضية يتم إجراؤها كبحث. خلال هذه العملية، تتم مقارنة أنماط الكلمات بسلسلة من المعلمات الصوتية. في الإطار الاحتمالي، تتضمن مقارنة التسلسلات الصوتية مع النماذج حساب احتمالية توليد تسلسل معين بواسطة نموذج معين، أي. حساب ص (ylT/W). وهذا عنصر أساسي في عملية الاعتراف.

لتسلسل زمني معين: 1، 2، …، t، t+1، …، T-1، T:

احتمال dt(i) أنه بحلول الوقت t قد تم ملاحظة التسلسل o1,o2…ot ويكون النموذج في الحالة Si (خوارزمية أمامية):

لجميع 1?i?N, 1?j?N, t = 1,2,…,T-1:

عند t = 1: d1(i) = pi bi(o1);(4.2)

بالنسبة إلى t > 1: dt(j) = .(4.3)

احتمال ft(i) لمراقبة التسلسل ot+1,ot+2,...oT بدءًا من اللحظة t+1 إلى T، بشرط أن يكون النموذج في الحالة Si (خوارزمية متخلفة) في اللحظة t:

لجميع 1?i?N, 1?j?N, t = T-1,T-2,…,1:

عند t = T: fT(i) = 1;(4.4)

في ر< T: ft(i) = .(4.5)

يمكن حساب الاحتمال الإجمالي لتمرير النموذج بمسار معين في دورات الساعة T (احتمال مطابقة التسلسل والنموذج) بثلاث طرق:

ف(س/ل) =؛(4.6)

ف(س/ل) =؛(4.7)

P(Q/l) = dt(i) قدم(i) = .(4.8)

ويرد مثال لحساب الاحتمال في الملحق 2.

بالنسبة للحسابات، يتم استخدام النماذج في شكل تسلسل خطي للحالات ذات بداية ونهاية. التحولات ممكنة فقط في المكان ومن البداية إلى النهاية دون القفز فوق الحالات. قبل حساب المراسلات، يتم تقسيم التسلسل الأصلي لمتجهات المعلمات إلى أجزاء متساوية في الطول للنموذج المحدد.

4.4 التوقعات

لقد أتاحت التطورات الكبيرة التي تم تحقيقها في النمذجة الصوتية في السنوات الأخيرة تحقيق جودة التعرف الجيدة عند استخدام قاموس كبير في الوقت الفعلي، مع استهلاك قدر مقبول من الموارد. ومع ذلك، هناك عدد من الجوانب التي تتطلب التحسين. بادئ ذي بدء، يتعلق هذا بالتكيف مع مكبرات الصوت المختلفة والبيئات الصوتية المختلفة، بما في ذلك وجود التداخل. هناك أيضًا صعوبات في معالجة التأتأة، والبدايات الخاطئة، والكلمات المفقودة من القاموس، وغيرها من الميزات المتأصلة في الكلام العفوي.

الاتجاهات الرئيسية البحوث الحديثةهي المناعة ضد الضوضاء الصوتية، وتحسين أنظمة المعلمات والنماذج الصوتية، والعمل مع قاموس كبير، ودعم سياقات متعددة ولغات متعددة، وتطوير طرق للتدريب التلقائي للأنظمة.

5. نماذج اللغة

5.1 مكان نموذج اللغة في النظام

تقوم أنظمة التعرف على الكلام بتحويل الإشارة الصوتية إلى تمثيل إملائي للكلام المنطوق. يبني أداة التعرف الفرضيات باستخدام القاموس المحدود. من أجل البساطة، من المفترض أن يتم التعرف على الكلمة بشكل فريد من خلال نطقها.

تم تحقيق تقدم كبير في حل مشكلة التعرف مع البدء باستخدام النموذج الإحصائي توزيع المشترك p(W,O) لتسلسل الكلمات المنطوقة W والتسلسل الصوتي المقابل O. وقد استخدمت شركة IBM هذا النهج لأول مرة تحت اسم "نموذج القناة المصدر". إنه يحدد تقييم مراسلات تسلسل المفردات المحدد مع الحقيقة الصوتية المرصودة O باستخدام التوزيع الخلفي p(W/O).

لتقليل الخطأ، يختار النظام تسلسل القاموس الذي يزيد هذا التوزيع الخلفي إلى الحد الأقصى:

حيث p(W) هو احتمال تسلسل الكلمات W، p(O/W) هو احتمال ملاحظة التسلسل الصوتي O عند نطق تسلسل الكلمات W، p(O) هو الاحتمال الإجمالي لمراقبة التسلسل O حسب جميع الموديلات الصوتية المتوفرة. p(O/W) = p(ylT/W) = P(O/ l) ويتم حسابها في مرحلة النمذجة الصوتية باستخدام HMM وتسمى القناة. من المفترض أن تكون p(O) مساوية لـ 1. ويتم حساب الاحتمالية السابقة p(W) باستخدام نموذج اللغة (LM).

يتم استخدام نموذج التعرف المماثل للتعرف على النصوص المطبوعة والمكتوبة بخط اليد.

5.2 نموذج اللغة القائم على Trigram

بالنسبة لتسلسل معين من الكلمات W=(w1,...,wn)، يمكن تمثيل احتماليته على النحو التالي:

تم تحديد w0 ليكون مناسبًا لضمان الظروف الأولية. يعتمد احتمال كل كلمة تالية على التسلسل المنطوق بالفعل hi. مع هذا التعريف، يزداد تعقيد النموذج بشكل كبير مع زيادة التسلسل المنطوق للكلمات. لتبسيط النموذج، وجعله عمليًا للممارسة، من المفترض أن بعض جوانب القصة فقط تؤثر على احتمالية الكلمة التالية. إحدى الطرق لتحقيق ذلك هي استخدام بعض العمليات μ()، والتي تقسم المساحة التاريخية إلى فئات مكافئة لـ K. ثم يمكنك تطبيق النموذج:

لقد تم تحقيق أكبر نجاح في العشرين عامًا الماضية بمساعدة نماذج بسيطةن جرام. في أغلب الأحيان، يتم استخدام أشكال ثلاثية، حيث تحدد الكلمتان السابقتان فقط احتمالية الكلمة التالية. في هذه الحالة، يبدو احتمال تسلسل الكلمات كما يلي:

لتقدير الاحتمالات السابقة p(W) لـ NM، هناك حاجة إلى كمية كبيرة من المواد النصية التعليمية. أثناء التقييم يتم حساب التكرارات:

حيث c123 هو عدد تكرارات تسلسل الكلمات (w1، w2، w3)، c12 هو عدد تكرارات التسلسل (w1، w2،). بالنسبة لقاموس المجلد الخامس، هناك V3 ثلاثية الأبعاد محتملة؛ لقاموس مكون من 20 ألف كلمة، هناك 8 تريليون كلمة. من الواضح أن العديد من هذه الأشكال الثلاثية لن يتم العثور عليها في تسلسلات التدريب، لذلك بالنسبة لهم f3(w3/w1, w2) = 0. للتأكد من أن الاحتمالات المقابلة لا تساوي الصفر، يتم الاستيفاء الخطي لترددات الأشكال المثلثية والبيجرامات و الكلمات، وكذلك بهم توزيع موحدفي القاموس:

يتم تقييم f1() وf2() عن طريق حساب Biggrams وTrigrams المقابلة. يتم تقدير معاملات الاستيفاء الخطي l من خلال البحث عن الاحتمال الأقصى للبيانات الجديدة التي لم تشارك في حساب ترددات n-gram. عند التعظيم، يتم استخدام خوارزمية للأمام والخلف (الصيغ (4.2) - (4.5)).

بشكل عام، يمكن استخدام أكثر من ناقل l. يُنصح أيضًا بمراعاة الثقة الأكبر في ترددات التريجرام المقدرة على عدد أكبر من تسلسلات التدريب. للقيام بذلك، يتم اعتماد معاملات الترجيح l على مجموعات الكلمات الكبيرة والكلمات b(c12, c2) التي تشكل تاريخ الكلمة المعنية. تسمى هذه الطريقة الاستيفاء المحذوف. يتم استخدام مخططات التجانس الأخرى أيضًا. عند نمذجة لغة باستخدام الأشكال الثلاثية، يتراوح حجم بيانات القاموس عادةً من مليون إلى 500 مليون كلمة، مع حجم القاموس المقابل من ألف إلى 267 ألف كلمة.

5.3 التعقيد (الحيرة)

لمقارنة أنظمة التعرف، يمكنك استخدام معدل الخطأ. يقوم هذا المقياس بتقييم نماذج اللغة بشكل أفضل. ومع ذلك، هناك طريقة أقل تكلفة لتقييم المواد النووية. ويستخدم كمية تميز كمية المعلومات - الإنتروبيا. والفكرة هي حساب الإنتروبيا للنص الجديد الذي لم يتم استخدامه عند إنشاء النموذج. تتم مقارنة إنتروبيا المفردات المحسوبة مباشرة من النص مع الإنتروبيا المحسوبة من تعلم الآلة. سيكون NM الذي تكون إنتروبيا الأقرب إلى النص هو الأفضل.

دعونا نشير إلى p(x) التوزيع الاحتمالي الصحيح للكلمات في مقطع نص x يتكون من كلمات k. دعونا نحدد إنتروبيا النص بناءً على أساس القاموس على النحو التالي:

إذا كانت الكلمات الموجودة في النص متساوية في الاحتمال، وحجم النص هو V، فإن H=log2V، بالنسبة للتوزيعات الأخرى H?log2V. يمكنك استخدام NM لتحديد الاحتمالية في مقطع النص. قيمة لوغاريتم الاحتمال لـ NM هي:

حيث pO(wi/hi) هي الاحتمالات التي يحددها ML معين. الحد، أي. المحسوبة باستخدام NM، ليست أقل من إنتروبيا النص. من الواضح أن الهدف من مقارنة NMs المختلفة هو العثور على واحد يكون لوغاريتم الاحتمال المحسوب من NM هو الأقرب إلى الإنتروبيا المحسوبة من النص.

تميز الحيرة مستوى لوغاريتم احتمال NM ويتم تعريفها على أنها 2lp. تقريبًا، هذا هو متوسط ​​حجم القاموس الذي منه كلمة اخرىعند الاعتراف. تعتمد الحيرة على مجال الكلام المستخدم. وترد قيم الحيرة لبعض مجالات الكلام في الجدول 5.1.

التعرف على الكلام اللغة الصوتية

الجدول 5.1. الحيرة في مجالات الكلام

5.4 حجم القاموس

لا يمكن أن يكون معدل الخطأ أقل من النسبة المئوية للكلمات المنطوقة غير المدرجة في القاموس. لذلك، فإن الجزء الرئيسي من بناء تعلم الآلة هو تطوير قاموس يغطي إلى أقصى حد النصوص التي من المحتمل أن يتعرف عليها النظام. ويظل هذا تحديا إنسانيا.

عند إنشاء قاموس، يتم أولا تحديد النصوص التي تميز المهمة التي سيعمل بها النظام. ثم يتم تقسيم النصوص إلى كلمات باستخدام أدوات التشغيل الآلي. بعد ذلك، يتم ربط كل كلمة بمجموعة من خيارات النطق الخاصة بها، بما في ذلك الخيارات المستقبلية المحتملة. يتم استخدام جميع خيارات النطق التي تم الحصول عليها لتكوين أشكال ثلاثية.

يوضح الجدول 5.2 نسبة تغطية النصوص الجديدة باللغة الإنجليزية بواسطة نظام التعرف عند استخدام قاموس ذي حجم ثابت. في اللغات التي تحتوي على عدد كبير من أشكال الكلمات والتبعيات في تكوين الكلمات (الألمانية والفرنسية)، يلزم وجود قاموس أكبر بكثير لنفس الدرجة من التغطية.

يتضمن النهج الأكثر عقلانية تجميع قاموس شخصي لكل مستخدم لنظام التعرف بالإضافة إلى القاموس الثابت. يوضح الجدول 5.2 النمو في تغطية الكلمات الجديدة من خلال هذا النظام القابل للتخصيص ديناميكيًا بحجم قاموس أولي ثابت يبلغ 20 ألف كلمة. تتم مقارنة البيانات بنظام يستخدم قاموسًا ثابتًا بنفس الحجم عند التعرف على النص بالطول الممثل.

الجدول 5.2. جودة التعرف على النصوص الجديدة

5.5 نماذج اللغة المحسنة

هناك العديد من التحسينات على YaM بناءً على الأشكال الثلاثية. أهمها مذكورة أدناه.

نماذج الصف

بدلاً من الكلمات في نموذج اللغة، يمكنك استخدام مجموعة من فئات الكلمات. يمكن أن تتداخل الفئات لأن الكلمة يمكن أن تنتمي إليها فصول مختلفة. يمكن أن تعتمد الفصول على أجزاء من الكلام، والتحليل الصرفي للكلمة، ويمكن تحديدها تلقائيًا بناءً على العلاقات الإحصائية. يبدو نموذج الطبقة العامة كما يلي:

حيث ci هي الطبقات. إذا لم تتقاطع الفئات:

إن حيرة مثل هذا النموذج أعلى من تلك القائمة على الأشكال الثلاثية، ولكنها تقل عند الجمع بين نماذج من هذين النوعين.

النماذج الديناميكية

هنا يتم أخذ الماضي بعين الاعتبار، مما يدوم الوثيقة بأكملها. يتم ذلك لاكتشاف الكلمات التي تتكرر بشكل متكرر (على سبيل المثال، في هذا النص، كلمة "نموذج" هي كلمة متكررة). إن استخدام ذاكرة التخزين المؤقت لمثل هذه الكلمات يجعل من الممكن جعل تعلم الآلة أكثر ديناميكية، مما يقلل من وقت البحث.

نماذج الجمع

هناك طريقة أخرى تتمثل في تقسيم قاعدة بيانات الكلام بأكملها إلى عدة مجموعات. لنمذجة نص جديد، يتم استخدام مجموعة خطية من نماذج المثلثات من مجموعات مختلفة:

حيث يتم تقييم pj() مقابل مجموعة النص jth.

النماذج الهيكلية

في هذه النماذج، بدلاً من التأثير على احتمالية الكلمة من خلال التاريخ السابق المباشر، يتم استخدام التحليل. بمساعدة هذا التحليل، يتم إنشاء اتصال بين الكلمات المحذوفة، والتي تم اقتراحها مؤخرا لأخذها في الاعتبار عند إنشاء Biggrams عن بعد.

5.6 الآفاق

والمجالات الرئيسية التي تتركز فيها الجهود حاليا هي:

اختيار القاموس

كيفية تحديد قاموس مجال الكلام الجديد، وتخصيص القاموس عمليًا للمستخدم، وزيادة تغطية النص إلى أقصى حد. هذه المشكلة هي الأكثر أهمية بالنسبة للغات التي تحتوي على عدد كبير من أشكال الكلمات واللغات الشرقية، حيث لم يتم تعريف مفهوم الكلمة بشكل واضح.

التكيف في مجال الكلام

هذه هي مهمة إعداد ML فعال للنطاقات التي لا تحتوي على كمية كبيرة من بيانات القاموس المتاحة للجهاز، بالإضافة إلى تحديد موضوع المحادثة. وهذا من شأنه أن يجعل من الممكن تطبيق نموذج موضوعي محدد للتعرف على الكلام.

استخدام بنية اللغة

المستوى الحالي لتقييم جودة تشغيل النظام لا يسمح بتحسين تشغيل النظام باستخدام بنية اللغة. قد يكون تطوير نموذج اللغة بناءً على بنية اللغة هو مفتاح التقدم في نمذجة اللغة. تعكس التطورات الحالية المبنية على النماذج الاحتمالية مرحلة الطفولة في تطور نمذجة اللغة. يرتبط التقدم هنا بزيادة هيكلة البيانات.

خاتمة

يناقش هذا البحث المبادئ الأساسية لبناء أنظمة التعرف على الكلام في مرحلة التطور الحالية وتصنيفها والمشكلات التي تحلها. تم النظر في النهج الحديث لحصانة الأنظمة من الضوضاء.

يتم عرض هيكل النظام، والمهام الرئيسية التي تحلها مكوناته، ومبادئ المعالجة الأولية لإشارة المصدر، وبناء النماذج الصوتية واللغوية.

وثائق مماثلة

    معالجة الإشارات الرقمية واستخدامها في أنظمة التعرف على الكلام، الإشارات المنفصلة وطرق تحويلها، أساسيات التصفية الرقمية. تنفيذ أنظمة التعرف على الكلام ومعالجة الكلام المتماثل وواجهة التسجيل والتشغيل.

    أطروحة، أضيفت في 06/10/2010

    مميزات القنوات الإذاعية انظمة حماية. الاتجاهات الرئيسية لترميز الكلام: تشفير الشكل الموجي وترميز المصدر. رسم تخطيطي لعملية معالجة الكلام في معيار GSM. تقييم جودة ترميز الكلام.

    الملخص، تمت إضافته في 20/10/2011

    المهام في الكلام ونقل البيانات. نقل الكلام الرقمي. فئات طرق ترميز الكلام الرقمي. التشفير الموجي. نوع السعة المميزة للضاغط. نموذج منفصل لإنتاج الكلام. مميزات طريقة التحليل قصير المدى.

    تمت إضافة الاختبار في 18/12/2010

    النظر في المراحل الرئيسية في حل مشكلة تحسين استقبال الإشارة. دراسة طرق تصفية الحلول وتحسينها. النهج الاحتمالي لتقييم استقبال الإشارة؛ تحديد احتمالية أخطاء التعرف. معايير الاعتراف ثابت.

    تمت إضافة العرض بتاريخ 28/01/2015

    تشفير الكلام RPE – LTP – 16 كيلوبت / ثانية. هيكل وحدة فك تشفير الكلام في معيار GSM. معاملات الانعكاس للتنبؤ قصير المدى باستخدام طريقة بيرج للترددات الراديوية من الرتبة الثامنة. الخصائص الطيفية للمرشح اللاحق. تشكيل مناطق الصياغة.

    الملخص، تمت إضافته في 15/11/2010

    الرسوم البيانية للمعالجة المتجانسة وتحليل إشارات الكلام. cepstrum معقدة من الكلام. مكون إشارة الكلام. فترة الملعب وتردد الصياغة. وحدة وظيفة نقل المسالك الصوتية. تقدير الملعب على أساس Cepstrum.

    الملخص، تمت إضافته في 19/11/2008

    التصنيف العامأنظمة وشبكات الوصول الراديوي. تصنيف أنظمة الوصول الراديوي حسب معلمات وخصائص الواجهة الراديوية. أنظمة الإرسال التناظرية والرقمية. خدمات الإرسال الرقميخطاب. التصنيف حسب المشاكل التطبيقية المطلوب حلها.

    الملخص، تمت إضافته في 10/06/2010

    حالة مشكلة التعرف التلقائي على الكلام. مراجعة أجهزة قراءة الإشارات الصوتية. بنية نظام التحكم في الأجهزة الطرفية. دائرة التحكم بالأجهزة الكهربائية. رسم تخطيطي لتوصيل الأجهزة الكهربائية.

    أطروحة، أضيفت في 18/10/2011

    خصائص المعلومات ومخطط كتلة نظام النقل؛ حساب معلمات المحول التناظري إلى الرقمي وإشارة الخرج. الترميز مع رمز التصحيح. تحديد خصائص المودم؛ مقارنة مناعة الضوضاء لأنظمة الاتصالات.

    تمت إضافة الدورة التدريبية في 28/05/2012

    هيكل أجهزة معالجة الإشارات الراديوية، الهيكل الداخلي ومبدأ التشغيل، خوارزميات معالجة الإشارات. أساس توليد الإشارة عند إخراج جهاز خطي. نماذج من الأجهزة الخطية. حساب معامل نقل المشغل للدائرة.

بيلينكو إم. 1، بالاكشين بي.في. 2

طالب واحد، جامعة ITMO، مرشحان العلوم التقنية، مساعد، جامعة ITMO

التحليل المقارن لأنظمة التعرف على الكلام مفتوحة المصدر

حاشية. ملاحظة

تقدم المقالة تحليلًا مقارنًا لأنظمة التعرف التلقائي على الكلام مفتوحة المصدر الأكثر شيوعًا. وخلال المقارنة، تم استخدام العديد من المعايير، بما في ذلك هياكل النظام، ولغات البرمجة المستخدمة في التنفيذ، ومدى توفر الوثائق التفصيلية، ولغات التعرف المدعومة، والقيود التي يفرضها الترخيص. كما تم إجراء تجارب على العديد من مجموعات الكلام لتحديد سرعة ودقة التعرف. ونتيجة لذلك، تم تطوير توصيات للاستخدام لكل نظام من الأنظمة التي تم النظر فيها مع إشارة إضافية إلى نطاق النشاط.

الكلمات الدالة:التعرف على الكلام، المقياس، معدل التعرف على الكلمات (WRR)، معدل خطأ الكلمات (WER)، عامل السرعة (SF)، مفتوح المصدر

بيلينكو إم. 1، بالاكشين بي.في. 2

1 طالب جامعة ITMO 2 دكتوراه في الهندسة مساعد جامعة ITMO

التحليل المقارن لأنظمة التعرف على الكلام ذات الكود المفتوح

خلاصة

توفر الورقة مقارنة بين أنظمة التعرف التلقائي على الكلام الأكثر شيوعًا مع التعليمات البرمجية مفتوحة المصدر. تم استخدام العديد من المعايير عند المقارنة، بما في ذلك هياكل النظام، ولغات برمجة التنفيذ، والوثائق التفصيلية، ولغات التعرف المدعومة، والقيود التي يفرضها الترخيص. كما تم إجراء تجارب على أسس الكلام المتعددة لتحديد سرعة ودقة التعرف. ونتيجة لذلك، تم تقديم التوصيات للتطبيق مع الإشارة الإضافية إلى نطاق النشاط لكل نظام من الأنظمة التي تم فحصها.

الكلمات الدالة:التعرف على الكلام، المقياس، معدل التعرف على الكلمات (WRR)، معدل أخطاء الكلمات (WER)، عامل السرعة (SF)، كود مفتوح المصدر

تُستخدم أنظمة التعرف على الكلام (أنظمة التعرف على الكلام تلقائيًا) بشكل أساسي لمحاكاة الاتصال بين شخص وآلة، على سبيل المثال، للتحكم الصوتي في البرامج. حاليًا، يتم استخدام التعرف على إشارات الكلام في مجموعة واسعة من الأنظمة - بدءًا من التطبيقات الموجودة على الهواتف الذكية وحتى أنظمة المنزل الذكي. دليل آخر على أهمية هذا المجال هو وجود العديد من مراكز البحث والتطوير حول العالم. ومع ذلك، فإن الغالبية العظمى من أنظمة التشغيل هي منتجات مملوكة، أي. لا يستطيع المستخدم أو المطور المحتمل الوصول إلى كود المصدر الخاص به. يؤثر هذا سلبًا على القدرة على دمج أنظمة التعرف على الكلام في المشاريع مفتوحة المصدر. لا يوجد أيضًا مصدر مركزي للبيانات يصف الجوانب الإيجابية والسلبية لأنظمة التعرف على الكلام مفتوحة المصدر. ونتيجة لذلك، تنشأ مشكلة الاختيار النظام الأمثلالتعرف على الكلام لحل المشكلة.

وكجزء من العمل، تم النظر في ستة أنظمة مفتوحة المصدر: CMU Sphinx، وHTK، وiAtros، وJulius، وKaldi، وRWTH ASR. يعتمد الاختيار على تكرار الذكر في المجلات البحثية المعاصرة، والتطورات الحالية في السنوات الأخيرة، والشهرة بين مطوري البرامج الفرديين. وتمت مقارنة الأنظمة المختارة من حيث مؤشرات مثل دقة التعرف وسرعته وسهولة الاستخدام والبنية الداخلية.

من حيث الدقة، تمت مقارنة الأنظمة باستخدام المقاييس الأكثر شيوعًا: معدل التعرف على الكلمات (WRR)، ومعدل خطأ الكلمات (WER)، والتي يتم حسابها باستخدام الصيغ التالية:

حيث S هو عدد عمليات استبدال الكلمات، و I هو عدد عمليات إدراج الكلمات، و D هو عدد عمليات إزالة الكلمات من عبارة معترف بها للحصول على العبارة الأصلية، و T هو عدد الكلمات في الأصل عبارة ويتم قياسها كنسبة مئوية. ومن حيث سرعة التعرف، تم إجراء المقارنة باستخدام عامل الوقت الحقيقي - وهو مؤشر لنسبة وقت التعرف إلى مدة الإشارة التي تم التعرف عليها، والمعروف أيضًا باسم عامل السرعة (SF). يمكن حساب هذا المؤشر باستخدام الصيغة:

حيث T ref هو وقت التعرف على الإشارة، وT هي مدتها ويتم قياسها بأجزاء من الوقت الحقيقي.

تم تدريب جميع الأنظمة باستخدام مجموعة الكلام WSJ1 (وول ستريت جورنال 1)، والتي تحتوي على ما يقرب من 160 ساعة من بيانات التدريب و10 ساعات من بيانات الاختبار، وهي مقتطفات من صحيفة وول ستريت جورنال. تتضمن مجموعة الكلام هذه تسجيلات للمتحدثين من كلا الجنسين باللغة الإنجليزية.

وبعد إجراء التجربة ومعالجة النتائج تم الحصول على الجدول التالي (الجدول 1).

الجدول 1 - نتائج المقارنة من حيث الدقة والسرعة

نظام ور،٪ نسبة العائد على الموارد، % سادس
HTK 19,8 80,2 1.4
جامعة كارنيجي ميلون أبو الهول

(أبو الهول/أبو الهول 4)

21.4/22.7 78.6/77.3 0.5/1
كالدي 6.5 93.5 0.6
يوليوس 23.1 76.9 1.3
iAtros 16.1 83.9 2 .1
RWTH ASR 15.5 84.5 3.8

يتم التأكد من دقة وصحة الدراسة من خلال حقيقة أن النتائج التي تم الحصول عليها مماثلة للنتائج التي تم الحصول عليها عند اختبار هذه الأنظمة على مجاميع الكلام الأخرى، مثل Verbmobil 1، Quaero، EPPS، .

وكانت معايير مقارنة الهياكل هي لغة تنفيذ النظام، والخوارزميات المستخدمة في التعرف، وتنسيقات بيانات الإدخال والإخراج، والبنية الداخلية لتنفيذ البرمجيات للنظام نفسه.

يمكن تمثيل عملية التعرف على الكلام بشكل عام في المراحل التالية:

  1. استخراج الخصائص الصوتية من إشارة الدخل.
  2. النمذجة الصوتية.
  3. نمذجة اللغة.
  4. فك التشفير.

يتم عرض الأساليب والخوارزميات وهياكل البيانات التي تستخدمها أنظمة التعرف على الكلام قيد النظر في كل مرحلة من المراحل المذكورة في الجداول (الجدولان 2 و3).

الجدول 2 - نتائج المقارنة بين الخوارزميات

نظام ميزة استخراج النمذجة الصوتية نمذجة اللغة تعرُّف
HTK MFCC همم ن جرام خوارزمية فيتيربي
جامعة كارنيجي ميلون أبو الهول MFCC، حزب العمال التقدمي همم N-جرام، FST خوارزمية فيتيربي، خوارزمية بوشديربي
كالدي MFCC، حزب العمال التقدمي هم، غم، سغم، دي إن إن FST، يوجد محول N-gramm->FST خوارزمية للأمام والخلف ثنائية المسار
يوليوس MFCC، حزب العمال التقدمي همم N-gramm، القائم على القواعد خوارزمية فيتيربي
iAtros MFCC هممم، جم N-جرام، FST خوارزمية فيتيربي
RWTH ASR MFCC، PLP، الصوت هممم، جم N-جرام، WFST خوارزمية فيتيربي

الجدول 3 - لغات تنفيذ النظام وبنيتها

نظام لغة بناء
HTK مع وحدات، في شكل المرافق
جامعة كارنيجي ميلون أبو الهول

(أبو الهول/أبو الهول 4)

ج/جافا وحدات
كالدي سي ++ وحدات
يوليوس ج وحدات
iAtros ج وحدات
RWTH ASR سي ++ وحدات

من وجهة نظر سهولة الاستخدام، تم النظر في مؤشرات مثل تفاصيل التوثيق، ودعم بيئات تنفيذ البرامج والأجهزة المختلفة، وقيود الترخيص، ودعم لغات التعرف الطبيعية المتعددة، وخصائص الواجهة. النتائج معروضة في الجداول التالية (الجداول 4، 5، 6، 7، 8).

الجدول 4 - توافر الوثائق

الجدول 5 - دعم أنظمة التشغيل المختلفة

نظام نظام التشغيل المدعوم
HTK لينكس، سولاريس، HPUX، IRIX، نظام التشغيل Mac، FreeBSD، ويندوز
جامعة كارنيجي ميلون أبو الهول

(أبو الهول/أبو الهول 4)

لينكس، ماك أو إس، ويندوز، أندرويد
كالدي لينكس، ويندوز، فري بي إس دي
يوليوس لينكس، ويندوز، فري بي إس دي، ماك أو إس
iAtros لينكس
RWTH ASR لينكس، ماك أو إس

الجدول 6 - واجهات النظام

الجدول 7 – لغات التعرف المدعومة

الجدول 8 – التراخيص

نظام رخصة
HTK HTK
جامعة كارنيجي ميلون أبو الهول

(أبو الهول/أبو الهول 4)

بي إس دي
كالدي أباتشي
يوليوس يشبه BSD
iAtros GPLv3
RWTH ASR RWTH ASR

بعد تحليل النتائج التي تم الحصول عليها أعلاه، من الممكن وصف كل نظام من الأنظمة قيد النظر ووضع توصيات لاستخدامها.

كالدي. هذا النظاميُظهر أفضل دقة التعرف على جميع الأنظمة المدروسة (WER = 6.5٪) وسرعة التعرف الثانية (SF = 0.6). من وجهة نظر الخوارزميات المتوفرة وهياكل البيانات المستخدمة للتعرف على الكلام، يعد هذا النظام أيضًا رائدًا، لأنه يوفر أكبر عددالأساليب الحديثة المستخدمة في مجال التعرف على الكلام، مثل استخدام الشبكات العصبية ونماذج الخليط الغوسي في مرحلة النمذجة الصوتية واستخدام آلات الحالة المحدودة في مرحلة النمذجة اللغوية. كما يتيح لك استخدام العديد من الخوارزميات لتقليل حجم ميزات الإشارة الصوتية، وبالتالي زيادة أداء النظام. تمت كتابة Kaldi بلغة برمجة C++، مما له تأثير إيجابي على سرعة النظام، وله بنية معيارية، مما يجعل من السهل إعادة هيكلة النظام وإضافة وظائف جديدة وتصحيح الأخطاء الموجودة. من حيث سهولة الاستخدام، يعد Kaldi أيضًا أحد الأنظمة الأولى. وهو يوفر وثائق مفصلة، ​​ولكنه يستهدف القراء ذوي الخبرة في التعرف على الكلام. قد يكون لهذا تأثير سلبي على استخدام هذا النظام من قبل الأشخاص الجدد في هذا المجال. إنه متعدد المنصات، أي أنه يعمل على معظم أنظمة التشغيل الحديثة. يوفر Kaldi واجهة وحدة تحكم فقط، مما يجعل التكامل مع تطبيقات الطرف الثالث أمرًا صعبًا. بشكل افتراضي، يدعم هذا النظام فقط اللغة الإنجليزية، يتم توزيعه بموجب ترخيص Apache مجاني تمامًا، أي أنه يمكن دمجه في منتج تجاري دون الكشف عن الكود الخاص به. يمكن استخدام هذا النظام بنجاح في الأنشطة البحثية، حيث يوفر دقة التعرف الجيدة، وسرعة التعرف المقبولة، وينفذ الكثير الأساليب الحديثةالتعرف على الكلام، يحتوي على العديد من الوصفات الجاهزة، مما يجعله سهل الاستخدام ويحتوي على وثائق شاملة.

جامعة كارنيجي ميلون أبو الهول. يُظهر نظام التعرف على الكلام دقة التعرف المتوسطة (WER~22%) وأفضل سرعة التعرف على جميع الأشخاص الذين تمت مراجعتهم (SF=0.5). تجدر الإشارة إلى أن أعلى سرعة التعرف يتم تحقيقها عند استخدام وحدة فك التشفير Pocketsphinx المكتوبة بلغة C، وتظهر وحدة فك التشفير sphinx4 سرعة تشغيل متوسطة جدًا (SF=1). من الناحية الهيكلية، يستخدم هذا النظام أيضًا العديد من الأساليب الحديثة للتعرف على الكلام، بما في ذلك خوارزمية فيتربي المعدلة، ولكن هناك أساليب أقل استخدامًا من كالدي. وعلى وجه الخصوص، في مرحلة النمذجة الصوتية، يعمل هذا النظام فقط مع نماذج ماركوف المخفية. يتضمن CMU Sphinx جهازي فك ترميز - Pocketsphinx، المطبق في لغة C، وsphinx4، المطبق في Java. يتيح ذلك استخدام النظام على منصات متعددة، بما في ذلك نظام التشغيل Android، ويسهل أيضًا التكامل في المشاريع المكتوبة بلغة Java. يحتوي هذا النظام على هيكل معياري له تأثير إيجابي على القدرة على إجراء التغييرات وتصحيح الأخطاء بسرعة. من حيث سهولة الاستخدام، تتفوق CMU Sphinx على Kaldi، لأنه بالإضافة إلى واجهة وحدة التحكم، فإنها توفر واجهة برمجة التطبيقات (API)، مما يبسط بشكل كبير عملية دمج النظام في تطبيق جهة خارجية. كما أن لديها وثائق مفصلة، ​​على عكس كالدي، تستهدف المطور المبتدئ، مما يبسط إلى حد كبير عملية التعرف على النظام. أيضًا نقطة قويةويدعم هذا النظام العديد من اللغات بشكل افتراضي، أي توفر النماذج اللغوية والصوتية لهذه اللغات بشكل مجاني. من بين اللغات المدعومة، بالإضافة إلى اللغة الإنجليزية القياسية، هناك أيضًا الروسية والكازاخستانية وعدد من اللغات الأخرى. يتم توزيع CMU Sphinx بموجب ترخيص BSD، والذي يسمح بدمجه في المشاريع التجارية. يمكن استخدام هذا النظام في المشاريع التجارية، فهو يتمتع بمعظم مزايا كالدي، على الرغم من أنه يوفر دقة تعرف أسوأ قليلاً، كما يوفر واجهة برمجة التطبيقات (API) التي يمكن استخدامها لبناء تطبيقات الطرف الثالث بناءً على هذا النظام.

HTK. ومن حيث الدقة والسرعة، أظهر هذا النظام نتائج متوسطة بين الأنظمة التي تمت مراجعتها (WER=19.8%, SF=1.4). يوفر HTK فقط الخوارزميات الكلاسيكية وهياكل البيانات في مجال التعرف على الكلام. ويرجع ذلك إلى حقيقة أن الإصدار السابق من النظام صدر في عام 2009. تم إصدار نسخة جديدة من HTK في نهاية ديسمبر 2015، ولكن لم يتم أخذها في الاعتبار في هذه الدراسة. يتم تنفيذ هذا النظام بلغة C، مما ينعكس بشكل جيد على سرعة التشغيل، حيث أن لغة C هي لغة برمجة منخفضة المستوى. هيكل هذا النظام عبارة عن مجموعة من الأدوات المساعدة التي يتم استدعاؤها من سطر الأوامر، ويوفر أيضًا واجهة برمجة التطبيقات (API) المعروفة باسم ATK. من حيث سهولة الاستخدام، يعد HTK، إلى جانب Julius، النظام الرائد بين الأنظمة التي تمت مراجعتها. كتوثيق، فإنه يوفر كتاب HTK، وهو كتاب يصف ليس فقط جوانب تشغيل HTK، ولكن أيضًا المبادئ العامة لأنظمة التعرف على الكلام. بشكل افتراضي، يدعم هذا النظام اللغة الإنجليزية فقط. يتم توزيعه بموجب ترخيص HTK، والذي يسمح بتوزيع كود مصدر النظام. يمكن التوصية بهذا النظام للاستخدام في الأنشطة التعليمية في مجال التعرف على الكلام. إنه يطبق معظم الأساليب الكلاسيكية لحل مشكلة التعرف على الكلام، ويحتوي على وثائق مفصلة للغاية تصف أيضًا المبادئ الأساسية للتعرف على الكلام بشكل عام، ويحتوي على العديد من البرامج التعليمية والوصفات.

يوليوس. يُظهر هذا النظام أسوأ معدل دقة (WER=23.1) ومتوسط ​​معدل التعرف (SF=1.3). يتم تنفيذ مراحل النمذجة الصوتية واللغوية باستخدام الأدوات المساعدة المضمنة في HTK، ولكن يتم فك التشفير باستخدام وحدة فك التشفير الخاصة به. وهو، مثل معظم الأنظمة التي تمت مناقشتها، يستخدم خوارزمية فيتربي. يتم تنفيذ هذا النظام بلغة C، وهيكل التنفيذ معياري. يوفر النظام واجهة وحدة تحكم وواجهة برمجة التطبيقات (API) للتكامل في تطبيقات الطرف الثالث. يتم تنفيذ التوثيق، كما هو الحال في HTK، في شكل كتاب يوليوس. افتراضيًا، يدعم Julius اللغتين الإنجليزية واليابانية. يتم توزيعها بموجب ترخيص يشبه BSD. يمكن أيضًا التوصية بنظام Julius للأنشطة التعليمية، لأنه يتمتع بجميع مزايا HTK، كما يوفر أيضًا القدرة على التعرف على مثل هذه لغة غريبةمثل اليابانية.

إياتروس. يُظهر هذا النظام نتيجة جيدة في دقة التعرف (WER=16.1%) ونتيجة متوسطة في السرعة (SF=2.1). إنها محدودة جدًا في قدراتها فيما يتعلق بالخوارزميات وهياكل البيانات المستخدمة في التعرف على الكلام، ولكنها توفر القدرة على استخدام نماذج الخليط الغاوسي كحالات لنموذج ماركوف المخفي في مرحلة النمذجة الصوتية. يتم تنفيذ هذا النظام بلغة C. وله هيكل وحدات. بالإضافة إلى وظيفة التعرف على الكلام، فهو يحتوي أيضًا على وحدة التعرف على النص. ليس لديها ذو اهمية قصوىومع ذلك، فهي بالنسبة لهذه الدراسة سمة مميزة لهذا النظام لا يمكن تجاهلها. من حيث سهولة الاستخدام، iAtros هو أدنى من جميع الأنظمة التي تم فحصها أثناء الدراسة. لا يحتوي هذا النظام على وثائق، ولا يوفر واجهة برمجة تطبيقات للتضمين في تطبيقات الطرف الثالث، واللغات الافتراضية المدعومة هي الإنجليزية والإسبانية. إنه ليس متعدد المنصات على الإطلاق، لأنه يعمل فقط ضمن أنظمة تشغيل عائلة Linux. يتم توزيعه بموجب ترخيص GPLv3، والذي لا يسمح بدمج هذا النظام في المشاريع التجارية دون الكشف عن كود المصدر الخاص بها، مما يجعله غير مناسب للاستخدام في نشاطات تجارية. يمكن استخدام نظام iAtros بنجاح حيث، بالإضافة إلى التعرف على الكلام، من الضروري أيضًا استخدام التعرف على الصور، لأن هذا النظام يوفر مثل هذه الفرصة.

RWTH ASR. من حيث دقة التعرف، يُظهر RWTH ASR نتيجة جيدة (WER=15.5%)، ولكن من حيث سرعة التعرف فهو أسوأ نظام بين الأنظمة التي تم أخذها في الاعتبار (SF=3.8). يمكن لهذا النظام، مثل iAtros، استخدام نماذج الخليط الغاوسي في مرحلة النمذجة الصوتية. سمة مميزةهي إمكانية استخدام الخصائص الصوتية عند استخراج الخصائص الصوتية لإشارة الدخل. كما يمكن لهذا النظام استخدام آلة الحالة الموزونة كنموذج لغوي خلال مرحلة نمذجة اللغة. تم تنفيذ هذا النظام بلغة C++ وله بنية معيارية. من حيث سهولة الاستخدام، فهو يأتي في المرتبة الثانية، فهو يحتوي على وثائق تصف فقط عملية التثبيت، والتي من الواضح أنها لا تكفي لبدء العمل مع النظام. يوفر واجهة وحدة تحكم فقط، افتراضيًا يدعم اللغة الإنجليزية فقط. النظام ليس متعدد المنصات بما فيه الكفاية، لأنه لا يمكن تشغيله تحت نظام التشغيل Windows، وهو أمر شائع جدًا في الوقت الحاضر. يتم توزيعه بموجب ترخيص RWTH ASR، والذي بموجبه يتم توفير رمز النظام للاستخدام غير التجاري فقط، مما يجعل هذا النظام غير مناسب للتكامل في المشاريع التجارية. يمكن استخدام هذا النظام لحل المشكلات التي تكون فيها دقة التعرف مهمة، ولكن الوقت ليس مهمًا. ومن الجدير بالذكر أيضًا أنه غير مناسب تمامًا لأي نشاط تجاري بسبب القيود التي يفرضها الترخيص.

قائمة المؤلفات / المراجع

  1. CMU أبو الهول ويكي [ الموارد الإلكترونية]. - عنوان URL: http://cmusphinx.sourceforge.net/wiki/ (تاريخ الوصول: 01/09/2017)
  2. Gaida C. مقارنة مجموعات أدوات التعرف على الكلام مفتوحة المصدر [مورد إلكتروني]. / جيم جيدا وآخرون. // التقرير الفني لمشروع الواحة. - الرابط: http://suendermann.com/su/pdf/oasis2014.pdf (تاريخ الوصول: 12/02/2017)
  3. المبتهج ح. استخدام ميزات الكثافات المحلية والإحصائيات ومجموعة أدوات HMM (HTK) للتعرف على النصوص المكتوبة بخط اليد العربية دون الاتصال بالإنترنت / ح. المبتهج، أ. هالي، ك. ساتوري // مجلة الأنظمة الكهربائية وتكنولوجيا المعلومات – 2016. – V 3. رقم 3. – ص 99-110.
  4. Jha M. تحسين نظام التعرف على الكلام غير الخاضع للرقابة باستخدام تكييف مكبر الصوت MLLR وقياس الثقة / M. Jha et al. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – ص 255-258.
  5. كالدي [المورد الإلكتروني]. – الرابط: http://kaldi-asr.org/doc (تاريخ الوصول: 19/12/2016)
  6. Luján-Mares M. iATROS: نظام التعرف على الكلام والكتابة اليدوية / M. Luján-Mares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla - 2008. - ص 75-58.
  7. العمرانية م.ي. بناء نموذج لغة أبو الهول في جامعة كارنيجي ميلون للقرآن الكريم باستخدام الصوتيات العربية المبسطة / م.ي. العمرانية، م.م. حفيظ الرحمنب، م.ر. وحيد الدين، عبد الشهب // مجلة المعلوماتية المصرية – 2016. – المجلد 17. العدد 3. – ص 305 – 314.
  8. Ogata K. تحليل التوقيت المفصلي بناءً على نموذج التراكب لتسلسلات VCV / K. Ogata, K. Nakaشيما // وقائع مؤتمر IEEE الدولي حول الأنظمة والإنسان وعلم التحكم الآلي - 2014. - إصدار يناير. – ص 3720-3725.
  9. سوندرماير نظام تقييم rwth 2010 quaero asr للغة الانجليزيةوالفرنسية والألمانية / M. Sundermeyer وآخرون. // وقائع المؤتمر الدولي للصوتيات ومعالجة الكلام والإشارات (ICASSP) – 2011. – ص 2212-2215.
  10. عليمورادوف أ.ك. طريقة تكيفية لزيادة فعالية التحكم الصوتي / أ.ك. عليمورادوف ، ب. تشوراكوف // وقائع المؤتمر العلمي والتقني الدولي “تقنيات المعلومات المتقدمة” – 2016. – ص 196-200.
  11. باكالينكو ضد. ذكاء إدخال/إخراج رمز البرنامج باستخدام تقنيات الكلام: ديس. ... ماجستير في الهندسة والتكنولوجيا . - دونتو، دونيتسك، 2016.
  12. بالكشين بي. أدوات التعرف على الكلام الخوارزمية والبرمجية بناءً على نماذج ماركوف المخفية لخدمات دعم العملاء عبر الهاتف: dis. ...كاند. تقنية. العلوم: 13/05/11: محمية 12/10/2015: تمت الموافقة عليها. 08/06/2016 / بالاكشين بافيل فاليريفيتش. – سانت بطرسبورغ: جامعة ITMO، 2014. – 127 ص.
  13. بالكشين بي. وظيفة الكثافة لمدة حالة SMM. المزايا والعيوب / P.V. بالكشين // المشكلات الحديثة للعلوم والتعليم. – 2011. – العدد 1. – ص36-39. عنوان URL: http://www.science-education.ru/ru/article/view?id=4574 (تاريخ الوصول: 13/11/2016).
  14. بيلينكو إم. التحليل المقارن لأنظمة التعرف على الكلام ذات الكود المفتوح / M.V. Belenko // مجموعة أعمال المؤتمر الخامس لعموم روسيا للعلماء الشباب. ت 2. – سانت بطرسبورغ: جامعة ITMO، 2016. – ص 45-49.
  15. جوسيف م. نظام التعرف على الكلام: النماذج والخوارزميات الأساسية / م.ن. جوسيف ، في.م. ديجتياريف. – سانت بطرسبرغ: زناك، 2013. – 128 ص.
  16. كاربوف أ. الأنظمة المساعدة متعددة الوسائط لمساحة المعيشة الذكية / أ.أ. كاربوف، ل. أكارون، أ.ل. رونزين // وقائع SPIIRAN. – 2011. – ر 19. – لا. 0. – ص 48-64.
  17. كاربوف أ. منهجية تقييم أداء أنظمة التعرف الآلي على الكلام / أ.أ. كاربوف، إ.س. كيبياتكوفا // أخبار العالي المؤسسات التعليمية. الأجهزة. – 2012. – ت. 55. – لا. 11. - ص 38-43.
  18. تامبل آي.بي. التعرف التلقائي على الكلام – المراحل الرئيسية على مدى 50 عامًا / I.B. تامبل // النشرة العلمية والتقنية تقنيات المعلوماتوالميكانيكا والبصريات. – 2015. – ت 15. – رقم 6. – ص 957-968.

قائمة المراجع باللغة الانجليزية /مراجع في إنجليزي

  1. جامعة كارنيجي ميلون أبو الهول ويكي. – عنوان URL: http://cmusphinx.sourceforge.net/wiki/ (تم الدخول: 01/09/2017).
  2. Gaida C. مقارنة مجموعات أدوات التعرف على الكلام مفتوحة المصدر. / جيم جيدا وآخرون. // التقرير الفني لمشروع الواحة. – الرابط: http://suendermann.com/su/pdf/oasis2014.pdf (الدخول: 02.12.2017)
  3. المبهر، ح. استخدام ميزات الكثافات المحلية والإحصائيات ومجموعة أدوات HMM (HTK) للتعرف على النصوص المكتوبة بخط اليد باللغة العربية دون اتصال بالإنترنت / ح. المبهر، أ. هالي، ك. ساتوري // مجلة الأنظمة الكهربائية وتكنولوجيا المعلومات – 2016. – خامسا 3. رقم 3. – ص 99-110.
  4. Jha، M. تحسين نظام التعرف على الكلام غير الخاضع للرقابة باستخدام تكييف مكبر الصوت MLLR وقياس الثقة / M. Jha et al. // V Jornadas en Tecnologıas del Habla (VJTH’2008) – 2008. – ص 255-258.
  5. كالدي. – الرابط: http://kaldi-asr.org/doc (الدخول: 19/12/2016)
  6. Luján-Mares, M. iATROS: نظام التعرف على الكلام والكتابة اليدوية / M. Luján-Mares, V. Tamarit, V. Alabau et al. // V Journadas en Technologia del Habla - 2008. - ص 75-58.
  7. العمرانية، م.ي. بناء نموذج لغة أبو الهول في جامعة كارنيجي ميلون للقرآن الكريم باستخدام الصوتيات العربية المبسطة / م.ي. العمرانية، م.م. حفيظ الرحمنب، م.ر. وحيد الدين، عبد الشهب // مجلة المعلوماتية المصرية – 2016. – المجلد 17. العدد 3. – ص 305 – 314.
  8. Ogata, K. تحليل التوقيت المفصلي بناءً على نموذج التراكب لتسلسلات VCV / K. Ogata, K. Nakaشيما // وقائع مؤتمر IEEE الدولي حول الأنظمة والإنسان وعلم التحكم الآلي - 2014. - إصدار يناير. – ص 3720-3725.
  9. Sundermeyer، M. نظام تقييم rwth 2010 quaero asr للغة الإنجليزية والفرنسية والألمانية / M. Sundermeyer et al. // وقائع المؤتمر الدولي للصوتيات ومعالجة الكلام والإشارات (ICASSP) – 2011. – ص 2212-2215.
  10. عليمورادوف أ.ك. ADAPTIVNYJ METOD POVYSHENIJa JeFFFEKTIVNOSTI GOLOSOVOGO UPRAVLENIJa / A.K. عليمورادوف ، ب. Churakov // Trudy Mezhdunarodnoj nauchno-tehnicheskoj konferencii "Perspektivnye informacionnye tehnologii". – 2016. – ص196-200.
  11. باكالينكو ضد. برنامج Intellektualizatsiya vvoda-vyivoda koda Programmyi s pomoschyu rechevyih tehnologiy: dis. ...ماجستير في الهندسة والتكنولوجيا. - دونتو، دونيتسك، 2016.
  12. بالكشين بي. الخوارزميات والبرامج الخاصة بإعادة بناء الموارد على أساس نموذجي skryityih markovskih dlya telefonnyih sluzhb podderzhki klientov: dis. ... دكتوراه في الهندسة: 13/05/11: الدفاع عن الأطروحة 12/10/2015: تمت الموافقة عليها في 06/08/2016 / بالاكشين بافيل فاليريفيتش. – SPb.: جامعة ITMO، 2014. – 127 ص.
  13. بالكشين بي. FUNKCIJa PLOTNOSTI DLITEL’NOSTI SOSTOJaNIJ SMM. PREIMUShhESTVA I NEDOSTATKI / P.V. Balakshin // Sovremennye مشكلة nauki i obrazovanija. – 2011. – العدد 1. – ص36-39. عنوان URL: http://www.science-education.ru/ru/article/view?id=4574 (تم الوصول إليه في: 13/11/2016).
  14. بيلينكو إم. SRAVNITELNYY ANALIZ SISTEM RASPOZNAVANIYA RECHI S OTKRYTYM KODOM / M.V. Belenko // Sbornik trudov V Vserossiyskogo kongressa molodyih uchenyih. V.2.- SPb.: جامعة ITMO، 2016. ص 45-49.
  15. جوسيف م. نظام البحث المتغير: نماذج محسّنة وخوارزميات / M.N. جوسيف ف.م. ديجتياريف. – SPb.: زناك، 2013. – 141 ص.
  16. كاربوف أ. أنظمة المساعدة المتعددة الوسائط ذات القدرات الفكرية العالية / أ.أ. كاربوف، ل. أكارون، أ.ل. رونزين // ترودي سبيران. – 2011. – الخامس 19. – لا. 0. – ص 48-64.
  17. كاربوف أ. Metodologiya otsenivaniya rabotyi sistem avtomaticheskogo raspoznavaniya rechi / A.A. كاربوف، إ.س. كيبياتكوفا // إزفستيا vyishshih uchebnyih zavedeniy. بريبوروسترويني. – 2012. – خامسا 55. – لا. 11. – ص38-43.
  18. تامبل آي.بي. Avtomaticheskoe raspoznavanie rechi – osnovnyie etapyi za 50 Let / I.B. تامبل // Nauchno-Tehnicheskii Vestnik Informatsionnykh Tekhnologii، Mekhaniki i Optiki. – 2015. – المجلد 15. – العدد 6. – ص 957-968.

عندما نستمع إلى شخص يتحدث، تقوم أذننا الداخلية بتحليل طيف تردد الصوت ويدرك الدماغ الكلمة. يمكن لبعض أجهزة الكمبيوتر محاكاة هذه العملية باستخدام محلل الطيف.

تدخل الإشارات الصوتية إلى المحلل من خلال الميكروفون، ويتم تحليل خصائصها الطيفية. يقوم الكمبيوتر بعد ذلك بمقارنة الإشارات المستقبلة مع قائمة مبرمجة من الصوتيات، أو وحدات البناء الصوتية. تتم مقارنة الإشارات قصيرة المدى بأنماط الكلمات القياسية وترتبط بقواعد اللغة وبناء الجملة.

تساعد هذه العملية الكمبيوتر على التعرف على الكلمات المنطوقة. إذا كان البرنامج متطورًا بدرجة كافية، فيمكنه أيضًا أن يحدد من السياق ما إذا كانت كلمة "فاكهة" أو "طوف" قد تم نطقها. ولكن ما إذا كان الكمبيوتر يستطيع حقًا فهم الكلام بالطريقة التي يفهمها البشر يظل موضوعًا محل نقاش ساخن حتى يومنا هذا. يمكنك برمجة جهاز الكمبيوتر الخاص بك للرد على مجموعات معينةالكلمات، ولكن هل سيحل هذا محل الفهم الحقيقي؟ بعض الخبراء في هذا المجال الذكاء الاصطناعيإنهم يعتقدون أنه في غضون بضعة عقود سيكون الكمبيوتر قادرًا على إجراء محادثة غير رسمية ذات صلة مع شخص ما. ومع ذلك، فإن العديد من الخبراء مقتنعون بأن الكمبيوتر سيكون دائمًا مقيدًا بالبرنامج والإجابات المجمعة مسبقًا.

التعرف على الصوت

يتم تقسيم الأصوات المنطوقة لأكثر من بضع ثوان إلى مقاطع زمنية أقصر. ثم يقوم الكمبيوتر بتحليل مكونات التردد لكل مقطع.

التحليل الصوتي

يمثل مطياف الصوت طيف الصوت في شكل مرئي. مع طريقة واحدة للتحليل، سلسلة طبيعية من الأصوات صوت الإنسانيتم تقسيمها إلى أجزاء، مرمزة بالألوان للإشارة إلى قوة وتكرار مكوناتها. الرسوم البيانية ثلاثية الأبعاد، مثل تلك المذكورة أعلاه، تصور طريقة أخرى لتصور مثل هذه المعلومات.

صناعة القرار

واستنادا إلى نتائج التحليل، يقرر الكمبيوتر ما إذا كان كلمة معينة. يقوم الكمبيوتر بمقارنة التحليل المسجل مع قائمة من المرشحين المحتملين، ثم يطبق القواعد المعجمية والنحوية لتحديد ما إذا كان صوت معين يطابق كلمة معينة.

أنماط الكلام القياسية

يتم تعريف أصغر وحدات الكلام من حيث طيف التردد. تشير أنماط الكلام القياسية إلى الوحدة الموجودة في كلمة معينة.

يقوم مطياف الصوت (أعلاه) بإجراء تحليل صوتي للأصوات في الكلمات المنطوقة. هنا تتم مقارنة صوت حرف العلة (أعلى اليسار) مع طيف حرف العلة (أسفل).

تتسبب الموجات الصوتية في اهتزاز طبلة الأذن. وينتقل هذا الاهتزاز إلى عدة عظام صغيرة ويتحول إلى إشارات كهربائية تنتقل إلى الدماغ.