التعرف على حروف العلة لتقييم تأهيل مرضى اضطراب الكلام عبر صور الطيف الترددي متعدد المصادر


  • Nur Syahmina Ahmad Azhar كلية التكنولوجيا والإلكترونيات وهندسة الحاسوب، جامعة ملقا التقنية الماليزية، ماليزيا.
  • Nik Mohd Zarifie Hashim كلية التكنولوجيا والإلكترونيات وهندسة الحاسوب، جامعة ملقا التقنية الماليزية، ماليزيا.
  • Masrullizam Mat Ibrahim كلية التكنولوجيا والإلكترونيات وهندسة الحاسوب، جامعة ملقا التقنية الماليزية، ماليزيا.
  • Mahmud Dwi Sulistiyo كلية الحاسبات، جامعة تيلكوم، جاوة الغربية، إندونيسيا.



الكلمات المفتاحية:

شبكة عصبية ملتوية (CNN)، التعلم العميق، معامل ميل التردد الرأسي MFCC))، إعادة التأهيل، الطيف، التعرف على حروف العلة


هناك مجموعة واسعة من الأسباب الطبية لضعف الاتصال ، مثل اضطرابات الكلام ، وفقدان السمع ، وإصابات الدماغ ، والسكتة الدماغية ، والإعاقات الجسدية. نتيجة لذلك ، يمكن أن يؤثر اضطراب التواصل مدى الحياة على التنمية الاجتماعية والعلاقة الشخصية. يمكن أن تستفيد اضطرابات النطق من علاجات النطق المبكرة ؛ ومع ذلك ، لا تزال غالبية مرافق إعادة التأهيل في جميع أنحاء العالم تنفذ هذه العملية يدويًا. من وجهة نظر عالمية ، تم إجراء مجموعة واسعة من الدراسات حول معالجة الكلام لمختلف اللغات البشرية. نظرًا لأن رؤية الكمبيوتر قد أثرت على هذا المجال ، فقد تم تطبيق التعلم الآلي والتعلم العميق في الصناعة الطبية والرعاية الصحية لتعزيز إعادة التأهيل من خلال استخدام التكنولوجيا الجديدة. حللت هذه الدراسة دقة تصنيف الشبكة المصممة والنماذج الأخرى المدربة مسبقًا (VGG-Net و AlexNet و Inception) وأجرت تحليلًا مقارنًا كاملًا لتقييم دقة التصنيف للعديد من النماذج المدربة مسبقًا. في هذا العمل المقترح ، لإنجاز مهمة التصنيف هذه ، يتم تحويل الصوت لاحقًا إلى الصورة كطريقة جديدة لرؤيتها في الشبكة العصبية عبر مفهوم مقترح حديثًا يسمى بيانات ملف تعريف الصورة. أنتجت مجموعات البيانات التي تم تصنيفها عن طريق الصور والتي استخدمت مخططًا طيفيًا ومعامل تردد ميل التردد (MFCC) أفضل نتائج هذه الدراسة ودقتها. يهدف هذا المشروع إلى تطوير شبكة عصبية جديدة يمكنها التمييز بنجاح بين أحرف العلة من أصوات الأشخاص العاديين والمرضى الذين يعانون من اضطرابات الكلام والمزيج من المجموعتين السابقتين باستخدام الفئتين الستة والثاني عشر من حروف العلة الملايو. وفقًا للبيانات التجريبية التي تم إجراؤها ، ونموذج الشبكة المصمم ، والذي استخدم 6 أحجام دفعات ، و 20 حقبة ، و ADAM كمحسِّن ، قدم هذا المشروع وحقق قيم الدقة القصوى لكلا الفئتين لبيانات الصوت الخاصة بالصور في جميع التحليلات التي تم إجراؤها.


