تأثير المُحسِّنات على قابلية التعميم للانتباه العصبي الإضافي لمجموعة بيانات تويتر لدعم العملاء في تطبيق Chatbot

محتوى المقالة الرئيسي

Sinarwati Mohamad Suhaili
https://orcid.org/0000-0002-3354-9679
Naomie Salim
Mohamad Nazim Jambli
https://orcid.org/0000-0002-2117-5964

الملخص

عند تحسين أداء روبوتات الدردشة القائمة على الشبكة العصبية، يعد تحديد المحسن أحد أهم الجوانب. يتحكم المحسنون بشكل أساسي في تعديل معلمات النموذج مثل الوزن والتحيز لتقليل وظيفة الخسارة أثناء التدريب. أصبحت أدوات التحسين التكيفية مثل ADAM خيارًا قياسيًا وتستخدم على نطاق واسع لأحجام تحديثات المعلمات الثابتة الخاصة بها فيما يتعلق بتغيرات مقياس التدرج، ولكنها غالبًا ما تطرح مشاكل تعميم. وبدلاً من ذلك، يقدم مؤشر الهبوط التدرج العشوائي (SGD) مع الزخم وامتداد ADAM، ADAMW، العديد من المزايا تهدف هذه الدراسة إلى مقارنة وفحص تأثيرات هذه المُحسِّنات على مجموعة بيانات chatbot CST. يتم تقييم فعالية كل محسن بناءً على خسارته الفئوية المتفرقة أثناء التدريب وBLEU في مرحلة الاستدلال، وذلك باستخدام وظيفة تسجيل مضافة تعتمد على الاهتمام التوليدي العصبي. على الرغم من قيود الذاكرة التي حددت ADAMW بعشر فترات، أظهر هذا المحسن نتائج واعدة مقارنة بالتكوينات التي تستخدم تقنيات الإيقاف المبكر. قدمت SGD درجات BLEU أعلى للتعميم ولكنها كانت تستغرق وقتًا طويلاً للغاية. تسلط النتائج الضوء على أهمية إيجاد توازن بين أداء التحسين والكفاءة الحسابية، مما يضع ADAMW كبديل واعد عندما تكون كفاءة التدريب والتعميم هي الاهتمامات الأساسية

تفاصيل المقالة

كيفية الاقتباس
1.
تأثير المُحسِّنات على قابلية التعميم للانتباه العصبي الإضافي لمجموعة بيانات تويتر لدعم العملاء في تطبيق Chatbot. Baghdad Sci.J [انترنت]. 25 فبراير، 2024 [وثق 20 مايو، 2024];21(2(SI):0655. موجود في: https://bsj.uobaghdad.edu.iq/index.php/BSJ/article/view/9743
القسم
article

كيفية الاقتباس

1.
تأثير المُحسِّنات على قابلية التعميم للانتباه العصبي الإضافي لمجموعة بيانات تويتر لدعم العملاء في تطبيق Chatbot. Baghdad Sci.J [انترنت]. 25 فبراير، 2024 [وثق 20 مايو، 2024];21(2(SI):0655. موجود في: https://bsj.uobaghdad.edu.iq/index.php/BSJ/article/view/9743

المراجع

Goodfellow I, Bengio Y, Courville A. Deep Learning. MIT Press; 2016.[cited 2023 Oct 13]. http://www.deeplearningbook.org.

Gupta M, Rajnish K, Bhattacharjee V. Impact of parameter tuning for optimizing deep neural network models for predicting software faults. Sci Program. 2021;1–17.https://doi.org/10.1155/2021/6662932.

Sulayman N. Deep Learning-based Predictive Model of mRNA Vaccine Deterioration: An Analysis of the Stanford COVID-19 mRNA Vaccine Dataset. Baghdad Sci. J . 2023;20(4(SI):1451-8. https://doi.org/10.21123/bsj.2023.8504.

Zhou P, Feng J, Ma C, et al. Towards theoretically understanding why sgd generalizes better than adam in deep learning. Adv Neural Inf Process Syst. 2020;33:21285–21296.

Wotaifi TA, Dhannoon BN. An Effective Hybrid Deep Neural Network for Arabic Fake News Detection. Baghdad Sci. J . 2023;20(4):1392. https://doi.org/10.21123/bsj.2023.7427.

Aggarwal CC. Neural networks and deep learning: A textbook. 2nd ed. Springer International Publishing; 2023. https://doi.org/10.1007/978-3-031-29642-0

Abadi M, Barham P, Chen J, et al. TensorFlow: A system for large-scale machine learning. 2016.

Mou L, Jin Z. Tree-Based Convolutional Neural Networks: Principles and Applications. 1st ed. Springer Publishing Company, Incorporated; 2018. https://doi.org/10.1007/978-981-13-1870-2

Tian Y, Zhang Y, Zhang H. Recent Advances in Stochastic Gradient Descent in Deep Learning. Mathematics. 2023;11(3):682. http://dx.doi.org/10.3390/math11030682.

Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks. In: Teh YW, Titterington DM, editors. AISTATS, JMLR Proceedings, vol. 9; 2010. p. 249–256.

المؤلفات المشابهة

يمكنك أيضاً إبدأ بحثاً متقدماً عن المشابهات لهذا المؤلَّف.