The Effect Of Optimizers On The Generalizability Additive Neural Attention For Customer Support Twitter Dataset In Chatbot Application

Sinarwati Mohamad Suhaili; Naomie Salim; Mohamad Nazim Jambli

doi:10.21123/bsj.2024.9743

PDF (الإنجليزية)

منشور: Feb 25, 2024

DOI: https://doi.org/10.21123/bsj.2024.9743

الكلمات المفتاحية:

ADAM، ADAMW، Chatbot القائم على الشبكة العصبية، Optimizer، SGD

Sinarwati Mohamad Suhaili

كلية الحاسبات، الجامعة التكنولوجية الماليزية، 81310، سكوداي، جوهور، ماليزيا و مركز ما قبل الجامعة، جامعة ماليزيا ساراواك، 94300 كوتا ساماراهان، ساراواك، ماليزيا.

https://orcid.org/0000-0002-3354-9679

Naomie Salim

كلية الحاسبات، الجامعة التكنولوجية الماليزية، 81310، سكوداي، جوهور، ماليزيا.

Mohamad Nazim Jambli

كلية علوم الكمبيوتر وتكنولوجيا المعلومات، جامعة ماليزيا ساراواك، كوتا ساماراهان، ساراواك، ماليزيا.

https://orcid.org/0000-0002-2117-5964

الملخص

عند تحسين أداء روبوتات الدردشة القائمة على الشبكة العصبية، يعد تحديد المحسن أحد أهم الجوانب. يتحكم المحسنون بشكل أساسي في تعديل معلمات النموذج مثل الوزن والتحيز لتقليل وظيفة الخسارة أثناء التدريب. أصبحت أدوات التحسين التكيفية مثل ADAM خيارًا قياسيًا وتستخدم على نطاق واسع لأحجام تحديثات المعلمات الثابتة الخاصة بها فيما يتعلق بتغيرات مقياس التدرج، ولكنها غالبًا ما تطرح مشاكل تعميم. وبدلاً من ذلك، يقدم مؤشر الهبوط التدرج العشوائي (SGD) مع الزخم وامتداد ADAM، ADAMW، العديد من المزايا تهدف هذه الدراسة إلى مقارنة وفحص تأثيرات هذه المُحسِّنات على مجموعة بيانات chatbot CST. يتم تقييم فعالية كل محسن بناءً على خسارته الفئوية المتفرقة أثناء التدريب وBLEU في مرحلة الاستدلال، وذلك باستخدام وظيفة تسجيل مضافة تعتمد على الاهتمام التوليدي العصبي. على الرغم من قيود الذاكرة التي حددت ADAMW بعشر فترات، أظهر هذا المحسن نتائج واعدة مقارنة بالتكوينات التي تستخدم تقنيات الإيقاف المبكر. قدمت SGD درجات BLEU أعلى للتعميم ولكنها كانت تستغرق وقتًا طويلاً للغاية. تسلط النتائج الضوء على أهمية إيجاد توازن بين أداء التحسين والكفاءة الحسابية، مما يضع ADAMW كبديل واعد عندما تكون كفاءة التدريب والتعميم هي الاهتمامات الأساسية

Received 29/09/2023

Revised 10/02/2024

Accepted 12/02/2024

Published 25/02/2024

كيفية الاقتباس

تأثير المُحسِّنات على قابلية التعميم للانتباه العصبي الإضافي لمجموعة بيانات تويتر لدعم العملاء في تطبيق Chatbot. Baghdad Sci.J [انترنت]. 25 فبراير، 2024 [وثق 19 ديسمبر، 2024];21(2(SI):0655. موجود في: https://bsj.uobaghdad.edu.iq/index.php/BSJ/article/view/9743

إصدار

مجلد 21 عدد 2(SI) (2024): 2(Special Issue) ICAC2023/PARS2023

القسم

article

هذا العمل مرخص بموجب Creative Commons Attribution 4.0 International License.

كيفية الاقتباس

تنزيل الاقتباسات

المراجع

Goodfellow I, Bengio Y, Courville A. Deep Learning. MIT Press; 2016.[cited 2023 Oct 13]. http://www.deeplearningbook.org.

Gupta M, Rajnish K, Bhattacharjee V. Impact of parameter tuning for optimizing deep neural network models for predicting software faults. Sci Program. 2021;1–17.https://doi.org/10.1155/2021/6662932.

Sulayman N. Deep Learning-based Predictive Model of mRNA Vaccine Deterioration: An Analysis of the Stanford COVID-19 mRNA Vaccine Dataset. Baghdad Sci. J . 2023;20(4(SI):1451-8. https://doi.org/10.21123/bsj.2023.8504.

Zhou P, Feng J, Ma C, et al. Towards theoretically understanding why sgd generalizes better than adam in deep learning. Adv Neural Inf Process Syst. 2020;33:21285–21296.

Wotaifi TA, Dhannoon BN. An Effective Hybrid Deep Neural Network for Arabic Fake News Detection. Baghdad Sci. J . 2023;20(4):1392. https://doi.org/10.21123/bsj.2023.7427.

Aggarwal CC. Neural networks and deep learning: A textbook. 2nd ed. Springer International Publishing; 2023. https://doi.org/10.1007/978-3-031-29642-0

Abadi M, Barham P, Chen J, et al. TensorFlow: A system for large-scale machine learning. 2016.

Mou L, Jin Z. Tree-Based Convolutional Neural Networks: Principles and Applications. 1st ed. Springer Publishing Company, Incorporated; 2018. https://doi.org/10.1007/978-981-13-1870-2

Tian Y, Zhang Y, Zhang H. Recent Advances in Stochastic Gradient Descent in Deep Learning. Mathematics. 2023;11(3):682. http://dx.doi.org/10.3390/math11030682.

Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks. In: Teh YW, Titterington DM, editors. AISTATS, JMLR Proceedings, vol. 9; 2010. p. 249–256.

المؤلفات المشابهة

Maha Kadhim Salman, تقدير دواء كبريتات السالبيتيمول بطريقة طيفية في المادة النقية وفي المستحضرات الصيدلانية , مجلة بغداد للعلوم: مجلد 7 عدد 1 (2010): issue 1
Yousif Abdul Raheem, Selwa Elias Yacoub, Wijdan Akram, اعتماد الفروقات مابين الجنسين طريقة منهجية في دراسة عوامل الخطورة للإصابة بأمراض القلب والأوعية الدموية لدى المرضى المصابين بداء السكري , مجلة بغداد للعلوم: مجلد 7 عدد 1 (2010): issue 1
Ibtisam J. Sodani, Basima M. Al-Juboori , التغيرات النمائية الجنينية في مناسل ذكور الفئران المرافقة لاستهلاك الرصاص , مجلة بغداد للعلوم: مجلد 7 عدد 1 (2010): issue 1
Bushra Q. Al-Abudi, Mohammed S. Mahdi, التحقق من هوية المتكلم باستخدام التكميم الاتجاهي , مجلة بغداد للعلوم: مجلد 6 عدد 4 (2009): issue 4
Neamat J. Al-Judy, استخدام مؤشرات بصمة الدنا المتضاعف DAF (DNA Amplification Fingerprint) في دراسة التنوع الوراثي للرز Oryza sativa L. , مجلة بغداد للعلوم: مجلد 6 عدد 1 (2009): issue 1
G. Kumaravel, S. Kirthiga, Mohammed Mahmood Hamed Al Shekaili, Qais Hamed Saif Abdullah AL Othmani, نموذج لمراقبة أداء الطاقة الشمسية الكهروضوئية والتنبؤ الإحصائي باستخدام الشبكة العصبية متعددة الطبقات والذكاء الاصطناعي , مجلة بغداد للعلوم: مجلد 21 عدد 5(SI) (2024): 5(Special Issue) ICCDA2023
Suresh Rasappan, Regan Murugesan, Sathish Kumar Kumaravel, Kala Raja Mohan, Nagadevi Bala Nagaram, تحليل كفاءة طريقة جديدة لتشفير الصور بناء على تحويلات أبوده , مجلة بغداد للعلوم: مجلد 21 عدد 5(SI) (2024): 5(Special Issue) ICCDA2023
Islam Nahedh Alabdoo, Mehmet Ali Yalçınkaya, التحقق من البشر بواسطة تبني شبكة تعلم عميق لصور بصمات الاصابع , مجلة بغداد للعلوم: مجلد 21 عدد 5(SI) (2024): 5(Special Issue) ICCDA2023
M. Jalasri, S. Manikandan, Arthur Davis Nicholas, S. Gobimohan, Naarisetti Srinivasa Rao, تجميع البيانات الهجين الأمثل لأجهزة الحوسبة الضبابية في إنترنت الأشياء , مجلة بغداد للعلوم: مجلد 21 عدد 5(SI) (2024): 5(Special Issue) ICCDA2023
Hidayath Ali Baig, إطار عمل للحفاظ على الخصوصية قائم على تشفير الأعمدة لمجموعات بيانات Hadoop الكبيرة , مجلة بغداد للعلوم: مجلد 21 عدد 5(SI) (2024): 5(Special Issue) ICCDA2023

يمكنك أيضاً إبدأ بحثاً متقدماً عن المشابهات لهذا المؤلَّف.

CS-IF

2.0

CiteScore

1.2

Impact Factor

إنشاء طلب نشر

issn

P-ISSN: 2078-8665 | E-ISSN: 2411-7986

journalindexing

Journal Indexing
SCOPUS
Directory of Open Access Journals DOAJ
Library of Congress
Iraqi Academic Scientific Journal
Open Access Scholarly Publishers Association (OASPA)
SNIP (Source Normalized Impact Per Paper)

journalinfo

Journal Info
Journal: Baghdad Science Journal
Publisher: College of Science for Women/ University of Baghdad
Baghdad Sci. J. is peer-reviewed and open access
Print ISSN: 2078-8665
Electronic ISSN: 2411-7986
Publishing Frequency: Quarterly (from 2004 - 2021) Bi-monthly (from 2022) Monthly (from 2024)
Launched Date: 2004
Abbreviation: Baghdad Sci.J.
Each published paper in Baghdad Sci. J. has a digital object identifier (DOI) number

اللغة

scopus

1.3

2022CiteScore

50th percentile

ca

cope

sjr

locongress

clockss

Ithenticate

Sherpa Romeo

crossref

WHO

sci journal

uob digital repository

Scilit

cc

© 2022 The Author(s). Published by College of Science for Women, University of Baghdad. This is an Open Access article distributed under the terms of the Creative Commons Attribution 4.0 International License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

الشريط الجانبي للمقالة

محتوى المقالة الرئيسي

الملخص

تفاصيل المقالة

كيفية الاقتباس

المراجع

المؤلفات المشابهة