TÍCH HỢP YẾU TỐ CẢM XÚC VÀO NGỮ CẢNH TRONG HỆ THỐNG HỘI THOẠI ĐA PHƯƠNG THỨC

Lê Nguyễn Thuỳ Dương, Lê Ngọc Tuấn, Nguyễn Hồng Bửu Long

Tóm tắt


 

Hệ thống hội thoại thuần văn bản sử dụng hướng tiếp cận seq2seq đã xuất hiện nhiều trong các công trình nghiên cứu những năm qua. Tuy nhiên, ngoài việc hội thoại hoàn toàn bằng văn bản thì hình ảnh và cảm xúc cũng là những yếu tố quan trọng. Năm 2021, Zheng và các cộng sự (Zheng et al., 2021) đã đưa ra mô hình cơ sở MOD, mô hình có thể đối thoại bằng văn bản, hình ảnh và có thể phân loại cảm xúc. MOD đã tận dụng thành công sức mạnh của mô hình ngôn ngữ lớn, tuy nhiên ngữ cảnh đầu vào không tận dụng được yếu tố cảm xúc. Vì vậy, chúng tôi thực hiện cải tiến mô hình MOD bằng cách bổ sung sự ràng buộc của yếu tố cảm xúc đối với hai yếu tố còn lại (văn bản, hình ảnh) nhằm mục đích tăng chất lượng thông tin trong ngữ cảnh. Ngoài ra, chúng tôi cũng thực hiện khảo sát hiệu quả khi thêm đặc trưng ảnh được trích xuất từ mạng CNN, nhằm tăng chất lượng đặc trưng ảnh cho ngữ cảnh đầu vào. Thực nghiệm thu được kết quả là tăng 0,19 điểm BLEU-4 và giảm 4,6 ở độ đo Perplexity so với MOD,  kết quả cho thấy mô hình cải tiến hoạt động hiệu quả hơn khi có thêm sự ràng buộc của yếu tố cảm xúc trong ngữ cảnh.

 


Từ khóa


hệ thống hội thoại đa phương thức; học đa tác vụ; mô hình ngôn ngữ lớn; ràng buộc ngữ cảnh; yếu tố cảm xúc

Toàn văn:

PDF

Trích dẫn


Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones,… Illia Polosukhin. (2017). Attention is all you need. In Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS'17). Curran Associates Inc., Red Hook, NY, USA, 6000-6010.

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P.,... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, (33), 1877-1901.

Fei, Z., Li, Z., Zhang, J., Feng, Y., & Zhou, J. (2021). Towards Expressive Communication with Internet Memes: A New Multimodal Conversation Dataset and Benchmark. ArXiv, abs/2109.01839.

Weidong He, Zhi Li, Dongcai Lu, Enhong Chen, Tong Xu, Baoxing Huai, & Jing Yuan. (2020). Multimodal Dialogue Systems via Capturing Context-aware Dependencies of Semantic Elements. In Proceedings of the 28th ACM International Conference on Multimedia (MM '20). Association for Computing Machinery, New York, NY, USA, 2755-2764. https://doi.org/10.1145/3394171.3413679

Li, J., Galley, M., Brockett, C., Gao, J., & Dolan, B. (2015). A diversity-promoting objective function for neural conversation models. arXiv preprint arXiv:1510.03055.

Loshchilov, I., & Hutter, F. (2017). Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101.

Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners.

Saha, A., Khapra, M., & Sankaranarayanan, K. (2018, April). Towards building large scale multimodal domain-aware conversation systems. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 32, No. 1).

Sennrich, R., Haddow, B., & Birch, A. (2015). Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909.

Smith, L. N. (2017, March). Cyclical learning rates for training neural networks. In 2017 IEEE winter conference on Applications of computer vision (WACV) (pp. 464-472). IEEE.

Tan, M., & Le, Q. V. (2019). EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. ArXiv, abs/1905.11946.

Wang, Y., Ke, P., Zheng, Y., Huang, K., Jiang, Y., Zhu, X., & Huang, M. (2020). A Large-Scale Chinese Short-Text Conversation Dataset. NLPCC.

Weidong He, Zhi Li, Dongcai Lu, Enhong Chen, Tong Xu, Baoxing Huai, & Jing Yuan. (2020). Multimodal Dialogue Systems via Capturing Context-aware Dependencies of Semantic Elements. In Proceedings of the 28th ACM International Conference on Multimedia (MM '20). Association for Computing Machinery, New York, NY, USA, 2755-2764. https://doi.org/10.1145/3394171.3413679

Zhang, Y., Sun, S., Galley, M., Chen, Y. C., Brockett, C., Gao, X.,... Dolan, B. (2019). Dialogpt: Large-scale generative pre-training for conversational response generation. arXiv preprint arXiv:1911.00536.

Zhang, Y., Sun, S., Gao, X., Fang, Y., Brockett, C., Galley, M.,... Dolan, B. (2021). Joint retrieval and generation training for grounded text generation. arXiv preprint arXiv:2105.06597.




DOI: https://doi.org/10.54607/hcmue.js.20.1.3627(2023)

Tình trạng

  • Danh sách trống