Lê Thanh Tùng, Nguyễn Hồng Bửu Long, Hoàng Khuê

Tóm tắt


Dóng hàng mức từ giữ vai trò quan trọng trong nhiều công đoạn của xử lí ngôn ngữ tự nhiên. Có nhiều công trình nghiên cứu trên nhiều cặp ngôn ngữ khác nhau, tuy nhiên trên cặp câu song ngữ Nhật-Việt vẫn còn hạn chế. Hầu hết các dóng hàng mức từ Nhật-Việt được tạo từ các công cụ dóng hàng dựa trên phương pháp thống kê, hoặc dựa trên phương pháp học không giám sát, cho kết quả có độ chính xác không cao. Trong nghiên cứu này, chúng tôi xây dựng bộ ngữ liệu dóng hàng mức từ Nhật-Việt bằng tay và sau đó cài đặt và huấn luyện mô hình dóng hàng mức từ tự động cho cặp câu song ngữ Nhật-Việt. Mô hình dóng từ của chúng tôi đạt độ chính xác vượt trổi hơn 20.06 điểm  so với công cụ GIZA++. Chúng tôi tạo được mô hình dóng hàng mức từ Nhật-Việt tân tiến ở thời điểm hiện tại.


Từ khóa

BERT; Nhật - Việt; Bộ ngữ liệu; SQuAD; dóng từ

Toàn văn:


Trích dẫn

DOI: https://doi.org/10.54607/hcmue.js.20.2.3618(2023)

