Nguyễn Văn Thịnh, Trần Văn Lăng, Văn Thế Thành

Phân lớp ảnh đa nhãn là một trong những tác vụ quan trọng và thách thức trong thị giác máy tính. Trong bài báo này, một phương pháp phân lớp ảnh đa nhãn được đề xuất dựa trên mạng tích chập đồ thị hướng đến việc khai thác mối quan hệ giữa các nhãn lớp trong tập dữ liệu và giữa các đối tượng trong ảnh nhằm nâng cao độ chính xác. Đầu tiên, nội dung hình ảnh được học biểu diễn bằng mạng nơ-ron tích chập (CNN – Convolutional Neural Network) và mạng tích chập đồ thị (GCN – Graph Convolutional Network) dựa trên đồ thị ngữ cảnh (scene graph) của ảnh. Sau đó, đồ thị mô tả sự phụ thuộc giữa các nhãn đối tượng trong tập dữ liệu được xây dựng làm cơ sở cho việc học các bộ phân lớp cho các nhãn bằng cách sử dụng GCN, từ đó, áp dụng các bộ phân lớp này cho đặc trưng ảnh để tạo ra các giá trị nhãn lớp dự đoán. Cuối cùng, toàn bộ mạng được huấn luyện sử dụng cách phân lớp đa nhãn truyền thống. Thực nghiệm được xây dựng và đánh giá trên tập dữ liệu là phần giao giữa tập Visual Genome và MS COCO. Kết quả thực nghiệm cho thấy phương pháp đề xuất là hiệu quả và vượt trội hơn một số công trình đã công bố gần đây.



convolutional neural network; graph convolutional network; label graph; multi-label image classification; scene graph

DOI: https://doi.org/10.54607/hcmue.js.20.5.3644(2023)

