Tiếp theo Phần 3
KẾT QUẢ
Mục tiêu chính của nghiên cứu là triển khai một hệ thống tự động để phân loại chính xác hình ảnh phết máu nhằm chẩn đoán bệnh sốt rét. Hiệu suất của phương pháp luận phát hiện sốt rét được đề xuất đã được đánh giá trên các mô hình khác nhau, bao gồm ResNet-50, VGG-16, DenseNet-201, máy véc-tơ hỗ trợ (SVM), mạng bộ nhớ dài-ngắn hạn (LSTM) và biểu quyết theo đa số. Việc đánh giá được tiến hành sử dụng nhiều chỉ số đo lường, bao gồm độ chính xác (Accuracy), Độ nhạy (SEN), Độ đặc hiệu (SPE), độ chuẩn xác (PRE), tỷ lệ lỗi (Error Rate), tỷ lệ dương tính giả (FPR), tỷ lệ âm tính giả (FNR), giá trị dự báo âm tính (NPV), điểm F1 (F1-Score) và hệ số tương quan Matthews (MCC) dựa trên các công thức sau¹² với các tham số TP (Dương tính thật), TN (Âm tính thật), FP (Dương tính giả) và FN (Âm tính giả) từ các ma trận nhầm lẫn thu được trong Hình 5.

Ghi chú trong bảng giá trị trên: Accuracy: Độ chính xác; Sensitivity: Độ nhạy; Error Rate:Tỷ lệ lỗi; Specificity: Độ đặc hiệu; Precision: Độ chuẩn xác; False Positive Rate: Tỷ lệ dương tính giả; False Negative Rate: Tỷ lệ âm tính giả; Negative Predictive Value: Giá trị dự báo âm tính; F1-Score : Chỉ số F1
Điểm F1 (F1-Score) F1−Score=2TP+FP+FN2TP (26)

Hình 5. Ma trận nhầm lẫn cho các mô hình được đề xuất: (a) ResNet-50, (b) VGG-16, (c) DenseNet-201, (d) SVM, (e) LSTM, (f) Biểu quyết theo đa số.
Trong bối cảnh của nghiên cứu hiện tại về phân loại sốt rét bằng hình ảnh phết máu kính hiển vi, các trường hợp trong ma trận nhầm lẫn được diễn giải như sau, dựa trên hai lớp chính: ‘Nhiễm ký sinh trùng’ (nhiễm sốt rét) và ‘Không nhiễm’ (không mắc sốt rét), như được đề cập trong Bảng 4. Đường cong đặc tính hoạt động của bộ thu (Receiver Operating Characteristic - ROC) cho các mô hình được đề xuất được thể hiện trong Hình 6.
Bảng 4. Mô tả các lớp mục tiêu của việc phát hiện sốt rét
| Trường hợp | Mô tả |
| Dương tính thật (TP) | Mô hình dự đoán chính xác một mẫu là ‘Nhiễm ký sinh trùng’, và thực tế mẫu đó ‘Nhiễm ký sinh trùng’. |
| Âm tính thật (TN) | Mô hình dự đoán chính xác một mẫu là ‘Không nhiễm’, và thực tế mẫu đó ‘Không nhiễm’. |
| Dương tính giả (FP) | Mô hình dự đoán không chính xác một mẫu là ‘Nhiễm ký sinh trùng’, nhưng thực tế mẫu đó ‘Không nhiễm’. |
| Âm tính giả (FN) | Mô hình dự đoán không chính xác một mẫu là ‘Không nhiễm’, nhưng thực tế mẫu đó ‘Nhiễm ký sinh trùng’. |
Hình 6. Đường cong đặc tính hoạt động của bộ thu (ROC) cho các mô hình được đề xuất:
(a) ResNet-50, (b) VGG-16, (c) DenseNet-201, (d) SVM, (e) LSTM, và (f) Biểu quyết theo đa số.
Hiệu suất của các mô hình học chuyển tiếp
a. Mô hình học chuyển tiếp ResNet-50, VGG-16 và DenseNet-201
Các mô hình học chuyển tiếp ResNet-50, VGG-16 và DenseNet-201 đã cho thấy hiệu suất mạnh mẽ trong việc phát hiện sốt rét, tận dụng các kiến trúc đã được huấn luyện trước để trích xuất đặc trưng và phân loại. ResNet-50 đạt độ chính xác 95,77%, với độ nhạy là 95,31% và độ đặc hiệu là 96,23%, ghi nhận hiệu quả các hình mẫu có cấu trúc phân cấp trong dữ liệu. VGG-16 đạt độ chính xác 96,32%, thể hiện hiệu suất cân bằng tốt với độ nhạy (95,79%) và độ đặc hiệu (96,86%). DenseNet-201 đạt độ chính xác 96,25% và độ nhạy cao nhất (96,32%), cho thấy khả năng vượt trội của nó trong việc phát hiện các mẫu nhiễm sốt rét. Cả ba mô hình đều mang lại kết quả cạnh tranh về điểm F1 (dao động từ 95,75-96,30%) và Hệ số tương quan Matthews (MCC) (91,96-93,15%), thể hiện độ tin cậy và hiệu quả của chúng trong chẩn đoán sốt rét tự động.
Để theo dõi hiệu suất các mô hình được đề xuất, các đường cong tiến trình huấn luyện, bao gồm độ chính xác khi huấn luyện, độ chính xác khi kiểm định, tổn thất khi huấn luyện và tổn thất khi kiểm địnhđã được ghi lại trong các Hình 7, 8 và 9, tương ứng cho ResNet-50, VGG-16, và DenseNet-201.
Hình 7. Đường cong tiến trình huấn luyện của mô hình ResNet-50.
Hình 8. Đường cong tiến trình huấn luyện của mô hình VGG-16
Hình 9. Đường cong tiến trình huấn luyện của mô hình DenseNet-201
b. Kết quả PCA để giảm chiều dữ liệu
PCA được áp dụng lên tập hợp đặc trưng hợp nhất có chiều dữ liệu cao gồm 8064 đặc trưng để giảm chiều dữ liệu của nó trong khi vẫn bảo toàn được thông tin quan trọng nhất. Như được mô tả trong Hình 10, phương sai giải thích tích lũy được vẽ theo số lượng thành phần chính. Đường cong cho thấy sự gia tăng nhanh chóng ban đầu, cho thấy rằng một tỷ lệ đáng kể của phương sai trong tập dữ liệu được ghi nhận bởi một vài thành phần chính đầu tiên.
Hình 10. Đường cong phương sai giải thích tích lũy của PCA cho việc giảm đặc trưng trong chẩn đoán sốt rét.
Từ biểu đồ, có thể quan sát thấy rằng phương sai giải thích đi vào trạng thái bình ổn sau một số lượng thành phần nhất định, với lợi ích giảm dần khi thêm các thành phần bổ sung. Dựa trên phân tích, 3135 thành phần chính đã được chọn, đảm bảo rằng phần lớn phương sai trong dữ liệu gốc được giữ lại. Việc giảm chiều này thể hiện một sự nén đáng kể không gian đặc trưng, khoảng 61,2% kích thước ban đầu, mà không làm mất đi đáng kể thông tin quan trọng.
c. Hiệu suất của mô hình SVM
SVM đạt độ chính xác 96,40%. Mô hình này cho thấy độ đặc hiệu (96,71%) và độ nhạy (96,08%) cao, điều này cho thấy khả năng phân biệt hiệu quả giữa các mẫu nhiễm và không nhiễm. Điểm F1 (96,38%) và MCC (93,09%) cũng cho thấy sự cân bằng và tính mạnh mẽ xuất sắc.
d. Hiệu suất của mô hình LSTM
LSTM đạt độ chính xác 96,11% và độ nhạy 95,69%, điều này cho thấy LSTM có thể bỏ sót một số mẫu nhiễm bệnh. Tuy nhiên, nó vẫn cho thấy độ đặc hiệu cao là 96,52%, giúp nhận dạng hiệu quả các mẫu không nhiễm. Độ chuẩn xác (96,49%) và tỷ lệ lỗi (3,89%) tương tự như của ResNet-50, cho thấy LSTM hoạt động tốt, nhưng có sự đánh đổi nhỏ về độ nhạy.
e. Tổng thể hiệu suất của biểu quyết theo đa số
Phương pháp biểu quyết theo đa số, tích hợp các dự đoán từ ResNet-50, VGG-16, DenseNet-201, SVM và LSTM đã đạt được độ chính xác cao nhất là 96,47%, vượt qua tất cảmô hình đơn lẻ. Cách tiếp cận này cũng đạt được độ đặc hiệu (96,9%) và độ chuẩn xác (96,88%) cao nhất, cho thấy đây là phương pháp đáng tin cậy nhất để xác định cả mẫu nhiễm và không nhiễm sốt rét. Độ nhạy (96,03%) và điểm F1 (96,45%) cũng ở mức cao, góp phần vào sức mạnh tổng thể của mô hình biểu quyết theo đa số. Các kết quả chi tiết cho các mô hình được đề xuất được trình bày trong Bảng 5.
Bảng 5. Kết quả chi tiết của các mô hình được đề xuất trong chẩn đoán bệnh sốt rét.
| Tiêu chí | ResNet 50 | VGG 16 | DenseNet 201 | PCA + SVM | PCA + LSTM | Bỏ phiếu theo đa số |
| Độ chính xác | 95,77% | 96,32% | 96,25% | 96,40% | 96,11% | 96,47% |
| Độ nhạy | 95,31% | 95,79% | 96,32% | 96,08% | 95,69% | 96,03% |
| Độ đặc hiệu | 96,23% | 96,86% | 96,18% | 96,71% | 96,52% | 96,90% |
| Độ chuẩn xác | 96,19% | 96,82% | 96,18% | 96,69% | 96,49% | 96,88% |
| Tỷ lệ lỗi | 4,23% | 3,68% | 3,75% | 3,60% | 3,89% | 3,53% |
| Tỷ lệ dương tính giả | 3,77% | 3,14% | 3,82% | 3,29% | 3,48% | 3,10% |
| Tỷ lệ âm tính giả | 4,69% | 4,21% | 3,68% | 3,92% | 4,31% | 3,97% |
| Giá trị dự đoán âm tính | 95,35% | 95,84% | 96,32% | 96,11% | 95,73% | 96,07% |
| Điểm F1 | 95,75% | 96,30% | 96,25% | 96,38% | 96,09% | 96,45% |
| Hệ số tương quan Matthews | 91,96% | 93,15% | 92,43% | 93,09% | 92,60% | 93,35% |
Để đánh giá tác động riêng lẻ và tập thể của các thành phần cốt lõi trong hệ thống được đề xuất, một nghiên cứu loại trừ đã được tiến hành bằng cách sử dụng ResNet-50, VGG-16, DenseNet-201, SVM, LSTM và tổ hợp biểu quyết theo đa số cuối cùng, như được trình bày trong Bảng 6. Các kết quả cho thấy hiệu quả hoạt động độc lập của từng mô hình học sâu, trong đó VGG-16 đạt độ chính xác riêng lẻ cao nhất (96,32%) trong số các mô hình CNN. Khi các đặc trưng được hợp nhất và giảm chiều bằng PCA được phân loại độc lập bằng SVM và LSTM, hiệu suất của chúng tương đương hoặc vượt qua hiệu suất của các mô hình CNN, cho thấy rằng các bộ phân loại lai ghi nhận hiệu quả các mẫu đặc trưng có tính phân biệt mà các mạng học sâu từ đầu đến cuối chưa khai thác hết.
Tổ hợp cuối cùng, tích hợp kết quả đầu ra từ tất cả mô hình thông qua cơ chế biểu quyết theo đa số, đã mang lại hiệu suất cao nhất trên tất cả chỉ số đo lường với độ chính xác là 96,47%, điểm F1 là 96,45% và hệ số tương quan Matthews là 93,35%. Những kết quả này xác thực rằng mỗi mô-đun trích xuất đặc trưng bằng CNN, phân loại lai bằng SVM-LSTM và biểu quyết theo đa số, đều đóng góp một cách có ý nghĩa vào toàn bộ hệ thống, trong đó tổ hợp này tận dụng các thế mạnh bổ sung cho nhau của chúng để đạt được độ chính xác chẩn đoán tối ưu.
Bảng 6. Nghiên cứu loại bỏ thành phần thể hiện hiệu suất riêng lẻ và kết hợp của các bộ phân loại dựa trên CNN
| Mô hình | Độ chính xác | Điểm F1 | MCC | Quan sát chính |
| Chỉ các mô hình CNN nền tảng • ResNet-50 • VGG-16 • DenseNet-201 | 95,77-96,32% | 95,75-96,3% | 91,96-93,15% | Thiết lập một đường cơ sở học sâu (deep-learning) vững chắc. DenseNet-201 cho độ thu hồi (recall) tốt nhất (SEN = 96,32%). |
| Chỉ các mô hình cổ điển lai • SVM • LSTM | 96,4-96,11% | 96,38-96,09% | 93,09-92,6% | Cho thấy véc-tơ kết hợp đặc trưng dựa trên PCA, khi được đưa vào SVM hoặc LSTM, đã vượt qua hoặc tương đương với mô hình CNN đơn lẻ tốt nhất. |
| Lớp kết hợp • Bỏ phiếu theo đa số (CNN+SVM+LSTM) | 96,47% | 96,45% | 93,35% | Mang lại giá trị tối ưu toàn cục trên mọi chỉ số. |
(Còn nữa) --> Tiếp theo Phần 5
CN. Nguyễn Thái Hoàng & TS.BS. Huỳnh Hồng Quang
Viện Sốt rét-KST-CT Quy Nhơn