QUY TRÌNH THÍ NGHIỆM
 Thu thập trứng muỗi Aedes albopictus
 Ovitrap là một hộp nhựa có dung tích khoảng 200 ml và được trang bị nắp đen có lỗ. Thiết bị được thiết kế tối ưu này không chỉ cung cấp môi trường thông thoáng và có bóng râm cho muỗi mà cònngăn chúng thoát ra sau khi đã bay vào. Nước được thêm vào hộp để thu hút muỗi đẻ trứng trên giấy lọc. Ovitrap thường được đặt trong các bụi cây gần khu dân cư và được che chắn khỏi gió và mưa nhằm thu thập trứng muỗi. Môi trường này, cùng với sự hiện diện của các vũng nước nhỏ trong ovitrap, tạo điều kiện thuận lợi cho muỗi Aedes đẻ trứng. Trong nghiên cứu này, trứng muỗi Aedes albopictus thuộc chủng hoang dã được thu thập từ quận Mẫn Hàng, Thượng Hải, Trung Quốc, trong khoảng thời gian từ tháng 6 đến tháng 8 năm 2023.
 Thu nhận hình ảnh
 Hình ảnh của giấy lọc chứa trứng muỗi Aedes albopictus được chụp với sự hỗ trợ của máy ảnh và chân máy. Hệ thống thu nhận hình ảnh sử dụng máy ảnh kỹ thuật số không gương lật Fujifilm X-S10 với độ phân giải 26,1 megapixel, được trang bị ống kính macro tự động lấy nét và ổn định hình ảnh cùng chân máy. Để tránh làm nhăn giấy lọc, giấy được đặt trên một tấm nhựa phẳng (hoặc bề mặt phẳng khác) trong quá trình chụp. Điều này đảm bảo giấy lọc nằm trên cùng một mặt phẳng tiêu cự, giúp mỗi trứng muỗi có thể được quan sát rõ ràng trong hình ảnh. Tổng cộng 1729 hình ảnh ở định dạng JPG đã được thu thập trong nghiên cứu này, mỗi ảnh có kích thước 6240 × 4160 pixel với dung lượng trung bình khoảng 10 megabyte. So với chủng muỗi nuôi trong phòng thí nghiệm, các vật thể trên giấy lọc của chủng hoang dã phức tạp hơn, bao gồm trứng muỗi Aedes albopictus và một lượng lớn tạp chất như mảnh vụn thực vật, sỏi và côn trùng khác. Điều này cũng đúng với khu vực nền phía ngoài giấy lọc. Màu sắc của giấy lọc có thể bị sẫm đi do nhiều yếu tố khác nhau, bao gồm sự phát triển của vi khuẩn hoặc nấm, cũng như tiếp xúc lâu dài với nước thải (Hình 2).
 
Hình 2. Tổng quan về hình ảnh trứng muỗi Aedes albopictus:
A. Toàn cảnh hình ảnh. B. Giấy lọc bị tối màu và có dấu hiệu hư hại nhẹ ở các cạnh. 
C. Trứng muỗi Aedes albopictus. D. Tạp chất: mảnh vụn thực vật. E. Tạp chất: các loài côn trùng khác.
 F. Tạp chất: sỏi đá.
 XÂY DỰNG BỘ DỮ LIỆU
 Các nhà khoa học đã xây dựng một bộ dữ liệu hình ảnh về trứng muỗi Aedes albopictus từ chủng hoang dã. Dựa trên các hình ảnh thu thập được về trứng muỗi Ae. albopictus, sử dụng LabelImg, một phần mềm được ứng dụng rộng rãi trong việc gán nhãn hình ảnh cho bài toán nhận diện đối tượng, để chú thích thủ công các trứng trong các hình ảnh, tạo ra các nhãn trứng theo định dạng Pascal VOC. Thông tin chi tiết về các chú thích này được lưu trữ dưới dạng tệp XML, trong đó trường “name” luôn được gán nhãn là “egg.” Họ đã loại bỏ các đối tượng khó xác nhận bằng phương pháp thủ công để đảm bảo rằng các đối tượng được nhắm đến đều chính xác.
 Ngoài ra, chúng tôi đã sử dụng bẫy BG-Trap để theo dõi trong cùng khu vực nghiên cứu, và kết quả giám sát chỉ ghi nhận hai loài muỗi là Culex pipiens pallens và Ae. albopictus, phù hợp với kết luận của các nghiên cứu liên quan [56]. Trứng của hai loài muỗi này có sự khác biệt rõ rệt. Trứng muỗi Cx. pipiens pallens có hình nón và được đẻ thành từng cụm nổi trên mặt nước, trong khi trứng muỗi Ae. albopictus có dạng hình bầu dục và được đẻ riêng lẻ dưới đáy nước.Hơn nữa, họ cũng xác định các cá thể muỗi trưởng thành thu thập được từ bẫy đẻ và kết quả cho thấy tất cả đều là Ae. albopictus. Những phát hiện này cho thấy rằng không có loài muỗi nào khác trong khu vực nghiên cứu có trứng giống với trứng của Ae. albopictus. Thông qua mã lập trình Python, bộ dữ liệu đã được chú thích thủ công được chia thành tập huấn luyện (60%), tập kiểm định (20%) và tập kiểm tra (20%).
 Tiền xử lý ảnh
 Trích xuất vùng quan tâm
 Do sự đa dạng của môi trường thu nhận ảnh và độ phức tạp của nền ngoài giấy lọc, nghiên cứu này sử dụng mô hình SAM để trích xuất phần giấy lọc trong ảnh. Phương pháp giúp xử lý nền phức tạp và giảm thiểu sự ảnh hưởng của chúng đối với quá trình phát hiện trứng muỗi. SAM là một mô hình phân đoạn ảnh đa dụng dựa trên kiến trúc bộ biến đổi thị giác, có khả năng phân đoạn nhiều loại đối tượng khác nhau mà không cần huấn luyện chuyên biệt cho từng nhiệm vụ. Hơn nữa, SAM hỗ trợ ba loại tín hiệu nhập vào -điểm, hộp và văn bản để giúp nó phù hợp với các tác vụ mới và có khả năng học không cần ví dụ hướng dẫn, từ đó nâng cao hiệu quả xử lý các nền phức tạp.
 Trong nghiên cứu này, họ đã phát triển một bộ tạo câu lệnh dạng điểm để thu được câu lệnhdạng điểm. Nguyên lý cơ bản được mô tả như sau (Hình 3): Đầu tiên, chiều rộng và chiều cao của ảnh đầu vào được trích xuất, sau đó một vùng hình vuông có cạnh dài 500 pixel được xác định tại trung tâm. Kích thước của hình vuông này có thể điều chỉnh, nhưng cần đủ nhỏ để nằm hoàn toàn trong vùng giấy lọc. Tiếp theo, vùng hình vuông này được nhị phân hóa. Nhằm giảm thiểu tác động của ngưỡng nhị phân hóa đến kết quả, một phép co xói (erosion) được thực hiện để phóng to các pixel bị chiếm bởi tạp chất, giúp xác định vùng ứng viên chính xác hơn và tăng cường độ ổn định của phương pháp. Cuối cùng, một điểm được chọn ngẫu nhiên trong vùng ứng viên để làm tín hiệu nhắc. Khi sử dụng tín hiệu nhắc dạng điểm trong mô hình SAM, một mặt nạ của giấy lọc và tọa độ trung tâm của mặt nạ (x₀, y₀) được thu nhận. Sau đó, ảnh được cắt thành hình vuông với kích thước 4160 × 4160 pixel, lấy giấy lọc làm trung tâm, đồng thời duy trì cùng chiều cao như ảnh gốc. Tiếp theo, các chú thích ban đầu được điều chỉnh bằng cách trừ đi độ lệch (x₀ − 2080) từ tọa độ ngang x₀, nhằm đảm bảo sự căn chỉnh chính xác với ảnh đã cắt.
 
Hình 3.  Quá trình trích xuất các khu vực cần thiết:Point Prompt Generator : 
Bộ tạo câu lệnh điểm; Center region: vùng trung tâm; Binarization: Nhị phân hóa; Morphological erosion: Xói mòn hình thái học; 
Candidate region: Vùng ứng viên; Point (x, y): Điểm (x, y); Selection: lựa chọn; Random: ngẫu nhiên; Annotations: Chú thích; 
Output image: Hình ảnh đầu ra; Modify: Biến đổi; 1.extract\ 2.clip by squre by mask (center(x0, y0)) : 1. Trích xuất\ 2. Cắt theo hình vuông bằng mặt nạ (trung tâm (x0, y0); Segment Anything Model: Mô hình bất cứ điều gì phân đoạn.
 Ô ảnh
 Trong các tiêu chí đánh giá của Microsoft Common Objects in Context (MS-COCO), các đối tượng có kích thước nhỏ hơn 32 × 32 pixel được định nghĩa là đối tượng nhỏ. Do lượng thông tin phân loại hạn chế mà các đối tượng nhỏ cung cấp và yêu cầu độ chính xác cao hơn trong việc xác định vị trí, việc cải thiện độ chính xác của mô hình phát hiện là một thách thức. Nhìn chung, khi tỷ lệ kích thước của đối tượng cần phát hiện trong hình ảnh càng nhỏ, độ chính xác của phát hiện càng giảm.Để tăng tỷ lệ điểm ảnh của trứng muỗi, chúng tôi đã chia các hình ảnh trong tập huấn luyện và tập xác nhận thành các ô không chồng lấn có kích thước 1040 × 1040 pixel theo cả hai hướng ngang và dọc, đồng thời loại bỏ các ô chứa trứng bị "vỡ vụn" hoặc không có trứng (Hình 4). Sau khi chia nhỏ, tập huấn luyện và tập xác nhận lần lượt bao gồm 8844 và 2922 hình ảnh, đảm bảo tỷ lệ phân chia dữ liệu ban đầu là 6:2.
 Hình 4. Image segmentation: Phân đoạn hình ảnh
 Việc sử dụng các ô không chồng lấn có thể ngăn chặn cùng một trứng xuất hiện trong nhiều ảnh, do đó giảm thiểu sự dư thừa dữ liệu. Tuy nhiên, phương pháp phân đoạn không chồng lấn có thể khiến các trứng nằm ở rìa bị phân mảnh, dẫn đến khả năng chúng bị bỏ qua hoặc bị đếm lặp lại trong quá trình nhận diện (loại trừ các trứng này trong quá trình tập huấn). Do đó, khi kiểm tra khả năng nhận diện của mô hình bằng tập kiểm tra, họ sử dụng phương pháp phân chia hình ảnh theo ô chồng lấn (lợp ngói) (Hình 4). Khác với phương pháp phân đoạn trực tiếp, phương pháp này mở rộng thêm 30 pixel ra ngoài từ điểm phân đoạn để đảm bảo rằng khi một trứng bị cắt một phần trong một ô, nó có thể được hiển thị đầy đủ trong các ô khác. Kích thước phần mở rộng phụ thuộc vào chiều dài trung bình của trứng.Trong giai đoạn kiểm tra, cả đầu vào và đầu ra đều là hình ảnh hoàn chỉnh, với quá trình phân đoạn và mở rộng được thực hiện tự động bằng mã Python. Mã này ghi lại tọa độ của các hộp dự đoán trên mỗi ô và sau đó khôi phục chúng về vị trí ban đầu trong ảnh hoàn chỉnh. Để tránh việc nhận diện lặp lại cùng một trứng, các dự đoán trùng lặp có giá trị IoU lớn hơn 0,5 được loại bỏ bằng phương pháp non-maximum suppression (NMS).
 TẬP HUẤN VÀ KIỂM TRA MÔ HÌNH
 Đào tạo tập huấn
 Nghiên cứu sử dụng mô hình Faster R-CNN tiên tiến, đặc biệt hiệu quả trong việc nhận diện các đối tượng mục tiêu có kích thước nhỏ, để xác định trứng muỗi Ae. albopictus. Mô hình này phát triển từ R-CNN và Fast R-CNN, sử dụng Mạng đề xuất vùng (Region Proposal Network - RPN) thay thế thuật toán tìm kiếm có chọn lọc (Selective Search - SS), qua đó đạt được quá trình tập huấn luyện toàn bộ quy trình đầu-cuối không cần các bước xử lý trung gian phức tạp. Mô hình gồm bốn thành phần chính: Lớp tích chập (Convolutional Layers), Mạng đề xuất vùng (RPN), Lớp gộp ROI (ROI pooling) và Phân loại (Classification). Lớp tích chập có vai trò trích xuất đặc trưng, với các kiến trúc nền tảng phổ biến như VGG16, ZFNet và ResNet. Mạng đề xuất vùng chịu trách nhiệm tạo ra các hộp giới hạn vùng ứng viên. Lớp gộp ROI chuẩn hóa kích thước ma trận đặc trưng của các vùng ứng viên về một kích thước cố định 7 × 7, qua đó loại bỏ hạn chế về kích thước của ảnh đầu vào. 
 Thành phần phân loại có chức năng nhận diện và phân loại đối tượng. Trong quá trình trích xuất đặc trưng, các lớp đặc trưng ở mức thấp có độ phân giải cao và chứa nhiều thông tin vị trí cũng như chi tiết, nhưng lại hạn chế về mặt thông tin ngữ nghĩa. Ngược lại, các lớp đặc trưng ở mức cao giàu thông tin ngữ nghĩa nhưng có thể mất đi các chi tiết, dẫn đến khả năng bỏ sót các đối tượng nhỏ. Để khắc phục điều này, nghiên cứu kết hợp Mạng Kim tự tháp đặc trưng (Feature Pyramid Network - FPN) với ResNet50, một kiến trúc nền tảng hiệu quả hơn trong việc nhận diện đối tượng nhỏ. FPN tăng cường khả năng phát hiện đối tượng nhỏ của mô hình bằng cách sử dụng cơ chế lấy mẫu tăng (upsampling) và tích hợp đặc trưng, qua đó truyền tải thông tin ngữ nghĩa từ các lớp đặc trưng cao xuống các lớp đặc trưng thấp, giúp cải thiện độ chính xác khi phát hiện các đối tượng có kích thước nhỏ.
 Bộ dữ liệu nghiên cứu được đưa vào mô hình Faster R-CNN ResNet50 FPN và tập huấn bằng thuật toán tối ưu hóa giảm dần ngẫu nhiên (Stochastic Gradient Descent - SGD). Các siêu tham số được thiết lập bao gồm: tốc độ học (learning rate) là 0,005, động lượng (momentum) là 0,9, hệ số suy giảm trọng lượng là 0,0005, và kích thước lô là 8. Quá trình huấn luyện được thực hiện trong tổng cộng 20 vòng lặp (epochs). Tốc độ học được giảm sau mỗi ba vòng lặp, với hệ số suy giảm (gamma) là 0,33. Cơ chế suy giảm tốc độ học này giúp cải thiện tính ổn định của quá trình huấn luyện, ngăn chặn mô hình rơi vào cực tiểu cục bộ, và tối ưu hóa mô hình một cách hiệu quả hơn.Hiệu quả huấn luyện của mô hình được đánh giá thông qua sự hội tụ của giá trị hàm mất mát (loss function) và tốc độ học, cũng như độ chính xác trung bình mAP (mean average precision) trên tập kiểm định.
 Kiểm tra
 Sau khi tập huấn mô hình, sử dụng tập kiểm tra để đánh giá khả năng khái quát hóa của mô hình. Phương pháp chồng lấn ô gạch được áp dụng để xác định tập kiểm tra và bộ lọc hình thái được sử dụng nhằm loại bỏ tạp chất. Do trứng muỗi nhìn chung có kích thước tương đồng, nên lọc các hộp dự đoán dựa trên đặc điểm hình thái của trứng muỗi, loại bỏ các hộp có diện tích nhỏ hơn 200 pixel hoặc lớn hơn 900 pixel, cũng như các hộp có tỷ lệ khung hình lớn hơn 4, nhằm nâng cao độ chính xác của mô hình trong việc phát hiện trứng muỗi.Hiệu suất phát hiện của mô hình được đánh giá thông qua các chỉ số độ chính xác (precision), độ phủ (recall) và F1 score, với giá trị của ba chỉ số này nằm trong khoảng từ 0 đến 1. Giá trị càng gần 1 cho thấy chất lượng mô hình càng cao. Chỉ số F1 score, kết hợp giữa độ chính xác và độ phủ, thường được sử dụng để đánh giá chất lượng mô hình. Trong nghiên cứu này, chúng tôi tính toán độ chính xác, độ phủ và F1 score tại các mức xác suất dự đoán khác nhau, sau đó chọn mức xác suất dự đoán tương ứng với giá trị F1 score cao nhất làm ngưỡng đầu ra trong quá trình phát hiện.Bên cạnh việc đánh giá khả năng nhận diện của mô hình, chúng tôi còn tiến hành đếm số lượng trứng thực tế và số lượng trứng được dự đoán trong từng ảnh của tập kiểm tra, đồng thời sử dụng hệ số xác định R bình phương (R-squared) và căn bậc hai sai số trung bình (RMSE) để đánh giá khả năng đếm số lượng trứng của mô hình.
 Môi trường hoạt động
 Trong nghiên cứu này, việc phân chia tập dữ liệu, phân đoạn hình ảnh, phương pháp chồng lấp ô vuông và lọc hình thái học được triển khai bằng mã Python. Phần cứng sử dụng trong các thí nghiệm là NVIDIA GeForce RTX 3080, trong khi môi trường phần mềm bao gồm Python 3.9.12, Torch 2.0.0, Torchvision 0.15.1, CUDA 11.7 và OpenCV 4.6.0.
  
 (còn nữa)
 CN. Nguyễn Thái Hoàng & TS.BS. Huỳnh Hồng Quang
 Viện Sốt rét-KST-CT Quy Nhơn