Giải trình tự amplicon mục tiêu các gen kháng thuốc sốt rét
 Mười một gen của P. malariae tương đồng với các gen kháng thuốc sốt rét của P. falciparum đã được khuếch đại và giải trình tự (Bảng 2). Các mồi đặc hiệu đã được thiết kế riêng cho từng gen và các điều kiện tối ưu để khuếch đại bằng enzyme Q5 polymerase (New England Biolabs) được trình bày trong Bảng 3. Các sản phẩm khuếch đại được kiểm tra bằng gel agarose 1%  và tất cả amplicon từ mỗi mẫu đã được gộp lại để chuẩn bị thư viện giải trình tự sâu, sử dụng bộ dụng cụ TruSeq HT library prep. Thư viện được làm sạch bằng bộ dụng cụ tinh sạch PCR Agencourt AMPure XP (Beckman Coulter, Brea, CA, Mỹ) theo hướng dẫn của nhà sản xuất. Nồng độ và kích thước amplicon được đo bằng máy Qubit fluorometer (In vitrogen, Carlsbad, CA, Mỹ) và hệ thống Tapestation (Agilent). 
 Quá trình giải trình tự hai chiều theo cặp (paired-end sequencing) được thực hiện trên hệ thống MiSeq (Illumina, San Diego, CA, USA) với nồng độ 10 pM của các amplicon đã gộp, tại nền tảng genomics của MRCG, sử dụng bộ thuốc thử Illumina v2 để tạo ra các đoạn đọc (reads) dài 250 bp mỗi đầu, theo hướng dẫn của nhà sản xuất.
 Bảng 2. Danh mục các gen kháng thuốc sốt rét tương đồng P. malariae đã được giải trình tự
     |   S/N   |    Gen kháng thuốc chống sốt rét   |    Viết tắt   |    PlasmoDB ID   |  
   |   1   |    Amino acid transporter AAT1, putative   |    Pmaat1   |    PmUG01_11034100   |  
  |   2   |    AP-2 complex subunit mu, putative   |    Pmap2mu   |    PmUG01_14053100   |  
  |   3   |    Non-SERCA-type Ca2+-transporting P-ATPase, putative   |    Pmatp4   |    PmUG01_13021900   |  
  |   4   |    Calcium-transporting ATPase, putative   |    Pmatp6   |    PmUG01_02017400   |  
  |   5   |    Bifunctional dihydrofolate reductase-thymidylate synthase   |    Pmdhfr   |    PmUG01_05034700   |  
  |   6   |    Hydroxymethyldihydropterin pyrophosphokinase-dihydropteroate synthase, putative   |    Pmdhps   |    PmUG01_14045500   |  
  |   7   |    Kelch protein K13, putative   |    Pmkelch13   |    PmUG01_12021200   |  
  |   8   |    Multidrug resistance protein 1, putative   |    Pmmdr1   |    PmUG01_10021600   |  
  |   9   |    Sodium/hydrogen exchanger, putative   |    Pmnhe   |    PmUG01_14020100   |  
  |   10   |    Chloroquine resistance transporter, putative   |    Pmcrt   |    PmUG01_01020700   |  
  |   11   |    Cytochromeb, putative   |    Pmcytb   |    PmUG01_MIT001100   |  
 
   Bảng 3. Điều kiện tối ưu để tạo ra các amplicon kháng thuốc của P. malariae
     |   TT   |    Mồi   |    Trình tự   |    Kích thước Amplicon (bp)   |    Mồi (µM)   |    *MgCl2  (mM)   |    dNTP (mM)   |    Thời gian kéo dài (s)   |    Tm (°C)   |  
   |   1   |    Pm_AAT1_F   |    AAATGGGTCAGTAGCCGCCTATG   |    1708   |    0.5   |    2.0   |    0.2   |    90   |    68   |  
  |   2   |    Pm_AAT1_R   |    ATCAGTTTGCGATTCATGTGTGCT   |  
  |   3   |    Pm_CRT_F   |    AAAGTGACACACCTTATAGAGACC   |    729   |    0.5   |    2.0   |    0.2   |    90   |    66   |  
  |   4   |    Pm_CRT_R2   |    GCGAAGAACTGAAGCCCAAAA   |  
  |   5   |    Pm_AP2mu_F   |    CCGTTTCGACAAGAAGTAATTC   |    1527   |    0.5   |    2.0   |    0.2   |    90   |    62   |  
  |   6   |    Pm_AP2mu_R   |    ACATACCACTGGAGGTAAACATAG   |  
  |   7   |    Pm_ATP4_F   |    AACAAGAGAATCGTCTGAAAGG   |    3823   |    0.3   |    2.0   |    0.2   |    90   |    62   |  
  |   8   |    Pm_ATP4_R   |    AGCCCATGAAATGCCAAAGAGATA   |  
  |   9   |    Pm_ATP6_F   |    TGACTGGGGAATCTTGTTCA   |    3699   |    0.5   |    3.0   |    0.7   |    90   |    62   |  
  |   10   |    Pm_ATP6_R   |    TCAATAATGATAACAGGAAAAGACCA   |  
  |   11   |    Pm_CYTB_F   |    ACATGGTAGCACTAATCCTTTAGG   |    585   |    0.5   |    2.0   |    0.2   |    90   |    63   |  
  |   12   |    Pm_CYTB_R   |    CAGAAATATCGTCTTATCGTAGCC   |  
  |   13   |    Pm_DHFR_F   |    TATGCCATCTGCGCTTGCT   |    1811   |    0.3   |    2.0   |    0.2   |    90   |    62   |  
  |   14   |    Pm_DHFR_R   |    TTATCATGGTGCACGTAATTTTG   |  
  |   15   |    Pm_DHPS_F   |    ATACGAAACCGTCCCGGAGT   |    1897   |    0.5   |    2.0   |    0.2   |    90   |    68   |  
  |   16   |    Pm_DHPS_R   |    ACTGTACGAGGCAATGGCTAATCC   |  
  |   17   |    Pm_Kelch13_F   |    CTGTCACGTATGATAGAGAATCC   |    2089   |    0.5   |    2.0   |    0.2   |    90   |    63   |  
  |   18   |    Pm_Kelch13_R   |    ATCAGCACAGAATGCCCAAATCTT   |  
  |   19   |    Pm_MDR1_F   |    TATGTGCAACAATATCAGGAGG   |    4168   |    0.3   |    2.0   |    0.2   |    90   |    62   |  
  |   20   |    Pm_MDR1_R   |    ATACCATCCTGTTCTGCAAGTAGC   |  
  |   21   |    Pm_NHE_F   |    TTTAGCAAACCTGGGCAGTTCTTG   |    4988   |    0.5   |    3.0   |    0.7   |    120   |    67   |  
  |   22   |    Pm_NHE_R   |    GTTAGCAATAGTCCATTGGCTGC   |  
 
   Bộ đệm enzyme Q5 Polymerase có sẵn 2.0 mM MgCl2.
  
 PHÂN TÍCH DỮ LIỆU
 Phân tích microsatellite hoặc SSR (Simple Sequence Repeat)
 Các alen microsatellite đã được phân nhóm được nhập dưới dạng đối tượng genind vào phần mềm thống kê R (Phiên bản 4.1.13) và được sử dụng để phân tích di truyền quần thể. Ban đầu, các quần thể được xác định là các quốc gia mà từ đó các bản phân lập được thu thập. Đa dạng di truyền ở mức độ quần thể được đánh giá dựa trên dị hợp tử kỳ vọng và số lượng alen trên mỗi locus (tức là sự phong phú alen). Giá trị dị hợp tử kỳ vọng dao động từ 0 đến 1 (0 cho thấy không có sự đa dạng và 1 cho thấy tất cả các alen là khác nhau). Các thông số đa dạng như kiểu gen đa locus quan sát được và kỳ vọng, chỉ số đa dạng kiểu gen đa locus Shannon-Wiener, chỉ số đa dạng Stoddart và Taylor của kiểu gen đa locus, chỉ số Simpson, đa dạng gen không sai lệch của Nei và sự đồng đều đã được tính toán bằng hàm “poppr” trong R. 
 Khoảng cách di truyền cặp đôi của Bruvo được tính toán bằng các chỉ điểm microsatellite cho tất cả bản phân lập sử dụng lệnh “bruvo.dist” trong R và được hiển thị dưới dạng bản đồ nhiệt phân cấp. Để xác định cấu trúc quần thể, số lượng cụm di truyền tối ưu ban đầu được xác định bằng cách chạy K-means liên tiếp với các giá trị k tăng dần và so sánh các giải pháp phân cụm khác nhau sử dụng Tiêu chí Thông tin Bayesian (Bayesian Information Criterion BIC) trong phần mềm R. 
 Ngoài ra, hàm ‘find.clusters’ trong gói adegenet của R (phiên bản 2.0) được sử dụng để gắn từng cá thể vào các cụm di truyền. Phân tích phân biệt các thành phần chính (DAPC) được áp dụng để mô tả các cụm của các cá thể có liên quan di truyền và được hiển thị bằng biểu đồ phân tán. DAPC chuyển đổi dữ liệu bằng phương pháp phân tích thành phần chính (PCA), sau đó thực hiện phân tích phân biệt trên các thành phần chính được giữ lại bằng phương pháp kiểm tra chéo. Tổ tiên đã được xác định bằng mô hình admixture sử dụng phần mềm STRUCTURE phiên bản 2.3.4, với các cá thể được gắn vào các quần thể K dựa trên kiểu gen đa locus của chúng. 
 Giá trị K kỳ vọng được đặt từ 1 đến 9 và STRUCTURE được chạy với 100.000 lần lặp MCMC trong 10.000 chu kỳ Burn-in. Giá trị K thích hợp nhất được xác định bằng ΔK được tính toán và triển khai trên công cụ Structure Harvester Web v0.6.94. Phân bố tỷ lệ tổ tiên sau đó được hiển thị dưới dạng biểu đồ cột.
 Phân tích trình tự gen kháng thuốc ứng viên mục tiêu và SNP
 Chất lượng của các tệp Fastq thu được được kiểm tra bằng phần mềm FASTQC, sau đó cắt gọn và lọc để loại bỏ các đoạn kém chất lượng và chỉ số không mong muốn. Các đoạn đọc được xử lý như minh họa trong Hình 1 - các đoạn đọc hoặc được ánh xạ (mapping) trực tiếp vào bộ tham chiếu của các gen đích được ghép nối từ PLASMODB, hoặc được lọc để loại bỏ dữ liệu bị thiếu trước khi ánh xạ vào bộ tham chiếu, hoặc được xử lý qua quy trình khử nhiễu (dada2 phiên bản 1.16.0) trước khi thực hiện lọc và ánh xạ tham chiếu. Quá trình lọc dữ liệu thiếu được thực hiện qua ba bước:
 (i) Mẫu có hơn 80% dữ liệu thiếu bị loại khỏi tập dữ liệu gốc;
 (ii) Locus có hơn 70% dữ liệu thiếu từ tập dữ liệu thu được sau bước lọc đầu tiên (lọc 1) bị loại bỏ;
 (iii) Mẫu có hơn 40% dữ liệu thiếu từ tập dữ liệu thu được sau bước lọc thứ hai (lọc 2) cũng bị loại bỏ;
 Chi tiết được tóm tắt trong Bảng bổ sung 1.
  
  
P. malariae raw reads: Các đoạn đọc thô của P. malariae; P. malariae reads -trimmed and filtered: Các đoạn đọc P. malariae-đã cắt tỉa và lọc; P. malariae reads-poor quality: Các đoạn đọc P. malariae - chất lượng kém; Mapped to reference (BWA/BOWTIE): Ánh xạ với bộ tham chiếu (BWA/BOWTIE); Filtered for missingness (R script): Lọc thiếu dữ liệu (R script); Variant calling (BCFtools/Freebayes): Gọi biến thể (BCFtools/Freebayes); Denoising (Dada2 V1.16.0): Khử nhiễu (Dada2 V1.16.0)
 Hình 1. Quá trình phân tích trình tự amplicon
 Các đoạn đọc được ánh xạ kết hợp hoặc không kết hợp bằng cả BWA và BOWTIE riêng biệt. Việc gọi biến thể từ từng tệp bam được thực hiện bằng cả BCFtools và freebayes. Các tệp vcf thu được từ quá trình gọi biến thể được so sánh để xác định các SNP phù hợp và được chọn để phân tích tiếp theo. Để xác định cấu trúc của các mẫu phân lập từ SNP, áp dụng phương pháp DAPC như mô tả ở trên và hai tọa độ đầu tiên được trực quan hóa trên biểu đồ phân tán. 
 Sự khác biệt cặp đôi giữa các quần thể về SNP kháng thuốc tương đồng của P. malariae được so sánh dựa trên khoảng cách di truyền của Nei và được biểu diễn dưới dạng bản đồ nhiệt phân cấp. Độ phức tạp di truyền dựa trên SNP trong các mẫu (độ phức tạp hoặc tính đa nhiễm) được đánh giá thông qua hệ số cận huyết của Wright (Fws). Thước đo FWS (có giá trị từ 0 - 1) là một chỉ số về đa dạng di truyền trong vật chủ, mô tả mối quan hệ giữa sự đa dạng di truyền của một nhiễm trùng cá thể so với sự đa dạng di truyền của quần thể KSTSR. Giá trị FWS thấp cho thấy sự đa dạng di truyền cao trong vật chủ so với quần thể. Mức độ liên kết mất cân bằng (linkage disequilibrium - LD) giữa các SNP ở các mục tiêu kháng thuốc tương đồng cũng được xác định và biểu diễn bằng gói LDheatmap của R.
 (còn nữa)
 CN. Nguyễn Thái Hoàng & TS.BS. Huỳnh Hồng Quang 
 Viện Sốt rét-KST-CT Quy Nhơn