Tuy nhiên, hầu hết đánh giá về mô hình ngôn ngữ đều dựa trên các tình huống “lâm sàng tĩnh” và câu hỏi trắc nghiệm, không phản ánh được sự phức tạp và sắc thái của y học dựa trên bằng chứng trong môi trường thực tế. Trong thực hành lâm sàng, các bác sĩ liên tục xây dựng và điều chỉnh các giả thuyết chẩn đoán, điều chỉnh từng câu hỏi và xét nghiệm tiếp theo dựa trên những gì họ vừa tìm hiểu được và cân nhắc các bằng chứng đang dần hé lộ ra trước khi đi đến chẩn đoán cuối cùng.Để mô phỏng quy trình chẩn đoán lặp lại này, chúng tôi giới thiệu Tiêu chuẩn Đánh giá chẩn đoán tuần tự (Sequential Diagnosis Benchmark), chuyển đổi 304 ca bệnh khó chẩn đoán từ các Hội nghị Bệnh học lâm sàng - đăng trên Tạp chí Y học New England Journal of Medicinethành các bước chẩn đoán tuần tự. 
 Một bác sĩ hoặc trí tuệ nhân tạo (AI) sẽ bắt đầu với một bản tóm tắt ca bệnh ngắn và phải yêu cầu bổ sung thông tin nhiều lần từ một mô hình "người gác cổng" (gatekeeper model) mà nó chỉ tiết lộ kết quả khi được truy vấn một cách rõ ràng. Hiệu suất hoạt động sau đó không chỉ được đánh giá bằng độ chính xác của chẩn đoán mà còn bằng chi phí của các lần khám bệnh và các xét nghiệm đã thực hiện.Để bổ sung cho tiêu chuẩn đánh giá, chúng tôi trình bày Hệ thống Điều phối Chẩn đoánMAI (MAI Diagnostic Orchestrator - MAI-DxO), một hệ thống điều phối độc lập với mô hình ngôn ngữ, có khả năng mô phỏng một hội đồng bác sĩ, đề xuất các chẩn đoán phân biệt có thể có và lựa chọn một cách chiến lược các xét nghiệm có giá trị cao và hiệu quả về mặt chi phí. Khi kết hợp với mô hình O3 của OpenAI, MAI-DxO đạt độ chính xác chẩn đoán 80%, cao gấp bốn lần so với mức trung bình 20% của các bác sĩ đa khoa. MAI-DxO cũng làm giảm 20% chi phí chẩn đoán so với bác sĩ và 70% so với việc sử dụng mô hình O3 thương mại tiêu chuẩn. Khi được cấu hình để đạt độ chính xác tối đa, MAI-DxO đạt độ chính xác 85,5%. Những cải tiến về hiệu suất này của MAI-DxO có tính tổng quát khi phối hợp được cả các mô hình thuộc các họ OpenAI, Gemini, Claude, Grok, DeepSeek và Llama.Chúng tôi nhấn mạnh rằng các hệ thống trí tuệ nhân tạo, khi được định hướng để tư duy lặp lại và hành động một cách thận trọng, có thể thúc đẩy cả độ chính xác trong chẩn đoán và hiệu quả chi phí trong chăm sóc lâm sàng.
 1. Giới thiệu
 Chẩn đoán tuần tự là một nền tảng của lý luận lâm sàng, trong đó các bác sĩ điều chỉnh và cải thiện các giả thuyết chẩn đoán của mình từng bước một thông qua việc hỏi bệnh và chỉ định xét nghiệm lặp đi lặp lại. Hình 1 minh họa cách một người chẩn đoán có thể tiếp cận một ca bệnh với thông tin ban đầu hạn chế, đặt ra các câu hỏi từ bao quát đến ngày càng cụ thể để thu hẹp chẩn đoán phân biệt đến phạm vi một bệnh ác tính có khả năng xảy ra, tiếp theo là chẩn đoán hình ảnh, sinh thiết và các xét nghiệm chuyên khoa để đi đến chẩn đoán cuối cùng. Việc giải quyết các ca bệnh như vậy đòi hỏi một bộ kỹ năng bổ trợ: Xác định các câu hỏi hoặc xét nghiệm tiếp theo cung cấp nhiều thông tin nhất, cân bằng giữa giá trị chẩn đoán thu được với chi phí cũng như gánh nặng cho bệnh nhân và nhận biết khi nào bằng chứng đã đủ để đưa ra một chẩn đoán chắc chắn.
 Các mô hình ngôn ngữ (Language models - LMs) đã cho thấy khả năng chẩn đoán ấn tượng, với các nghiên cứu gần đây cho thấy hiệu suất hàng đầu trong các kỳ thi cấp chứng chỉ hành nghề y khoa và các tình huống chẩn đoán có cấu trúc chặt chẽ (Nori và cs., 2023a, b; McDuff và cs., 2025; Cabral và cs., 2024; Nori và cs., 2024; Goh và cs., 2024).Tuy nhiên, những đánh giá này diễn ra trong các điều kiện nhân tạo, khác biệt rõ rệt so với thực hành lâm sàng trong thực tế. Hầu hết các bài đánh giá chẩn đoán đều cung cấp cho các mô hình những tình huống lâm sàng được đóng gói sẵn, bao gồm lý do chính đến khám, bệnh sử, các kết quả khám sức khỏe chính và kết quả xét nghiệm, sau đó yêu cầu mô hình chọn một chẩn đoán từ một bộ câu trả lời được xác định trước. Bằng cách rút gọn chu trình chẩn đoán tuần tự thành một bài trắc nghiệm một lượt duy nhất, các hệ thống đánh giá tĩnh có nguy cơ phóng đại năng lực của mô hình và che khuất các điểm yếu tiềm tàng, bao gồm việc kết luận chẩn đoán sớm, chỉ định xét nghiệm một cách bừa bãi và neo giữ vào các giả thuyết ban đầu.
 Chúng tôi giới thiệu Tiêu chuẩn Đánh giá Chẩn đoán tuần tự (Sequential Diagnosis Benchmark - SDBench), một hệ thống tương tác để đánh giá các tác nhân chẩn đoán (con người hoặc trí tuệ nhân tạo-AI) thông qua các cuộc gặp gỡ lâm sàng tuần tự thực tế. SDBench tái cấu trúc 304 ca bệnh từ các Hội nghị bệnh họclâm sàng (clinicopathological conference cases - CPC)  của Tạp chí Y học New England thành các cuộc gặp gỡ chẩn đoán theo từng bước, trong đó đối với một tác nhân chẩn đoán quyết định nên hỏi câu gì, chỉ định xét nghiệm nào và khi nào đưa ra chẩn đoán cuối cùng. Thông tin phản hồi được tiết lộ bởi một "Người gác cổng" thông tin (information Gatekeeper), một mô hình ngôn ngữ đóng vai trò là nguồn cung cấp toàn bộ dữ liệu về ca bệnh. 
 "Người gác cổng" chỉ tiết lộ các kết quả lâm sàng cụ thể khi được truy vấn rõ ràng và có thể tổng hợp thêm thông tin phù hợp với ca bệnh cho các xét nghiệm không được mô tả trong tường thuật CPC gốc. Một khi chẩn đoán cuối cùng được đệ trình, chúng tôi đánh giá tính chính xác của nó so với chẩn đoán thực tế đã được xác minh (ground truth diagnosis) và tính toán tổng chi phí ước tính trong thế giới thực của tất cả các xét nghiệm chẩn đoán đã được yêu cầu. Bằng cách đo lường cả độ chính xác chẩn đoán và chi phí, SDBench phù hợp với các mục tiêu của mục tiêu bộ ba (Triple Aim) (Berwick và cs., 2008), vốn hướng tới việc chăm sóc chất lượng cao với chi phí bền vững.
 Trên SDBench, một nhóm các bác sĩ Mỹ và Anh với kinh nghiệm trung vị là 12 năm đã đạt độ chính xác 20% với chi phí trung bình là 2.963 USD mỗi ca, điều này cho thấy độ khó vốn có của hệ thống đánh giá. Các mô hình thương mại tiêu chuẩn có sẵn cho thấy sự đánh đổi khác nhau: GPT-4o đạt độ chính xác 49,3% với chi phí thấp hơn (2.745 USD mỗi ca), trong khi o3 đạt độ chính xác 78,6% với chi phí cao hơn đáng kể (7.850 USD mỗi ca). Chúng tôi cũng giới thiệu Hệ thống điều phối chẩn đoán MAI (MAI Diagnostic Orchestrator - MAI-DxO), một hệ thống được điều phối vàđược thiết kế song song với các bác sĩ, liên tục vượt trội hơn cả bác sĩ con người và các mô hình ngôn ngữ thương mại dọc theo ranh giới Pareto về chi phí-độ chính xác. 
 So với các mô hình ngôn ngữ thương mại tiêu chuẩn hiện nay, MAI-DxO cải thiện độ chính xác chẩn đoán trong khi cắt giảm hơn một nửa chi phí y tế ước tính, chứng tỏ sức mạnh của sự điều phối cẩn thận ngay cả khi hoạt động trên nền tảng các mô hình tiên tiến nhất. Ví dụ, trong khi mô hình o3 thương mại tiêu chuẩn đạt độ chính xác 78,6% với chi phí 7.850 USD, MAI-DxO đạt 79,9% chỉ với 2.397 USD, hoặc 85,5% với 7.184 USD (Mục 4). Những thành tựu này bắt nguồn từ một bộ các chiến lược lấy cảm hứng từ bác sĩ: Mô phỏng một hội đồng bác sĩ ảo với các vai trò riêng biệt, ước tính chi phí biên (marginal cost) giữa các vòng chẩn đoán và sử dụng các phương pháp tổng hợp mô hình (model ensembling) trên các phản hồi của mô hình. Điều quan trọng là các kỹ thuật này có nhiều công dụng: MAI-DxO đã tăng cường độ chính xác của các mô hình thương mại tiêu chuẩn từ nhiều nhà cung cấp khác nhau trung bình 11 điểm phần trăm.
 Những đóng góp đưa chẩn đoán do AI điều khiển đến gần hơn với tính hữu dụng lâm sàng trên hai phương diện chính. Thứ nhất, SDBench vượt qua các hệ thống đánh giá tĩnh bằng cách cải tiến phù hợp với bản chất không ngừng thay đổi và không chắc chắn của lý luận chẩn đoán trong thực tế. Các công trình trước đây sử dụng NEJM CPC để đánh giá lý luận chẩn đoán (McDuff và cs., 2025; Brodeur và cs., 2024) đã trình bày toàn bộ ca bệnh ngay từ đầu và yêu cầu đưa ra các chẩn đoán hàng đầu (Top-k diagnoses)ngầm giả định rằng có thông tin hoàn hảo. Ngược lại, SDBench thách thức các tác nhân chẩn đoán phải quyết định yêu cầu câu hỏi hoặc xét nghiệm nào, theo thứ tự nào và khi nào đưa ra chẩn đoán cuối cùng, tất cả đều dưới các ràng buộc về chi phí. Điều này cho phép chúng tôi đánh giá không chỉ độ chính xác chẩn đoán mà còn khả năng của tác nhân trong việc tìm kiếm bằng chứng giàu thông tin nhất theo cách có ý thức về chi phí và nhận biết khi nào sự chắc chắn trong chẩn đoán là cần thiết. Thứ hai, MAI-DxO cho thấy những gì đã có thể đạt được với sự điều phối chu đáo các mô hình có sẵn tốt nhất hiện nay, vượt qua các bác sĩ giàu kinh nghiệm gấp 4 lần về độ chính xác trong khi cũng giảm chi phí. Cùng với nhau, SDBench và MAI-DxO thiết lập một nền tảng dựa trên kinh nghiệm thực chứng để thúc đẩy chẩn đoán có sự hỗ trợ của AI dưới các ràng buộc thực tế.
 2. Tiêu chuẩn Đánh giá Chẩn đoán tuần tự
 Để xây dựng Tiêu chuẩn Đánh giá Chẩn đoán tuần tự, chúng tôi đã thu thập các ca bệnh từ loạt bài thử thách lâm sàng (Case Challenge) của Tạp chí Y học New England (NEJM). Bộ dữ liệu này bao gồm nhiều dạng biểu hiện lâm sàng đa dạng, với chẩn đoán cuối cùng trải dài từ các bệnh lý phổ biến (ví dụ: “viêm phổi do COVID-19”) đến các rối loạn hiếm gặp (ví dụ: “hạ đường huyết sơ sinh do u quái có hoạt tính sinh học”). Chúng tôi đã thu thập 304 ca bệnh liên tiếp được công bố từ năm 2017 đến năm 2025, chuyển đổi mỗi ca bệnh thành một mô phỏng tương tác về tư duy chẩn đoán tuần tự. Mỗi lượt tương tác bắt đầu bằng một bản tóm tắt ngắn gọn về bệnh nhân và lý do nhập viện chính của họ, ví dụ: “Một phụ nữ 29 tuổi được nhập viện vì đau họng, sưng và chảy máu quanh amidan. Các triệu chứng không thuyên giảm khi điều trị bằng liệu pháp kháng sinh” (Hình 1). Từ điểm khởi đầu đó, một tác nhân liên quan chẩn đoán (hoặc một bác sĩ) có thể thực hiện một trong các hành động sau:
 Đặt câu hỏi: các câu hỏi dạng văn bản tự do về bệnh sử hoặc chi tiết thăm khám (“Bệnh nhân có đi du lịch gần đây không?”). Cho phép đặt nhiều câu hỏi.
 Yêu cầu xét nghiệm chẩn đoán:Các chỉ định rõ ràng cho xét nghiệm, chẩn đoán hình ảnh hoặc thủ thuật (“Chỉ định chụp CT ngực có cản quang”).
 Chẩn đoán:Một kết luận duy nhất cho chẩn đoán cuối cùng (“Chẩn đoán là bệnh nhiễm nấm Histoplasma.”)
 Tác nhân Người gác cổng(được mô tả chi tiết bên dưới) sẽ diễn giải mỗi yêu cầu, tham khảo hồ sơ bệnh án đầy đủ và phản hồi bằng ngôn ngữ đơn giản, hoặc là cung cấp thông tin được yêu cầu hoặc từ chối nếu truy vấn quá mơ hồ hoặc không cụ thể. Khi tác nhân Chẩn đoán chọn hành động ‘chẩn đoán’, người phán quyết (Judge) sẽ đánh giá tính chính xác của chẩn đoán được đề xuất, và một công cụ ước tính chi phí (Cost Estimator) sẽ tính toán tổng chi phí của tất cả các xét nghiệm đã được chỉ định. Tác nhân chẩn đoán được đánh giá dựa trên hai trục: Độ chính xác của chẩn đoán và chi phí xét nghiệm cộng gộp lại.
 Người gác cổng (Gatekeeper)
 Chúng tôi đã triển khai Người gác cổng (Gatekeeper) bằng một mô hình ngôn ngữ (o4-mini) có quyền truy cập vào toàn bộ hồ sơ ca bệnh lâm sàng-bệnh học từ NEJM, bao gồm cả chẩn đoán cuối cùng. Dựa trên các quy tắc do bác sĩ xây dựng, Gatekeeper chỉ tiết lộ những thông tin mà một bác sĩ lâm sàng trong thực tế có thể thu thập được một cách hợp pháp từ một truy vấn hoặc xét nghiệm nhất định, chẳng hạn như kết quả xét nghiệm cụ thể, bệnh sử ngắn gọn, hoặc các dấu hiệu khám thực thể. Nó từ chối một cách rõ ràng việc cung cấp các cảm giác ấn tượng (impression) chẩn đoán, diễn giải kết quả xét nghiệm, hoặc đưa ra các gợi ý không có trong một bối cảnh lâm sàng thực tế. 
 Thông tin chẩn đoán hình ảnh bị giữ lại cho đến khi được chỉ định một cách rõ ràng; Các dấu hiệu đặc hiệu cho bệnh (pathognomonic findings) chỉ được tiết lộ khi có yêu cầu xét nghiệm khẳng định chính xác và các yêu cầu mơ hồ hoặc quá rộng sẽ bị từ chối một cách lịch sự. Các câu hỏi trực tiếp về bệnh sử hoặc thăm khám của bệnh nhân sẽ nhận được phản hồi bằng ngôn ngữ lâm sàng, phản ánh sát sao nhiệm vụ trích xuất thông tin mà các bác sĩ phải đối mặt khi xem xét một bệnh án. 
 Hình 1 minh họa các yêu cầu và phản hồi mẫu. Thông qua phương pháp này, Gatekeeper loại bỏ các yếu tố tiết lộ trước (spoilers) và thiên kiến nhận thức muộn (hindsight bias) thường có trong các bài viết về ca bệnh mang tính giáo dục.
 Hình 1. Ví dụ về 1 trường AI đang giải quyết một vấn đề lý luận chẩn đoán chuỗi
 Trong các nghiên cứu thí điểm ban đầu với các bác sĩ và mô hình ngôn ngữ (LM), chúng tôi quan sát thấy một phần đáng kể các truy vấn thông tin nhắm vào các chi tiết của bệnh nhân hoặc kết quả xét nghiệm không có trong các ca bệnh đã được công bố ban đầu. Chiến lược ban đầu của là phản hồi “Không có thông tin” đã gây ra các tác dụng phụ ngoài ý muốn: Nó ngầm báo hiệu những truy vấn nào đang đi lạc đề và vô tình làm nản lòng việc nghĩ đến các hướng tư duy lâm sàng hợp lệ khác. Để giải quyết vấn đề này, chúng tôi đã thay đổi để Người gác cổng sẽ trả về các kết quả tổng hợp (synthetic findings) từ các ca bệnh thực tế đối với những truy vấn không có trong dữ liệu hồ sơ gốc. Những kết quả này nhất quán về mặt số liệu hoặc mô tả với phần còn lại của ca bệnh và không có dấu hiệu nào cho thấy chúng là kết quả tổng hợp. Bằng cách trả về những gì có khả năng được phát hiện nếu xét nghiệm đó được thực hiện, Người gác cổng duy trì tính chân thực lâm sàng đồng thời tránh được các manh mối ngầm từ dữ liệu bị thiếu.
 Thẩm định sâu hơn về hành vi của Người gác cổng bằng cách yêu cầu một hội đồng các bác sĩ đánh giá 508 phản hồi của Người gác cổng, bao gồm cả kết quả thực và kết quả tổng hợp. Những người đánh giá được hướng dẫn tìm kiếm và phân loại bất kỳ phản hồi không phù hợp nào, bao gồm các manh mối có thể “làm rò rỉ” thông tin chẩn đoán, kết quả từ xét nghiệm không được chỉ định, các diễn giải lâm sàng vượt ra ngoài kết quả xét nghiệm khách quan và các kết quả đặc trưng của bệnh (pathognomonic results) được cung cấp quá sớm. 
 Những người đánh giá chỉ gắn cờ tám phản hồi là có khả năng gây ra vấn đề, và không có phản hồi nào được cho là đã làm rò rỉ chẩn đoán sau khi được hội đồng thẩm định.
  Hình 2. Phối hợp đa tác nhân trong tiêu chuẩn SDBench. Một kho dữ liệu các ca bệnh CPC trên NEJM được chuyển đổi thành các thử thách chẩn đoán tuần tự thông qua sự phối hợp của ba tác nhân: Người gác cổng (Gatekeeper), Người Chẩn đoán (Diagnostic) và Người phán quyết (Judge). Trong thời gian chạy, Người gác cổng làm trung gian cho các yêu cầu thông tin từ Người Chẩn đoán, quyết định xem có phản hồi hay không và phản hồi như thế nào đối với các câu hỏi của Người Chẩn đoán về bệnh sử, các dấu hiệu thăm khám và kết quả xét nghiệm. Người phán quyết đánh giá xem chẩn đoán cuối cùng của Người Chẩn đoán có khớp với dữ liệu thực tế đã được xác minh (ground truth) được báo cáo trong bài báo CPC gốc hay không.
 Còn nữa --> (tiếp theo Phần 2)
 CN. Nguyễn Thái Hoàng & TS.BS. Huỳnh Hồng Quang
 Viện Sốt rét-KST-CT Quy Nhơn