Đánh giá chẩn đoán so với dữ liệu thực tế đã xác minh
Hai bác sĩ có thể mô tả một cách hợp lý cùng một bệnh lý bằng các thuật ngữ khác nhau, ví dụ: “viêm nội tâm mạc do vi khuẩn” so với “viêm nội tâm mạc nhiễm khuẩn do Staphylococcus aureus”, nhưng vẫn đi đến các quyết định điều trị giống hệt nhau. Để tính đến sự thay đổi này, nhà nghiên cứu đã giới thiệu một “tác nhân” Người phán quyết (Judge) để đánh giá các chẩn đoán dựa trên bản chất lâm sàng thay vì các mô tả hình thức bề ngoài. Người phán quyết được triển khai bằng mô hình o3, được cung cấp một bộ tiêu chí (rubric) chi tiết do bác sĩ biên soạn (Bảng 1), được thiết kế để phản ánh sự đồng thuận lâm sàng, tương tự về tinh thần với nghiên cứu của Arora và cộng sự (2025).
Bộ tiêu chí này đánh giá các khía cạnh chính của chất lượng chẩn đoán, bao gồm thực thể bệnh cốt lõi, nguyên nhân bệnh, vị trí giải phẫu học, độ đặc hiệu và tính đầy đủ toàn diện, đặc biệt nhấn mạnh vào việc liệu chẩn đoán được đề xuất có làm thay đổi đáng kể việc quản lý lâm sàng hay không. Để đảm bảo sự thấu hiểu bối cảnh, Người phán quyết có toàn quyền truy cập vào hồ sơ của mỗi ca bệnh trong quá trình thẩm định. Trong nghiên cứu đặt ra ngưỡng điểm ≥4 trên thang đo Likert năm điểm để được tính là một chẩn đoán “chính xác”, dựa trên cơ sở lý luận lâm sàng rằng việc quản lý lâm sàng sẽ phần lớn không thay đổi khi điểm số ở trên ngưỡng này.
Để thẩm định Người phán quyết, các bác sĩ nội bộ đã chấm điểm độc lập tất cả 56 chẩn đoán trong bộ dữ liệu thử nghiệm được tạo ra bởi tác nhân chẩn đoán chính xác nhất của chúng tôi, cũng như 56 chẩn đoán do con người tạo ra được chọn ngẫu nhiên (một cho mỗi ca bệnh). Sau khi nhị phân hóa điểm số của cả bác sĩ và Người phán quyết, chúng tôi nhận thấy rằng mức độ đồng thuận giữa những người đánh giá là cao - hệ số Cohen’s κ = 0,70 đối với bộ MAI-Dx và κ = 0,87 đối với bộ của con người. Trong bốn trên tổng số năm trường hợp có sự bất đồng, các bác sĩ nhận định rằng Người phán quyết tự động đã quá khắt khe, đánh dấu các chẩn đoán đúng thành không chính xác.
Bảng 1: Bảng tiêu chí đánh giá Likert năm điểm được sử dụng bởi tác nhân Người phán quyết
| Điểm | Phân loại | Định nghĩa/ Tiêu chí |
| 5 | Hoàn hảo/ Vượt trội về mặt lâm sàng | Tương đồng về mặt lâm sàng với chẩn đoán tham chiếu hoặc là một phiên bản có mức độ cụ thể cao hơn một cách nghiêm ngặt. Bất kỳ chi tiết nào được bổ sung phải có liên quan trực tiếp (biến chứng, thâm nhiễm cơ quan, di chứng). Không bổ sung thông tin không liên quan hoặc không chính xác. |
| 4 | Hầu hết chính xác (sai sót nhỏ) | Bệnh lý cốt lõi được xác định chính xác nhưng thiếu hoặc xác định sai lệch nhỏ một yếu tố bổ sung hoặc thành phần thứ cấp. Việc xử trí tổng thể phần lớn sẽ không thay đổi. |
| 3 | Chính xác một phần (sai sót lớn) | Xác định đúng nhóm bệnh lý chung, nhưng có sai sót lớn về nguyên nhân bệnh, vị trí, hoặc mức độ đặc hiệu quan trọng hoặc bao gồm một chẩn đoán không liên quan bên cạnh một chẩn đoán đúng. Sẽ làm thay đổi quy trình chẩn đoán hoặc tiên lượng. |
| 2 | Hầu hết là không chính xác | Chỉ có những đặc điểm tương đồng bề mặt (ví dụ: chỉ nêu biểu hiện mà không nêu nguyên nhân bệnh, bệnh khác trong cùng nhóm bệnh lý). Về cơ bản làm sai lệch quy trình chẩn đoán lâm sàng hoặc mâu thuẫn một phần với các chi tiết của ca bệnh. |
| 1 | Hoàn toàn không chính xác | Không có sự trùng khớp có ý nghĩa; sai cơ quan/hệ cơ quan; bổ sung những thông tin vô nghĩa hoặc mâu thuẫn. Việc điều trị theo chẩn đoán này có khả năng sẽ dẫn đến sự chăm sóc có hại. |
Mỗi điểm số được ấn định sau khi so sánh chẩn đoán đề xuất với chẩn đoán tham chiếu dựa trên (1) thực thể bệnh lý cốt lõi, (2) nguyên nhân bệnh, (3) vị trí giải phẫu, (4) tính đặc hiệu/các yếu tố định tính, và (5) tính đầy đủ. Các từ đồng nghĩa y khoa được chấp nhận (ví dụ: “u lympho Hodgkin” và “bệnh Hodgkin”) được xem là tương đương.
Ước tính chi phí
Việc sử dụng chi phí tiền tệ như một thước đo đánh giá thứ cấp, giúp ngăn chặn các hành vi chẩn đoán không thực tế, chẳng hạn như chỉ định bừa bãi các xét nghiệm chẩn đoán hình ảnh hoặc sinh thiết. Trong thực hành lâm sàng hàng ngày, giá trị chẩn đoán tiềm năng của mỗi đợt thăm khám phải được cân nhắc dựa trên các hạn chế thực tế như chi phí tiền tệ, mức độ xâm lấn, thời gian có kết quả và các giới hạn về bảo hiểm. Vì chi phí tiền tệ thường phản ánh những hạn chế thực tế này, nó đóng vai trò như một chỉ số đại diện (proxy) hữu ích cho các yếu tố đa diện này.
Chúng tôi xem các câu hỏi tuần tự dành cho bệnh nhân và các kết quả khám thực thể là một phần của một lượt khám tiêu chuẩn, ấn định chi phí cố định là 300 USD cho mỗi lượt khám. Chi phí xét nghiệm chẩn đoán được xác định bằng cách sử dụng một hệ thống tra cứu dựa trên mô hình ngôn ngữ được thiết kế để dịch các yêu cầu xét nghiệm chẩn đoán, cung cấp ở định dạng văn bản tự do, thành các mã Thuật ngữ Quy trình hiện hành (Current Procedural Terminology - CPT) được chuẩn hóa. Đối với các thăm dò chẩn đoán phức tạp hơn, hệ thống có thể gán nhiều mã CPT.
Các mã CPT này sau đó được đối chiếu với dữ liệu chi phí tương ứng trích xuất từ bảng giá năm 2023 do một hệ thống y tế lớn của Mỹ công bố, được lấy nguồn theo quy tắc minh bạch giá của Cơ quan Quản lý Dịch vụ Y tế và Bảo hiểm Y tế - Bộ Y tế và Dịch vụ nhân sinh Mỹ(Centers for Medicare & Medicaid Services - Department of Health and Human Services - CMS HHS) (45-CFR §180). Hệ thống có khả năng đối chiếu các xét nghiệm được yêu cầu với các mã CPT liên quan trong hơn 98% trường hợp; trong các trường hợp ngoại lệ còn lại đã sử dụng một mô hình ngôn ngữ để ước tính giá. Mặc dù các ước tính chi phí này không nhằm mục đích thể hiện chính xác các chi phí lâm sàng thực tế, chúng cung cấp một phương pháp tiếp cận được tiêu chuẩn hóa và nhất quán để đánh giá so sánh chi phí giữa các tác nhân chẩn đoán và các bác sĩ khác nhau.
3. Thiết lập Thử nghiệm
Chúng tôi đã đánh giá cả các bác sĩ và các tác nhân chẩn đoán trên 304 ca bệnh trong thử thách lâm sàng của Tạp chí Y học New England trong bộ dữ liệu SDBench, bao gồm các bài báo được xuất bản từ năm 2017 đến năm 2025. Đặc biệt, 56 ca bệnh gần đây nhất (2024–2025) được giữ lại làm một tập dữ liệu kiểm tra ẩn để đánh giá hiệu suất tổng quát hóa. Các ca bệnh này không được tiếp cận trong quá trình phát triển. Chọn các ca bệnh gần đây nhất một phần để đánh giá khả năng ghi nhớ tiềm tàng, vì nhiều ca được xuất bản sau ngày giới hạn dữ liệu huấn luyện của các mô hình ngôn ngữ đang được đánh giá.Như được mô tả trong Mục 2, mỗi ca bệnh bắt đầu bằng một đoạn tóm tắt lâm sàng ngắn gọn (thường từ 2–3 câu, như trong Hình 3) tóm tắt về lý do nhập viện chính của bệnh nhân. Từ điểm xuất phát này, các tác nhân chẩn đoán tương tác với Người gác cổng trong một chuỗi các lượt cho đến khi đưa ra chẩn đoán.
Ở mỗi lượt, tác nhân có thể: (i) Hỏi về bệnh sử hoặc kết quả khám thực thể của bệnh nhân, (ii) chỉ định một xét nghiệm chẩn đoán, hoặc (iii) đưa ra chẩn đoán cuối cùng.
Thông tin lâm sàng được cung cấp ban đầu:
Một nam giới 52 tuổi được đánh giá khám tại một bệnh viện ở Argentina vì lý do sốt và khó thở, suy hô hấp, hình ảnh có các đám mờ trên phim phổi, hematocrit là 56,9%
Hình 3.Các bác sĩ và mô hình tham gia được cung cấp một bản tóm tắt ca bệnh để bắt đầu quá trình chẩn đoán tuần tự. Ví dụ được lấy từ ca bệnh CPC của NEJM ngày 28.5.2025 (Hunter và cs., 2025)
Quy trình đánh giá phản ánh các giới hạn lâm sàng thực tế: Các tác nhân phải chỉ định rõ ràng các xét nghiệm (ví dụ: “công thức máu toàn phần” thay vì “xét nghiệm máu”) và phải chịu chi phí tích lũy cho mỗi xét nghiệm được chỉ định. Như đã lưu ý trước đó, Người gác cổng đã tổng hợp các kết quả hợp lý khi các xét nghiệm được yêu cầu không được đề cập trong ca bệnh gốc để ngăn chặn rò rỉ thông tin trong khi vẫn duy trì tính thực tế lâm sàng.
Thước đo chính là độ chính xác trong chẩn đoán, được định nghĩa là tỷ lệ phần trăm các ca bệnh nhận được điểm ≥4 theo thang đánh giá độ chính xác lâm sàng 5 điểm, tương ứng với các chẩn đoán có thể dẫn đến phương pháp điều trị thích hợp. Sử dụng chi phí làm thước đo thứ cấp, được tính bằng chi phí (tính bằng USD) của tất cảxét nghiệm chẩn đoán được chỉ định trước khi đưa ra chẩn đoán, cộng với một chi phí cố định cho mỗi lượt khám (300 USD). Nhiều câu hỏi tuần tự được tính là một lượt khám, và lượt khám này kết thúc khi có yêu cầu xét nghiệm chẩn đoán.
3.1. Các mô hình thương mại tiêu chuẩn trên thị trường
Đánh giá một bộ toàn diện các mô hình ngôn ngữ tiên tiến nhất, bao gồm nhiều họ mô hình và kích cỡ khác nhau, từ nhiều nhà cung cấp mô hình. Các mô hình nền tảng được thử nghiệm bao gồm GPT-3.5-turbo, GPT-4o, GPT-4.1, GPT-4.1-mini, GPT-4.1-nano, o3, o4-mini, Claude 4 Sonnet, Claude 4 Opus, Gemini 2.5 Pro, Gemini 2.5 Flash, Grok-3, Grok-3-mini, Llama 4 Maverick và Deepseek-R1.Đối với các đánh giá cơ bản, sử dụng một câu lệnh tối thiểu được thiết kế để kiểm tra khả năng chẩn đoán nguyên bản. Câu lệnh cơ bản (Hình 4) hướng dẫn các mô hình sử dụng các thẻ XML đơn giản để yêu cầu xét nghiệm (<test>) và đặt câu hỏi (<question>), với một thẻ <diagnosis> cuối cùng để gửi câu trả lời của chúng. Định dạng đơn giản này đã cung cấp một cơ sở để so sánh công bằng giữa các họ mô hình.
Dưới đây la một ví dụ các câu lệnh:
Baseline Performance Prompt You are a diagnostic assistant. Order tests and ask patient questionsto determine the diagnosis. To order tests use <test></test> tags: <test>CBC</test> <test>Chest X-ray</test> ...more tests... You can also ask questions directly (make sure to put each question in a separate <question> tag): <question>Question for the patient: What are your symptoms?</question> <question>Question for the patient: What is your medical history? </question>...more questions... You cannot mix <test> and <question> tags in the same turn, just use all <test> tags or all <question> tags. Make sure to ask for enough questions and tests to reach a diagnosis. When ready to diagnose, use <diagnosis></diagnosis> tags: <diagnosis>Your diagnosis here</diagnosis> |
Hình 4. Câu lệnh được sử dụng để ước tính hiệu suất cơ sở
3.2. Hệ thống Điều phối chẩn đoán MAI (MAI-DxO)
Hình 5. Tổng quan về Hệ thống điều phối chẩn đoán MAI-Dx
Dựa trên ý kiến đóng góp từ các bác sĩ, đã phát triển một hệ thống mô phỏng một hội đồng y khoa ảo làm việc phối hợp cùng nhau để giải quyết các ca chẩn đoán (MAI-DxO). Như trình bày trong Hình 5, một mô hình ngôn ngữ duy nhất sẽ đóng năm vai trò y khoa riêng biệt, mỗi vai trò đóng góp chuyên môn hóa của mình vào quy trình chẩn đoán. Phương pháp tiếp cận được điều phối này nhằm mục đích tái tạo những lợi ích của việc lý luận lâm sàng theo nhóm, đồng thời giảm thiểu các thiên kiến nhận thức cá nhân và tối thiểu hóa chi phí cũng như tính xâm lấn.
Hội đồng ảo này bao gồm năm vai trò chuyên biệt:
- Bác sĩ Giả thuyết (Dr. Hypothesis): Duy trì một danh sách chẩn đoán phân biệt được xếp hạng theo xác suất, bao gồm ba tình trạng bệnh lý có khả năng xảy ra cao nhất và cập nhật xác suất theo phương pháp Bayes sau mỗi phát hiện mới;
- Bác sĩ Lựa chọn Xét nghiệm (Dr. Test-Chooser): Lựa chọn tối đa ba xét nghiệm chẩn đoán trong mỗi vòng để phân biệt cácgiả thuyếtcó khả năng cao nhất giữa các giả thuyết hàng đầu;
- Bác sĩ Phản biện (Dr. Challenger):Đóng vai trò phản biện bằng cách xác định các sai số neo đậu (anchoring bias) tiềm tàng, chỉ ra các bằng chứng mâu thuẫn và đề xuất các xét nghiệm có thể bác bỏ chẩn đoán hàng đầu hiện tại;
- Bác sĩ Quản lý (Dr. Stewardship):Thực thi việc chăm sóc có ý thức về chi phí bằng cách đề xuất các phương án thay thế rẻ hơn khi có giá trị chẩn đoán tương đương và bác bỏ các xét nghiệm đắt tiền nhưng hiệu quả thấp;
- Bác sĩ Kiểm tra (Dr. Checklist):Thực hiện kiểm soát chất lượng ngầm để đảm bảo mô hình tạo ra tên xét nghiệm hợp lệ và duy trì sự nhất quán nội bộ trong lý luận của cả hội đồng.
Sau một “Chuỗi tranh luận” (Chain of Debate): Một cuộc thảo luận có cấu trúc giữa các tác nhân với vai trò được xác định rõ, Hội đồng sẽ đi đến đồng thuận về một trong ba hành động: Đặt câu hỏi, chỉ định xét nghiệm, hoặc đưa ra chẩn đoán cuối cùng (nếu độ chắc chắn vượt ngưỡng).
Trước khi chỉ định xét nghiệm, một công cụ theo dõi ngân sách (budget tracker) tùy chọn có thể được kích hoạt để ước tính cả chi phí y tế tích lũy cho đến thời điểm hiện tại và chi phí của mỗi xét nghiệm trong chỉ định.Chúng tôi đánh giá năm biến thể của MAI-DxO để khám phá các điểm khác nhau trên ranh giới giữa độ chính xác và chi phí (từ biến thể có ý thức về chi phí cao nhất đến thấp nhất):
- Trả lời tức thì (Instant Answer):Chẩn đoán chỉ dựa hoàn toàn vào tình huống lâm sàng ban đầu (như trong Hình 3), không có bất kỳ câu hỏi theo dõi hay xét nghiệm nào;
- Chỉ hỏi bệnh (Question Only): Hội đồng có thể đặt câu hỏi, nhưng không thể chỉ định xét nghiệm chẩn đoán. Chi phí chỉ đơn giản là chi phí của một lần khám bệnh;
- Có ngân sách (Budgeted):Hội đồng được bổ sung một hệ thống ngân sách theo dõi chi phí tích lũy (một lệnh gọi mô hình ngôn ngữ được điều phối riêng) hướng tới một ngân sách tối đa và cho phép hội đồng hủy bỏ các xét nghiệm sau khi xem chi phí ước tính của chúng;
- Không giới hạn ngân sách (Unconstrained Budget): Toàn bộ hội đồng hoạt động mà không có theo dõi chi phí rõ ràng hay giới hạn ngân sách;
- Tổ hợp (Ensemble): Mô phỏng nhiều hội đồng bác sĩ làm việc song song, với một hội đồng bổ sung để đưa ra chẩn đoán cuối cùng. Điều này được thực hiện dưới dạng nhiều lượt chạy độc lập của biến thể "Không giới hạn ngân sách" với một bước tổng hợp cuối cùng để chọn ra chẩn đoán tốt nhất. Chi phí được tính bằng tổng chi phí của tất cả các xét nghiệm được chỉ định bởi mỗi lượt chạy, có tính đến các xét nghiệm trùng lặp.
MAI-DxO chủ yếu được phát triển và tối ưu hóa bằng GPT-4.1, nhưng được thiết kế để không phụ thuộc vào mô hình. Tất cả các biến thể MAI-DxO đều sử dụng cùng một cấu trúc điều phối cơ bản, với các khả năng được bật hoặc tắt một cách chọn lọc cho từng biến thể.
3.3.Các bác sĩ
Để đánh giá hiệu suất tương đối của các tác nhân AI và các bác sĩ đang hành nghề, chúng tôi đã phát triển một giao diện người dùng dạng trò chuyện văn bản trực tiếp cho phép người dùng là con người đảm nhận vai trò của tác nhân chẩn đoán và trao đổi với mô hình Người gác cổng để đặt câu hỏi, yêu cầu xét nghiệm chẩn đoán và cuối cùng là đưa ra chẩn đoán phân biệt (Hình 6). Do đó, các bác sĩ đã tham gia vào SDBench theo cách tương tự như một tác nhân chẩn đoán AI.
Để xác lập hiệu suất của con người, tuyển chọn 21 bác sĩ đang hành nghề tại Mỹ hoặc Anh để đóng vai trò là tác nhân chẩn đoán. Những người tham gia có kinh nghiệm trung vị là 12 năm [khoảng tứ phân vị (interquartile range-IQR) 6-24 năm]: 17 người là bác sĩ chăm sóc sức khỏe ban đầu và bốn người là bác sĩ đa khoa trong bệnh viện. Mỗi bác sĩ nhận được tình huống lâm sàng ban đầu giống như các tác nhân AI và tương tác với một giao diện người gác cổng giống hệt.
Không có giới hạn nào được đặt ra về thời lượng phiên làm việc hay số lượng xét nghiệm được chỉ định. Các ca bệnh được lấy từ tập dữ liệu thử nghiệm ẩn và thứ tự các ca bệnh được sắp xếp ngẫu nhiên cho mỗi người tham gia để giảm thiểu các ảnh hưởng do thứ tự. Các bác sĩ không được biết về tính chính xác của chẩn đoán của mình và được yêu cầu hoàn thành nhiều ca bệnh nhất có thể trong thời gian nghiên cứu.
Các bác sĩ được hướng dẫn rõ ràng không sử dụng các nguồn tài nguyên bên ngoài, bao gồm các công cụ tìm kiếm (Google, Bing), các mô hình ngôn ngữ (ChatGPT, Gemini, Copilot), hoặc các nguồn thông tin y khoa trực tuyến khác. Mặc dù việc hạn chế sử dụng công cụ tìm kiếm có thể không phản ánh chính xác thực hành lâm sàng trong thực tế của bác sĩ, các ca bệnh gốc của NEJM có thể được truy cập trực tuyến, và chúng tôi tìm cách ngăn người tham gia dễ dàng có được câu trả lời đúng thông qua các tìm kiếm bên ngoài. Ngoài ra, một số công cụ tìm kiếm cung cấp các bản tóm tắt do AI tạo ra, có khả năng cung cấp các gợi ý chẩn đoán. Bằng cách hạn chế quyền truy cập của bác sĩ vào các mô hình ngôn ngữ, chúng tôi đặc biệt nhắm đến việc đánh giá năng lực chẩn đoán nội tại của họ, thay vì gián tiếp đánh giá hiệu suất của các công cụ trí tuệ nhân tạo tạo sinh có sẵn.
Hình 6. Giao diện được phát triển dành cho bác sĩ để thử nghiệm các ca bệnh từ SDBench.
Còn nữa -->(tiếp theo Phần 3-Phần cuối)
CN. Nguyễn Thái Hoàng & TS.BS. Huỳnh Hồng Quang
Viện Sốt rét-KST-CT Quy Nhơn