Khi được kiểm tra so sánh với các bệnh án thực tế được công bố hàng tuần trên Tạp chí Y học New England(New England Journal of Medicine - NEJM), cho thấy Hệ thống điều phối chẩn đoán AI của Microsoft (Microsoft AI Diagnostic Orchestrator - MAI-DxO) chẩn đoán chính xác tới 85% các diễn tiến ca bệnh trên NEJM, một tỷ lệ cao hơn gấp bốn lần so với một nhóm các bác sĩ giàu kinh nghiệm. MAI-DxO cũng đưa ra chẩn đoán chính xác với chi phí hiệu quả hơn so với các bác sĩ.
Trong bối cảnh nhu cầu chăm sóc sức khỏe tiếp tục gia tăng, chi phí đang tăng với tốc độ rất khó nắm bắt và hàng tỷ người phải đối mặt với nhiều rào cản trong việc tiếp cận dịch vụ sức khỏe tốt hơn, bao gồm cả việc chẩn đoán không chính xác và chậm trễ. Ngày càng có nhiều người tìm đến các công cụ kỹ thuật số để nhận lời khuyên và hỗ trợ y tế. Trên khắp các sản phẩm AI tiêu dùng của Microsoft như Bing và Copilot, chúng tôi ghi nhận hơn 50 triệu phiên truy cập liên quan đến sức khỏe mỗi ngày. Từ một truy vấn về cơn đau đầu gối lần đầu tiên cho đến việc tìm kiếm một phòng khám cấp cứu vào đêm khuya, các công cụ tìm kiếm và trợ lý AI đang nhanh chóng trở thành tuyến đầu mới trong lĩnh vực chăm sóc sức khỏe.
Chúng tôi muốn làm nhiều hơn nữa để giúp đỡ và tin rằng AI tạo sinh có thể tạo ra xu thế chuyển đổi mới. Đó là lý do tại sao? vào cuối năm 2024, chúng tôi đã khởi động một nỗ lực chuyên biệt về sức khỏe người tiêu dùng tại Microsoft AI, được dẫn dắt bởi các bác sĩ lâm sàng, nhà thiết kế, kỹ sư và nhà khoa học AI. Nỗ lực này bổ sung cho các sáng kiến sức khỏe rộng lớn hơn của Microsoft và được xây dựng dựa trên cam kết lâu dài về quan hệ đối tác và đổi mới. Các giải pháp hiện có gồm RAD-DINO giúp tăng tốc và cải thiện quy trình làm việc trong chẩn đoán hình ảnh và Microsoft Dragon Copilot, trợ lý AI ưu tiên giọng nói tiên phong dành cho các bác sĩ lâm sàng.Để AI có thể tạo ra sự khác biệt, cả giới y khoa và bệnh nhân đều phải tin tưởng vào khả năng của nó. Đây chính là lúc các tiêu chuẩn kiểm tra so sánh và hệ thống điều phối AI mới phát huy tác dụng.
Các thách thức và Tiêu chuẩn kiểm tra so sánh trong bệnh án Y khoa
Để hành nghề y tại Mỹ, các bác sĩ cần phải vượt qua kỳ thi cấp phép Y khoa Mỹ (United States Medical Licensing Examination - USMLE), một kỳ đánh giá nghiêm ngặt và được tiêu chuẩn hóa về kiến thức và ra quyết định lâm sàng. Các câu hỏi của USMLE là một trong những tiêu chuẩn kiểm tra so sánh sớm nhất được sử dụng để đánh giá các hệ thống AI trong y học, cung cấp một phương pháp có cấu trúc để so sánh hiệu suất của các mô hình, cả với nhau và với các bác sĩ lâm sàng là con người.
Chỉ trong ba năm, AI tạo sinh đã tiến bộ đến mức đạt điểm gần như tuyệt đối trong kỳ thi USMLE và các kỳ thi tương tự. Nhưng những bài kiểm tra này chủ yếu dựa vào các câu hỏi trắc nghiệm, vốn thiên về khả năng ghi nhớ hơn là sự hiểu biết sâu sắc. Bằng cách đơn giản hóa y học thành những câu trả lời một lần duy nhất trong các câu hỏi trắc nghiệm, các tiêu chuẩn so sánh như vậy đã phóng đại năng lực thấu hiểu của các hệ thống AI và che khuất những hạn chế của chúng.
Tại Microsoft AI đang nỗ lực để thúc đẩy và đánh giá các khả năng suy luận lâm sàng. Để vượt qua những hạn chế của câu hỏi trắc nghiệm, chúng tôi đã tập trung vào chẩn đoán tuần tự, một nền tảng của việc ra quyết định y khoa trong thực tế. Trong quy trình này, một bác sĩ lâm sàng bắt đầu với biểu hiện ban đầu của bệnh nhân và sau đó lựa chọn lặp đi lặp lại các câu hỏi và xét nghiệm chẩn đoán để đi đến chẩn đoán cuối cùng. Ví dụ, một bệnh nhân có biểu hiện ho và sốt có thể khiến bác sĩ chỉ định và xem xét các xét nghiệm máu và chụp X-quang ngực trước khi họ cảm thấy tự tin về việc chẩn đoán viêm phổi.
Mỗi tuần, Tạp chí Y học New England (NEJM), một trong những tạp chí y khoa hàng đầu thế giới công bố một Bệnh án của Bệnh viện Đa khoa Massachusetts, trình bày hành trình chăm sóc của một bệnh nhân dưới dạng tường thuật chi tiết. Những ca bệnh này thuộc nhóm phức tạp nhất về mặt chẩn đoán và đòi hỏi trí tuệ cao trong y học lâm sàng, thường cần đến nhiều chuyên gia và các xét nghiệm chẩn đoán để đi đến một chẩn đoán xác định.
AI thể hiện như thế nào? Để trả lời câu hỏi này, chúng tôi đã tạo ra các thách thức ca bệnh tương tác được lấy từ chuỗi bệnh án của NEJM mà chúng tôi gọi là Tiêu chuẩn so sánh chẩn đoán tuần tự (Sequential Diagnosis Benchmark - SD Bench). Tiêu chuẩn này chuyển đổi 304 ca bệnh gần đây của NEJM thành các cuộc thăm khám chẩn đoán theo từng bước, nơi các mô hình, hoặc các bác sĩ con người, có thể lặp đi lặp lại việc đặt câu hỏi và chỉ định xét nghiệm. Khi có thông tin mới, mô hình hoặc bác sĩ lâm sàng sẽ cập nhật suy luận của mình, dần dần thu hẹp phạm vi để tiến tới chẩn đoán cuối cùng. Chẩn đoán này sau đó có thể được so sánh với kết quả chuẩn vàng được công bố trên NEJM.Mỗi bướcchẩn đoán/xét nghiệm thăm dò được yêu cầu cũng phát sinh một chi phí (ảo), phản ánh chi tiêu khám chữa bệnh trong thực tế. Điều này cho phép chúng tôi đánh giá hiệu suất trên hai phương diện chính: độ chính xác chẩn đoán và mức độ sử dụng tài nguyên. Bạn có thể xem cách một hệ thống AI tiến triển qua một trong những thách thức này trong video ngắn này:

Hình 1. Phần mềm Microsoft AI-Sequential Diagnosis Benchmark
Hình 2. Mô tả cách thức hoạt động của MAI-DxO qua một trường hợp để đưa ra chẩn đoán
Hướng tới một chẩn đoán chính xác
Chúng tôi đã đánh giá một bộ toàn diện các mô hình trí tuệ nhân tạo tạo sinh (generative AI) tiên tiến dựa trên 304 ca bệnh của Tạp chí Y học New England (NEJM). Các mô hình nền tảng được thử nghiệm bao gồm GPT, Llama, Claude, Gemini, Grok và DeepSeek.
Ngoài việc kiểm tra so sánh cơ bản, chúng tôi còn phát triển Bộ điều phối chẩn đoán bằng trí tuệ nhân tạo của Microsoft (Microsoft AI Diagnostic Orchestrator-MAI-DxO). Đây là một hệ thống được thiết kế để mô phỏng một Hội đồng bác sĩ ảo với các phương pháp chẩn đoán đa dạng, cùng hợp tác để giải quyết các ca bệnh. Chúng tôi tin rằng việc điều phối nhiều mô hình ngôn ngữ sẽ đóng vai trò then chốt trong việc quản lý các quy trình lâm sàng phức tạp. Các bộ điều phối có thể tích hợp các nguồn dữ liệu đa dạng hiệu quả hơn so với các mô hình đơn lẻ, đồng thời nâng cao tính an toàn, minh bạch và khả năng thích ứng để đáp ứng các nhu cầu y tế không ngừng thay đổi.
Cách tiếp cận không phụ thuộc vào một mô hình cụ thể(model-agnostic) giúp tăng cường khả năng kiểm tra và tính bền vững, vốn là những thuộc tính quan trọng trong môi trường lâm sàng có nhiều yếu tố rủi ro và thay đổi nhanh chóng.
Hình 3. Bộ điều phối MAI-Dx biến bất kỳ mô hình ngôn ngữ nào thành một hội đồng bác sĩ lâm sàng ảo:
Nó có thể đặt các câu hỏi bám sát quá trình thăm khám, chỉ định XN hoặc đưa ra chẩn đoán,
sau đó kiểm tra chi phí và xác minh lại lập luận của chính mình trước khi quyết định có tiếp tục hay không.
MAI-DxO đã cải thiện hiệu suất chẩn đoán của mọi mô hình đã thử nghiệm. Cấu hình hoạt động tốt nhất là MAI-DxO kết hợp với mô hình o3 của OpenAI, đã giải quyết chính xác 85,5% các ca bệnh tham chiếu từ NEJM. Để so sánh, đánh giá 21 bác sĩ đang hành nghề tại Mỹ và Anh, mỗi người có từ 5-20 năm kinh nghiệm lâm sàng. Với cùng nhiệm vụ, các chuyên gia này đạt độ chính xác trung bình là 20% trên các ca bệnh đã hoàn thành.
MAI-DxO có thể được tùy chỉnh, cho phép nó hoạt động trong các giới hạn chi phí đã xác định. Điều này cho phép khám phá một cách rõ ràng sự đánh đổi giữa Chi phí- Giá trị vốn tồn tại trong việc ra quyết định chẩn đoán. Nếu không có những ràng buộc như vậy, một hệ thống AI có thể mặc định chỉ định mọi xét nghiệm có thể, bất kể chi phí, sự khó chịu của bệnh nhân hay sự chậm trễ trong việc chăm sóc. Điều quan trọng là chúng tôi nhận thấy rằng MAI-DxO mang lại cả độ chính xác chẩn đoán cao hơn và tổng chi phí xét nghiệm thấp hơn so với các bác sĩ hoặc bất kỳ mô hình nền tảng đơn lẻ nào được thử nghiệm.

Diagnostic Accuracy: Độ Chính xác Chẩn đoán; Average Cost of Diagnostic Tests Per Case (USD): Chi phí XNchẩn đoán trung bình trên mỗi ca bệnh (USD).So sánh các tác nhân chẩn đoán sử dụng trí tuệ nhân tạo (AI) theo độ chính xác và chi phí xét nghiệm chẩn đoán trung bình cho mỗi ca bệnh.Các tác nhân hoạt động hiệu quả nhất xuất hiện ở góc phần tư phía trên bên trái, phản ánh độ chính xác cao hơn và chi phí thấp hơn.Đường chấm phía dưới thể hiện phạm vi hiệu suất của các mô hình nền tảng đơn lẻ tốt nhất. Đường màu tím theo dõi hiệu suất của MAI-DxO qua các cấu hình cài đặt khác nhau.Dấu thập màu đỏ chỉ ra hiệu suất trung bình của 21 bác sĩ đang hành nghề.
Những bước tiếp theo là gì?
Các bác sĩ thường được định hình bởi sự uyên bác (hiểu rộng) hoặc chuyên sâu trong chuyên môn của họ. Các bác sĩ đa khoa, như bác sĩ gia đình, quản lý một loạt các tình trạng bệnh lý ở mọi lứa tuổi và hệ cơ quan. Các bác sĩ chuyên khoa, chẳng hạn như bác sĩ thấp khớp học, tập trung chuyên sâu vào một hệ cơ quan, một lĩnh vực bệnh hoặc thậm chí một tình trạng bệnh cụ thể.
Tuy nhiên, không một bác sĩ đơn lẻ nào có thể bao quát toàn bộ sự phức tạp của chuỗi ca bệnh trên NEJM. Ngược lại, AI không phải đối mặt với sự đánh đổi này. Nó có thể kết hợp cả bề rộng và chiều sâu của chuyên môn, thể hiện khả năng lập luận lâm sàng mà ở nhiều khía cạnh, vượt qua khả năng của bất kỳ bác sĩ riêng lẻ nào.Loại hình lập luận này có tiềm năng định hình lại ngành chăm sóc sức khỏe. AI có thể trao quyền cho bệnh nhân tự quản lý các khía cạnh thông thường trong chăm sóc sức khỏe và trang bị cho các bác sĩ lâm sàng công cụ hỗ trợ quyết định tiên tiến cho các ca bệnh phức tạp. Các phát hiện ở đây cho thấy AI có thể giảm chi phí chăm sóc sức khỏe không cần thiết. Chi tiêu cho y tế của Mỹ đang tiến gần đến 20% GDP của quốc gia, trong đó có tới 25% được ước tính là lãng phí - do ít ảnh hưởng đến kết quả điều trị của bệnh nhân.
Tất nhiên, nghiên cứu này có những hạn chế quan trọng. Mặc dù MAI-DxO vượt trội trong việc giải quyết các thách thức chẩn đoán phức tạp nhất, cần có thêm các thử nghiệm để đánh giá hiệu suất của nó đối với các biểu hiện bệnh lý phổ biến, thường gặp hơn. Các bác sĩ lâm sàng trong nghiên cứu của chúng tôi đã làm việc mà không có sự trợ giúp từ đồng nghiệp, sách giáo khoa, hoặc thậm chí là AI tạo sinh, các yếu tố có thể xuất hiện trong thực hành lâm sàng thông thường của họ. Điều này được thực hiện để có thể so sánh một cách công bằng với năng lực thuần túy của con người.Một khía cạnh mới của công trình này là sự chú trọng đến chi phí. Mặc dù chi phí y tế trong thực tế khác nhau giữa các khu vực địa lý và hệ thống, và bao gồm nhiều yếu tố phát sinh mà chúng tôi không tính đến, chúng tôi áp dụng một phương pháp luận nhất quán cho tất cả các tác nhân và bác sĩ được đánh giá để giúp định lượng các đánh đổi ở mức độ cao giữa độ chính xác chẩn đoán và việc sử dụng tài nguyên.
Đối với chúng tôi, đây chỉ là bước khởi đầu. Chúng tôi tràn đầy năng lượng trước những cơ hội phía trước. Vẫn còn những thách thức quan trọng trước khi AI tạo sinh có thể được triển khai một cách an toàn và có trách nhiệm trong toàn ngành chăm sóc sức khỏe. Chúng tôi cần bằng chứng được thu thập từ môi trường lâm sàng thực tế, cùng với các khung pháp lý và quản trị phù hợp để đảm bảo tính tin cậy, an toàn và hiệu quả. Đó là lý do tại sao chúng tôi đang hợp tác với các tổ chức y tế hàng đầu để kiểm tra và xác thực nghiêm ngặt các phương pháp tiếp cận này, một bước thiết yếu trước khi triển khai rộng rãi hơn.Cùng với các đối tác của mình, tin rằng tương lai của ngành chăm sóc sức khỏe sẽ được định hình bằng cách tăng cường chuyên môn và sự đồng cảm của con người với sức mạnh của trí tuệ máy móc. Chúng tôi rất hào hứng để thực hiện những bước tiếp theo nhằm biến tầm nhìn đó thành hiện thực.
SD Bench và MAI-DxO chỉ là các minh chứng nghiên cứu và hiện không có sẵn dưới dạng bộ tham chiếu (benchmark) công khai hay bộ điều phối (orchestrator). Quý vị có thể tìm thêm chi tiết về phương pháp luận và kết quả trong một bài báo tiền xuất bản (pre-print) được công bố cùng với bài blog này. Chúng tôi đang trong quá trình gửi công trình này để được bình duyệt từ các chuyên gia bên ngoài và đang tích cực làm việc với các đối tác để khám phá tiềm năng phát hành SDBench dưới dạng một bộ tham chiếu công khai.Chúng tôi biết ơn NEJM Group đã cho phép sử dụng các ca bệnh của NEJM trong nghiên cứu được báo cáo trong bài đăng blog này. Nghiên cứu được mô tả ở đây đã nhận được sự đóng góp về mặt chuyên môn từ rất nhiều người. Chúng tôi biết ơn các tác giả được nêu tên trên bài báo arXiv và đội ngũ cộng tác tại MAI. Chúng tôi cũng cảm ơn các đồng nghiệp khác cả trong và ngoài Microsoft đã chia sẻ những hiểu biết của họ, bao gồm Bryan Bunning, Nando de Freitas, Andrija Milicevic, Hoifung Poon, David Rhew, Karén Simonyan, Eric Topol và Jim Weinstein. Gianluca Fontana và Kevin Hawkins (Prova Health) đã hỗ trợ phần kinh tế y tế và kết quả.
CN. Nguyễn Thái Hoàng& TS.BS. Huỳnh Hồng Quang
Viện Sốt rét-KST-CT Quy Nhơn
Nguồn tham khảo chính:https://microsoft.ai/new/the-path-to-medical-superintelligence/?fbclid=IwY2xjawLYEGpleHRuA2FlbQIxMQBicmlkETF3SFNrTUUwU3BQQnZRekxMAR6_jr2a7jojzok0AkH8XUYGjaJLLAC-w_sTQhkQmyaaZkDyJfv8Y7yHSyAvBQ_aem_8kx53b_d00qRcNvIIgsGvA