17/05/2026
🇻🇳 TiniX AI (Hệ sinh thái AI của Dagoras) cùng các nhà khoa học tại nhóm nghiên cứu DS&KTLab, trường Đại học Công nghệ, ĐHQGHN release dự án cộng đồng Hệ thống tìm kiếm ngữ nghĩa văn bản cho lĩnh vực Y tế Tinix-MedKB (phiên bản thử nghiệm đầu tiên 0.1, link demo trong comment)
Nhóm tập trung vào giải quyết việc xây dựng một kho tri thức mở (dự kiến sẽ có 100 triệu tài liệu trong năm 2026, hiện có 30 triệu dữ liệu từ 3 nhóm ngôn ngữ Anh-Việt-Trung) để mọi người khai thác dễ dàng và hoàn toàn miễn phí bằng tiếng Việt.
Nhóm cũng xác định đây là dự án nhiều năm, trong giai đoạn đầu hệ thống cũng còn rất nhiều vấn đề cần sự đóng góp, phản hồi của cộng đồng. Nhóm cũng đã cố gắng lựa chọn các nguồn thu thập tin cậy như PubMed, Pubtator, Bioportal, Y văn, sách chuyên ngành,… (các nguồn này được thu thập tự động và nhóm sẽ cố gắng dịch, tóm tắt, tổng hợp tạo đồ thị tri thức, ontology,…), tất nhiên còn một số vấn đề về bản quyền xin mọi người bỏ qua 🙏)
Hệ thống tập trung vào:
• Tra cứu kiến thức y khoa tiếng Việt
• Hỗ trợ phân tích triệu chứng
• Tóm tắt bệnh án & xét nghiệm
• OCR tài liệu y tế
• Hỗ trợ bác sĩ và nhân viên y tế tra cứu nhanh thông tin bằng tiếng Việt
• RAG trên dữ liệu y khoa đáng tin cậy
• Xây dựng mô hình ngôn ngữ cho tiếng Việt
⚡ Những gì MedKB đang hướng tới:
• Giảm hallucination trong AI y tế
• Hỗ trợ tiếng Việt & bệnh lý phổ biến tại Việt Nam
• Tích hợp multimodal: text + PDF + hình ảnh y khoa
• Bảo mật dữ liệu theo hướng on-device/hybrid
• Có thể triển khai cho bệnh viện/phòng khám
🧠 Tech stack nổi bật:
• Medical RAG + Vector Database: Qdrant
• OCR/Document Parsing cho PDF y khoa: HunyuanOCR
• LLM tiếng Việt: model chuyên dụng y tế tự finetuning
• Multilingual Embedding: model embedding chuyên cho y tế tiếng Việt phát triển từ bge
• Hybrid deployment: linh hoạt cloud/on-premise, phù hợp với bài toán dữ liệu y tế nhạy cảm
📊 Số liệu đáng chú ý:
• 3 ngôn ngữ: Việt, Anh và Trung
• Các thực thể tập trung chính để xây Knowledge Graph/Base: bệnh, thuốc, dược liệu, gene, hoá chất, triệu chứng/dấu hiệu,…
• Bộ dữ liệu tổng hợp từ hơn 100 nguồn y văn, ontology, cơ sở dữ liệu, bài thuốc, tin tức, blog và sách,…
• Quy mô khoảng 43.11B tokens với 31M văn bản
• Dữ liệu bao phủ giai đoạn từ năm 2000 đến 2026
• Các nguồn tiếng Việt/địa phương giúp bổ sung ngữ cảnh bệnh lý và thông tin sức khỏe phù hợp với người Việt
🔥 Use cases thực tế:
• AI assistant cho bác sĩ
• Chatbot tư vấn sức khỏe ban đầu
• OCR & phân tích bệnh án PDF
• Hỗ trợ sinh viên y khoa học tập
• Medical RAG cho bệnh viện
• Trợ lý tra cứu thuốc & phác đồ
• Theo dõi bệnh mãn tính
• Knowledge base nội bộ ngành y
Nếu các bạn có các nguồn dữ liệu, bài thuốc, sách,… hoặc các ý tưởng phát triển cho cộng đồng, nhóm sẽ luôn luôn sẵn sàng và đón nhận.
Các tính năng tiếp tục phát triển
• AI assistant cho tìm kiếm
• Knowledge Graph các thực thể tiếng Việt phân tích trên các tài liệu
• Đánh giá chất lượng nguồn dữ liệu
• Bổ sung và số hoá thêm các nguồn dữ liệu mới