Khôi phục dấu
Mô hình nrl-ai/vn-diacritic-vit5-base đạt 97.4 % word accuracy trung bình trên 4 register (hành chính / kinh doanh / hội thoại / văn học). Bản vn-diacritic-small 115M tham số, nhanh gấp 3 lần.
Tài liệu khôi phục dấu
Khôi phục dấu, sửa chính tả, OCR, RAG cục bộ — mã nguồn mở, ưu tiên tiếng Việt.
Mỗi gợi ý đều có script đo trong benchmarks/ — chạy được từ một bản clone sạch, không có số phỏng đoán.
Khôi phục dấu trên 4 register, trung bình 97.4 %. Cân bằng giữa hành chính / kinh doanh / hội thoại / văn học. 220M tham số, giấy phép Apache 2.0.
tài liệuMột lượt cho cả lỗi gõ Telex, lỗi OCR, viết tắt teen-code và mất dấu. 98.58 % light · 97.35 % heavy trên 8-split eval grid.
tài liệuEmbedder Apache 2.0 fine-tune trên Zalo Legal: R@1 76.25 %. Ghép cùng Reranker BAAI/bge-reranker-v2-m3 cho điểm cuối R@1 86.3 %.
Một lệnh là có sẵn FastAPI + React UI, parser PDF/DOCX/XLSX/PPTX, Embedder, Retrieval và Reranker. nom serve mở localhost:8080.
Sáu bước, mỗi bước là một module thay thế được qua Protocol — không khoá vào nhà cung cấp nào.
Bốn nguyên tắc bất di bất dịch — đã thấm vào mọi commit và mọi con số trên trang này.
benchmarks/… chạy được từ một bản clone sạch và file kết quả JSON commit trong repo. Khi chưa đo, chúng tôi để trống thay vì viết "TBD" — minh bạch là điều kiện tiên quyết..pkl); ưu tiên safetensors. Mỗi mô hình bên thứ ba có SHA256 được audit, được pin theo revision, và được giải thích lý do trong docstring của wrapper.