Giới thiệu
Nôm là bộ công cụ AI mã nguồn mở dành cho tiếng Việt. Trang tài liệu này tập hợp toàn bộ thiết kế, kết quả đo, công thức triển khai và hướng dẫn cộng đồng cho dự án.
Tên gọi Nôm lấy cảm hứng từ chữ Nôm lịch sử, nhưng phạm vi của dự án là tiếng Việt hiện đại viết bằng chữ Quốc Ngữ. Chúng tôi không xử lý văn bản Hán-Nôm.
Bốn mảng chức năng
- Khôi phục dấu (
nom.text.fix_diacritics) —Toi yu Vit Nam→Tôi yêu Việt Nam. Mô hìnhnrl-ai/vn-diacritic-vit5-baseđạt 97.4 % word accuracy trung bình trên 4 register. - Sửa chính tả (
nrl-ai/vn-spell-correction-*) — siêu tập của khôi phục dấu, cộng thêm sửa lỗi ký tự, gõ Telex, OCR, viết tắt teen-code. 98.58 % light · 97.35 % heavy trên 8-split eval grid (xem bench và trang task). - OCR + bóc tách tài liệu — pipeline cho PDF / DOCX / hình ảnh tiếng Việt với Tesseract
vievà VLM dự phòng. - RAG cục bộ — Embedder (
bkai-foundation-models), Retrieval, BM25 hybrid, Reranker (BAAI/bge-reranker-v2-m3), LLM cục bộ qua Ollama. Toàn bộ chạy ngoại tuyến.
Triết lý
- Đo trước, công bố sau. Mọi con số trong tài liệu đều có script
benchmarks/...chạy được từ một bản clone sạch. - Bảo mật supply chain. Loại bỏ các phụ thuộc kèm pickle (
.pkl); ưu tiênsafetensors. Dùng SHA256 fingerprint cho mọi mô hình bên thứ ba. - Riêng tư. Không gọi cloud API thuê bao mặc định; dữ liệu nhạy cảm không rời máy người dùng.
- Đa register. Mọi mô hình được đo trên ít nhất 2 register khác nhau (kinh doanh + văn học, hoặc in-domain + out-of-domain).
Bắt đầu nhanh
Đóng góp
- Báo lỗi, đề xuất tính năng: GitHub Issues
- Quy ước đóng góp: CONTRIBUTING
- Liên hệ tác giả chính: vietanh@nrl.ai · Neural Research Lab