Skip to content

Nôm 喃Bộ công cụ AI tiếng Việt

Khôi phục dấu, sửa chính tả, OCR, RAG cục bộ — mã nguồn mở, ưu tiên tiếng Việt.

Nôm — chữ 喃

§ 02 · Bốn lựa chọn nên có ngay

Mỗi gợi ý đều có script đo trong benchmarks/ — chạy được từ một bản clone sạch, không có số phỏng đoán.

02 · sửa lỗi

vn-spell-correction-base

Một lượt cho cả lỗi gõ Telex, lỗi OCR, viết tắt teen-code và mất dấu. 98.58 % light · 97.35 % heavy trên 8-split eval grid.

tài liệu
03 · rag cục bộ

bkai bi-encoder + bge-reranker

Embedder Apache 2.0 fine-tune trên Zalo Legal: R@1 76.25 %. Ghép cùng Reranker BAAI/bge-reranker-v2-m3 cho điểm cuối R@1 86.3 %.

kiến trúc
04 · cài đặt

pip install nom-vn[chat]

Một lệnh là có sẵn FastAPI + React UI, parser PDF/DOCX/XLSX/PPTX, Embedder, Retrieval và Reranker. nom serve mở localhost:8080.

cài đặt

§ 03 · Pipeline RAG

Sáu bước, mỗi bước là một module thay thế được qua Protocol — không khoá vào nhà cung cấp nào.

§ 04 · Triết lý vận hành

Bốn nguyên tắc bất di bất dịch — đã thấm vào mọi commit và mọi con số trên trang này.

P · 01
Đo trước, công bố sau
Mọi con số xuất hiện trong tài liệu hay model card đều có script benchmarks/… chạy được từ một bản clone sạch và file kết quả JSON commit trong repo. Khi chưa đo, chúng tôi để trống thay vì viết "TBD" — minh bạch là điều kiện tiên quyết.
P · 02
Riêng tư mặc định
Không gọi cloud API thuê bao mặc định; mọi mô hình chạy cục bộ qua Ollama hoặc trên CPU/GPU của bạn. Dữ liệu nhạy cảm — hợp đồng, hồ sơ y tế, tài liệu nội bộ — không rời máy người dùng.
P · 03
Bảo mật supply chain
Loại bỏ phụ thuộc kèm file pickle (.pkl); ưu tiên safetensors. Mỗi mô hình bên thứ ba có SHA256 được audit, được pin theo revision, và được giải thích lý do trong docstring của wrapper.
P · 04
Đa register
Mọi mô hình được đo trên ít nhất hai register khác nhau (kinh doanh + văn học, hoặc in-domain + out-of-domain). Khoảng cách >10 pp giữa các register là dấu hiệu over-fit và sẽ được ghi rõ trong model card thay vì bị che giấu.

Cộng đồng