Skip to content

Mô hình đã huấn luyện

Tất cả mô hình nrl-ai/* được huấn luyện và phát hành theo giấy phép Apache 2.0, lưu trữ trên Hugging Face Hub, định dạng safetensors. Tác giả chính: Viet-Anh Nguyen (vietanh@nrl.ai) — Neural Research Lab.

Khôi phục dấu

Mô hìnhBaseTham sốDung lượngIn-dist (4 ngữ vực)OOD (n=150)
nrl-ai/vn-diacritic-vit5-base v0.2.29ViT5-base (MIT)220 M900 MB94.95 %71.15 %
nrl-ai/vn-diacritic-small v0.2.28BARTpho-syllable (MIT)115 M530 MB90.74 %70.27 %
  • vn-diacritic-vit5-base là mô hình mặc định cho production.
  • vn-diacritic-small chạy ~3× nhanh hơn trên cùng phần cứng, đánh đổi ~3-4 pp độ chính xác từ. Phù hợp cho mobile / browser inference khi đã quantize int8.

Chi tiết kỹ thuật + kết quả trên 4 ngữ vực: Khôi phục dấu.

Sửa chính tả

Mô hìnhBaseTham sốDung lượngLight avgHeavy avg
nrl-ai/vn-spell-correction-base v0.2.29ViT5-base (MIT)220 M900 MB98.32 %97.03 %
nrl-ai/vn-spell-correction-small v0.2.29BARTpho-syllable (MIT)115 M530 MB94.59 %92.34 %

OOD aggregate (n=150 hand-curated, bootstrap 95 % CI): base 79.62 % [75-85] · small 77.55 % [73-83]. Cả hai vượt Toshiiiii1 (77.40 %) trên OOD.

Sửa chính tả là siêu tập của khôi phục dấu — dùng cùng API (HFDiacriticModel), nhưng cộng thêm khả năng vá lỗi ký tự, OCR, gõ Telex, viết tắt teen-code.

Lưu ý trung thực: số trên là in-distribution. Bench OOD trên 100 câu hand-curated cho thấy gap đáng kể với gõ Telex thật và slang diễn đàn — xem trang task cho con số đầy đủ. v0.2.29 đang được huấn luyện trên corpus v2 đa nguồn để thu hẹp khoảng cách này.

Chi tiết: Sửa chính tả.

Bộ dữ liệu công khai

DatasetMục đíchBản ghi
nrl-ai/vn-diacritic-trainTrain khôi phục dấu (Wiki+news, NFC)500 K cặp
nrl-ai/vn-diacritic-evalEval 4 ngữ vực1,227 câu
nrl-ai/vn-spell-correction-trainTrain sửa chính tả (3 kiểu nhiễu vòng tròn)459 K cặp
nrl-ai/vn-spell-correction-evalEval 8 split (4 ngữ vực × 2 mức nhiễu)2,098 cặp

Trích dẫn

bibtex
@misc{nom_vn_2026,
  title={Nôm — Vietnamese AI toolkit (diacritic restoration + spell correction)},
  author={Nguyen, Viet-Anh and {Neural Research Lab}},
  year={2026},
  howpublished={\url{https://github.com/nrl-ai/nom-vn}}
}