Skip to content

Mô hình đã huấn luyện

Tất cả mô hình nrl-ai/* được huấn luyện và phát hành theo giấy phép Apache 2.0, lưu trữ trên Hugging Face Hub, định dạng safetensors. Tác giả chính: Viet-Anh Nguyen (vietanh@nrl.ai) — Neural Research Lab.

Khôi phục dấu

Mô hìnhBaseTham sốDung lượngWord acc trung bình
nrl-ai/vn-diacritic-vit5-baseViT5-base (MIT)220 M900 MB97.4 %
nrl-ai/vn-diacritic-smallBARTpho-syllable (MIT)115 M530 MB93.6 %
  • vn-diacritic-vit5-base là mô hình mặc định cho production.
  • vn-diacritic-small chạy ~3× nhanh hơn trên cùng phần cứng, trade-off ~3-4 pp word accuracy. Phù hợp cho mobile / browser inference khi đã quantize int8.

Chi tiết kỹ thuật + kết quả trên 4 register: Khôi phục dấu.

Sửa chính tả

Mô hìnhBaseTham sốDung lượngLight avgHeavy avg
nrl-ai/vn-spell-correction-baseViT5-base (MIT)220 M900 MB98.58 %97.35 %
nrl-ai/vn-spell-correction-smallBARTpho-syllable (MIT)115 M530 MB94.78 %92.69 %

Sửa chính tả là siêu tập của khôi phục dấu — dùng cùng API (HFDiacriticModel), nhưng cộng thêm khả năng vá lỗi ký tự, OCR, gõ Telex, viết tắt teen-code.

Lưu ý trung thực: số trên là in-distribution. Bench OOD trên 100 câu hand-curated cho thấy gap đáng kể với gõ Telex thật và slang diễn đàn — xem trang task cho con số đầy đủ. v0.2.29 đang được huấn luyện trên corpus v2 đa nguồn để thu hẹp khoảng cách này.

Chi tiết: Sửa chính tả.

Bộ dữ liệu công khai

DatasetMục đíchBản ghi
nrl-ai/vn-diacritic-trainTrain khôi phục dấu (Wiki+news, NFC)500 K cặp
nrl-ai/vn-diacritic-evalEval 4 register1,227 câu
nrl-ai/vn-spell-correction-trainTrain sửa chính tả (3 noise preset round-robin)459 K cặp
nrl-ai/vn-spell-correction-evalEval 8 split (4 register × 2 noise level)2,098 cặp

Trích dẫn

bibtex
@misc{nom_vn_2026,
  title={Nôm — Vietnamese AI toolkit (diacritic restoration + spell correction)},
  author={Nguyen, Viet-Anh and {Neural Research Lab}},
  year={2026},
  howpublished={\url{https://github.com/nrl-ai/nom-vn}}
}