Cài đặt nhanh
Yêu cầu
- Python ≥ 3.10
- Tuỳ chọn: GPU (CUDA) — mọi mô hình đều chạy trên CPU; GPU chỉ giúp giảm latency từ ~150 ms xuống ~30 ms cho mỗi câu.
Cài phần lõi
bash
pip install nom-vnPhần lõi chứa các thư viện chuẩn hoá tiếng Việt (nom.text.normalize, nom.text.strip_diacritics), pipeline tách câu, và chunker — không kéo PyTorch về.
Cài bản đầy đủ (chat web app)
bash
pip install "nom-vn[chat]"Khởi động giao diện chat cục bộ tại http://localhost:8080:
bash
nom serveKhôi phục dấu — script ngắn
python
from nom.text import fix_diacritics
from nom.text.diacritic_models import HFDiacriticModel
restorer = HFDiacriticModel(model_id="nrl-ai/vn-diacritic-vit5-base")
print(fix_diacritics("Toi yu Vit Nam", model=restorer))
# 'Tôi yêu Việt Nam'Sửa chính tả — script ngắn
python
from nom.text.diacritic_models import HFDiacriticModel
speller = HFDiacriticModel(model_id="nrl-ai/vn-spell-correction-base")
print(speller("Hop dong nay duoc lap ngay 14/3/2025"))
# 'Hợp đồng này được lập ngày 14/3/2025'RAG cục bộ — chat với tài liệu
bash
ollama pull qwen3:8b # hoặc qwen3:1.7b cho máy yếu
nom serve # http://localhost:8080Kéo-thả PDF / DOCX vào giao diện; truy vấn bằng tiếng Việt; câu trả lời trích nguồn theo từng đoạn.
Bước tiếp theo
- Mô hình đã huấn luyện —
nrl-ai/*trên Hugging Face - Tác vụ khôi phục dấu
- Tác vụ sửa chính tả
- Recipes — pipeline thực tế