Skip to content

Tác vụ

Tài liệu tổ chức theo từng tác vụ end-user. Mỗi trang tổng hợp: bức tranh công khai, mô hình nrl-ai/* đã huấn luyện (nếu có), số đo trên cùng register grid, và lệnh tái lập.

Tác vụ về văn bản

Tác vụTrạng tháiTrang
Khôi phục dấu — thêm thanh và nguyên âm vào ASCII tiếng Việtđã ship nrl-ai/vn-diacritic-vit5-base v0.2.29
Sửa chính tả — siêu tập của khôi phục dấu, vá lỗi ký tự + Telex + OCRđã ship nrl-ai/vn-spell-correction-base v0.2.29 (SOTA OOD)
Chuẩn hoá văn bản — NFC/NFD, strip dấu, kiểm tra VNshipped trong nom.text
Tách từ — segment tiếng Việt không dấu phụrule-based + underthesea
Phân loại văn phong — trang trọng / kinh doanh / hội thoại / văn họclexicon + PhoBERT-base
Tóm tắt — cô đọng văn bản dài về tin tức / hợp đồng / hội thoạishipped trong nom.summarize (ViT5-large)

Tác vụ về tài liệu

Tác vụTrạng tháiTrang
OCR (chữ in) — text từ ảnh / PDF scanTesseract vie (best printed); VLM cảnh báo
OCR chữ viết tay — biểu mẫu, ghi chú, CMND/CCCDshipped trong nom.ocr.handwriting (Vintern-1B)
PDF text extraction — text-layer cho PDF born-digitalpypdfium2 (BSD-3)
Chuyển định dạng — PDF / ảnh → DOCX có thể chỉnh sửashipped trong nom.convert
Dịch thuật — Việt · Anh · 中 · 한 · 日, giữ định dạng .docx/.xlsx/.pptx/.txtshipped trong nom.translate v0.1
Giọng nói → văn bản — phỏng vấn, cuộc họp, ghi chú audioshipped trong nom.stt (PhoWhisper-large)

Tác vụ về retrieval / RAG

Tác vụTrạng tháiTrang
Embedding (dense retrieval) — vector hoá câu/đoạn VNbkai-vietnamese-bi-encoder (76.25 % R@1)
Reranker — xếp lại kết quả retrievalbge-reranker-v2-m3
RAG end-to-end — chunk → embed → retrieve → rerank → trả lờishipped trong nom serve

Tác vụ phân tích văn bản

Tác vụTrạng tháiTrang
Trích xuất thực thể — PER/ORG/LOC/DATE/MONEY + LAW_REF/ID_VN/PHONE_VN cho VN pháp lýshipped trong nom.nlp.ner
NER + cảm xúc + nhận diện ngôn ngữ — thư viện đầy đủshipped trong nom.nlp

Vận hành

Tác vụTrạng tháiTrang
Hàng đợi xử lý — theo dõi tác vụ chạy nền + tiến độ + huỷshipped trong nom.chat.bgjobs
Quản lý mô hình — cài / theo dõi / xoá mô hình AI cục bộshipped trong nom.chat.models_api

Multi-agent & MCP

Tác vụTrạng tháiTrang
Agent runtime — 6 pattern Anthropic + 4 recipe sẵn dùngshipped trong nom.agents
MCP bridge — server expose tools, client consume externalshipped trong nom.mcp

Quy ước

  • Mỗi trang theo _template.md — TL;DR / public landscape / our pipeline / trained models / datasets / measured results / reproduce.
  • Số nào cũng tái lập được từ một bản clone sạch.
  • Số trống thay vì đoán — minh bạch là điều kiện tiên quyết.