Bộ dữ liệu benchmark tiếng Việt
Catalogue của mọi corpus tiếng Việt ship cùng nom-vn để test và benchmark. Mọi dataset đều license-clean cho redistribution + modification (Apache 2.0 / CC-BY / CC-BY-SA / CC0 / public domain). Mỗi thư mục có LICENSE và attribution per-file riêng.
Tìm dữ liệu huấn luyện OCR? Đó là audit riêng:
research/ocr_training_data_vn_2026q2.mdphân tích cái gì redistribute được, cái gì research-only và cái gì commercial, với ước tính chi phí cho synthetic generation, labeling và fine-tune PaddleOCR.
Quick map
| Dataset | Modality | Register | Size | License | Đường dẫn |
|---|---|---|---|---|---|
diacritic_eval_v0 | text (câu) | hỗn hợp (4 register) | 55 câu | CC0 | benchmarks/data/diacritic_eval_v0.txt |
udhr_vi (text) | text (declarative) | hành chính/dịch | ~19 KB | CC-BY-SA 4.0 | benchmarks/data/udhr_vi/udhr_vi.txt |
udhr_vi (PDF) | PDF (text-layer) | hành chính | ~113 KB | public domain | benchmarks/data/udhr_vi/udhr_vie.pdf |
wikisource_vi | text (prose) | văn học cổ điển | ~14 KB qua 3 file | CC-BY-SA 4.0 (nội dung PD) | benchmarks/data/wikisource_vi/ |
wiki_vi | text (bài viết) | bách khoa toàn thư | 28 bài, ~1.16M ký tự | CC-BY-SA 4.0 | benchmarks/data/wiki_vi/articles.jsonl |
tatoeba_vi | text (câu) | hội thoại | 31.292 / 3.000 sample / 300 diacritic | CC-BY 2.0 FR | benchmarks/data/tatoeba_vi/ |
udhr_vi (diacritic 72) | text (câu) | hành chính/pháp lý | 72 câu | public domain | benchmarks/data/udhr_vi/diacritic_eval_udhr.txt |
synthetic_ocr_vi | ảnh PNG | mục tiêu OCR | 40 ảnh (clean+noisy) | CC0 | benchmarks/data/synthetic_ocr_vi/ |
flores_vi | text (parallel) | tin tức / hỗn hợp | gated, không commit | CC-BY-SA 4.0 | benchmarks/data/flores_vi/ |
ud_vi_vtb | CoNLL-U (gold word-segmented) | văn học | 800 test / 1.123 dev / 1.400 train câu; 11.692 token gold test | CC-BY-SA-4.0 | benchmarks/data/ud_vi_vtb/ |
spell_correction_eval | text (cặp noisy/clean, synthetic) | 4 register × 2 noise levels | 2.098 cặp | CC0 | benchmarks/data/spell_correction_eval/ |
spell_correction_eval_real | text (cặp noisy/clean, OOD hand-curated) | 6 register thực tế (forum / mobile / telex thật / OCR engine / pháp lý / tin tức) | 150 câu | CC0 | benchmarks/data/spell_correction_eval_real/ |
Tổng dung lượng commit: ~2.8 MB.
Mỗi dataset hợp với cái gì
| Module | Dataset khuyến nghị | Lý do |
|---|---|---|
nom.text (normalize, fix_diacritics) | diacritic_eval_v0, udhr_vi/diacritic_eval_udhr.txt, tatoeba_vi/diacritic_eval_300.txt, ud_vi_vtb/test.conllu | Ma trận 4 register (hành chính / kinh doanh / hội thoại / văn học) |
nom.text.fix_diacritics (sửa chính tả) | spell_correction_eval (synthetic, in-distribution) + spell_correction_eval_real (hand-curated, OOD) | Synthetic đo trường-hợp-bộ-sinh-nhiễu; OOD đo nhiễu thực tế (sample size nhỏ, kèm bootstrap CI) |
nom.text.word_tokenize | ud_vi_vtb (split test) | Word-segmentation P/R/F1 gold so với underthesea |
nom.chunking | wiki_vi, wikisource_vi, udhr_vi | Prose dài có cấu trúc đoạn |
nom.embeddings | tatoeba_vi, flores_vi (khi có) | Cặp đánh giá ở mức câu |
nom.retrieve (BM25, dense, hybrid) | corpus wiki_vi + query handcrafted | Topic bách khoa đa dạng cho IR |
nom.rag | wiki_vi (corpus) + tatoeba_vi (query) | Retrieval + generation end-to-end |
nom.doc (trích xuất text từ PDF) | udhr_vi/udhr_vie.pdf | Baseline PDF born-digital |
nom.doc (OCR trên ảnh) | synthetic_ocr_vi (clean + noisy) | Nhãn thật chuẩn xác, an toàn cho regression |
Đã publish trên Hugging Face Hub
Hai dataset chúng tôi gom lại cho khôi phục dấu được mirror trên HF Hub để dùng datasets.load_dataset mà không cần clone repo:
| Dataset HF | License | Splits / configs | Bên trong |
|---|---|---|---|
nrl-ai/vn-diacritic-eval | CC-BY-SA-4.0 (chặt nhất trong các thành phần) | business_55, formal_72, conversational_300, literary_800 | Lưới đánh giá 4 register (1.227 cặp câu) dùng để bench mọi mô hình diacritic trong repo. License per-config ghi rõ trong card. |
nrl-ai/vn-diacritic-train | CC-BY-SA-4.0 (per-config: wiki=CC-BY-SA-4.0, news=CC-BY-4.0) | wiki_500k, news_150k | 500K cặp Wikipedia + 150K cặp tin tức VN đã sửa NFC. Đã chống rò eval với vn-diacritic-eval. NFC-normalize tại lúc ghi. |
Loading:
from datasets import load_dataset
# Eval set — bench bất kỳ mô hình nào trên cùng lưới
ds = load_dataset("nrl-ai/vn-diacritic-eval", "business_55", split="train")
# Cặp huấn luyện — mix Wikipedia + news đã build sẵn
wiki = load_dataset("nrl-ai/vn-diacritic-train", "wiki_500k", split="train")
news = load_dataset("nrl-ai/vn-diacritic-train", "news_150k", split="train")Bản local dưới benchmarks/data/ và training/diacritic/data/ giống hệt từng bit với bản HF; entry point nào cũng hoạt động.
Tái lập corpus từ một bản clone sạch
# Text + PDF — đều idempotent
python benchmarks/data/_fetch_all.py
# Eval slice diacritic (300 hội thoại, 72 hành chính/pháp lý)
python benchmarks/data/tatoeba_vi/build_diacritic_eval.py
python benchmarks/data/udhr_vi/build_diacritic_eval.py
# Ảnh OCR synthetic — tất định qua RNG seeded
python benchmarks/data/synthetic_ocr_vi/render.pyFetcher chỉ dùng stdlib (urllib.request) cộng huggingface_hub cho dataset gated. Renderer cần Pillow và font hệ thống có hỗ trợ tiếng Việt (DejaVu / Lato / FreeFont — có sẵn trên đa số distro Linux).
Lập trường license (chính sách no-pickle + verified-benchmarks của chúng tôi)
- LICENSE per-folder với quy tắc attribution rõ ràng — không bao giờ dựa vào việc kế thừa "license file" toàn cục.
- Không pickle, không binary opaque trong bất kỳ dataset commit nào. PNG và PDF là format mở; mọi thứ còn lại là plaintext hoặc TSV.
- Tái lập được từ script — mọi dataset commit đều regenerate được từ
_fetch_all.pyhoặcrender.py. Không có artifact black-box. - Caveat "share-alike" của CC-BY-SA: tác phẩm phái sinh tích hợp dataset CC-BY-SA kế thừa nghĩa vụ share-alike. Mã thư viện (Apache 2.0) không bị — chỉ đầu ra nướng kèm nội dung CC-BY-SA bị.
Nguồn đã cân nhắc và loại bỏ
| Nguồn | Lý do loại |
|---|---|
| Corpus shared-task VLSP | License research-only, không redistribute |
| VnExpress / Tuổi Trẻ / scrape tin tức | Có copyright, không có giấy phép permissive |
| CC-100 / mC4 / CulturaX | License không rõ (Common Crawl ToS mơ hồ) |
| Medical-QA của VietAI | Research-only |
| Tài liệu scan của Vinacademy / VinAI | License không rõ |
Sẽ thêm sau
- Ảnh biển hiệu VN trên Wikimedia Commons — ảnh OCR thực tế, CC-BY-SA / PD per-file
- Sách VN scan của Internet Archive — pre-1928 PD theo luật Mỹ, fetch qua
download.sh - Văn bản pháp lý vbpl.vn — PD theo luật Việt Nam (Luật SHTT 2005, Điều 15)