Skip to content
Phiên bản doanh nghiệp · Triển khai nội bộ · Tiếng Việt

Nôm cho doanh nghiệp

Bộ công cụ xử lý tiếng Việt mã nguồn mở mà cộng đồng đang dùng — đóng gói riêng cho ngân hàng, bảo hiểm, pháp chế và y tế. Cài trên máy chủ của bạn, dữ liệu không rời khỏi nội bộ, có hợp đồng cam kết và đội ngũ hỗ trợ trực tiếp.

100 %chạy nội bộ — không thuê bao đám mây
Apache 2.0nhân lõi mã nguồn mở
Nghị định 13thiết kế tuân thủ
Có gốc rõ ràngkhông pickle, không cửa sau

§ 01 · Bài toán chúng tôi giải

Doanh nghiệp Việt cần xử lý văn bản, hợp đồng và tài liệu tiếng Việt trong môi trường mà dữ liệu nhạy cảm không được phép ra khỏi nội bộ.

01 · pháp chế

Tra cứu hợp đồng và quy định

Tìm kiếm theo nghĩa trên kho hợp đồng, văn bản pháp luật và công văn nội bộ — toàn bộ vẫn ở trong mạng của bạn. Đo trên bộ Zalo Legal: tỷ lệ tìm đúng câu trả lời 86.3 % sau khi xếp hạng lại.

02 · ngân hàng & bảo hiểm

Đọc và chuẩn hoá biểu mẫu

Trích xuất thông tin từ giấy tờ định danh, hợp đồng và đơn yêu cầu bồi thường. Khôi phục dấu sau khi quét ảnh (lỗi gõ tay, lỗi máy quét) đạt 97.03 % trong tình huống nhiễu nặng.

03 · y tế

Hồ sơ bệnh án ở lại bệnh viện

Tóm tắt, phân loại và tìm kiếm bệnh án — không truyền ra ngoài máy chủ bệnh viện. Hỗ trợ cài đặt trên mạng cô lập cho khoa nghiên cứu lâm sàng.

§ 02 · Ba cách triển khai

Cùng một mã nguồn, ba kiểu phân phối tuỳ mức độ nhạy cảm của dữ liệu và yêu cầu vận hành.

a · tự cài

Tự cài trên máy chủ của bạn

Cài thẳng trên Linux hoặc Docker tại trung tâm dữ liệu hoặc máy chủ phòng kỹ thuật. Phù hợp khi bạn đã có đội vận hành và quy chuẩn an ninh nội bộ.

  • Có sẵn Docker Compose và Helm chart
  • Chạy được trên CPU; có GPU thì nhanh hơn 5 đến 10 lần
  • Tích hợp đăng nhập một lần (LDAP / OIDC / SAML)
  • Hỗ trợ phản hồi dưới 4 giờ trong giờ hành chính
Phù hợp với phần lớn doanh nghiệp 50 đến 500 người.
b · vùng riêng trên đám mây

Vùng riêng trên đám mây của bạn

Cài trong vùng mạng riêng của bạn trên AWS, Azure, GCP, Viettel IDC hoặc FPT Cloud. Bạn giữ khoá; chúng tôi cung cấp khuôn mẫu cài đặt và hỗ trợ vận hành.

  • Khuôn mẫu Terraform / Pulumi cho 4 nhà cung cấp đám mây chính
  • Khoá mã hoá do bạn quản lý, chúng tôi không thấy
  • Đẩy nhật ký truy cập về hệ thống giám sát nội bộ
  • Cam kết hoạt động 99.5 %, phản hồi sự cố nghiêm trọng trong 1 giờ
Phù hợp với công ty công nghệ tài chính, bảo hiểm, các đơn vị đã chuẩn hoá hạ tầng đám mây.
c · mạng cô lập

Mạng cô lập, không kết nối Internet

Dành cho ngân hàng nhà nước, quốc phòng, khoa nghiên cứu y tế — môi trường không có cổng ra Internet. Chúng tôi giao mô hình và phần mềm qua kênh đã được phê duyệt.

  • Bộ cài ngoại tuyến trọn gói (mô hình + phần mềm)
  • Cập nhật theo lịch (quý hoặc tháng) qua phương tiện vật lý
  • Đào tạo trực tiếp 2 ngày cho đội vận hành
  • Hợp đồng hỗ trợ riêng kèm thoả thuận bảo mật
Đã làm việc với khách hàng yêu cầu chuẩn ISO 27001 nội bộ.

§ 03 · Bảo mật và tuân thủ

Thiết kế từ đầu cho dữ liệu nhạy cảm — không phải tính năng dán nhãn về sau.

Dữ liệu cá nhân
Tuân thủ Nghị định 13/2023/NĐ-CP. Kiến trúc mặc định không truyền dữ liệu cá nhân ra hệ thống bên thứ ba. Nhật ký truy cập, cơ chế xoá dữ liệu, và trách nhiệm xử lý đều được tài liệu hoá theo từng tích hợp.
Nguồn gốc phần mềm
Không phụ thuộc thư viện kèm tệp .pkl / .pickle (vốn có thể chạy mã tuỳ ý khi nạp). Mọi mô hình bên thứ ba được cố định theo bản băm SHA256 và phiên bản; danh sách phụ thuộc và giấy phép kèm theo mỗi bản phát hành.
Mã hoá và phân quyền
Mã hoá đường truyền theo TLS 1.3 cho mọi luồng nội bộ. Phân quyền theo không gian làm việc — tài liệu được giới hạn theo phòng ban hoặc dự án. Tích hợp đăng nhập một lần (OIDC / SAML / LDAP) sẵn từ gói Doanh nghiệp Tiêu chuẩn.
Nhật ký kiểm toán
Ghi nhật ký mọi truy vấn, mọi tài liệu được tra cứu và mọi câu trả lời sinh ra — kèm bản băm của đầu vào và phiên bản mô hình đã dùng. Đẩy về Splunk, ELK hoặc Loki nội bộ qua syslog hoặc OpenTelemetry.
Mã nguồn lõi
Phần lõi nom-vn phát hành theo giấy phép Apache 2.0, đọc và rà soát được toàn bộ mã. Các thành phần dành riêng cho doanh nghiệp (đăng nhập một lần, xuất nhật ký kiểm toán, đầu nối Microsoft Office) phát hành theo giấy phép thương mại — tách biệt nhưng không khoá phần lõi.
Chứng chỉ và lộ trình
SOC 2 Loại I dự kiến quý 4 năm 2026; ISO 27001 nội bộ có thể đạt qua mô hình tự cài. Chúng tôi cung cấp hồ sơ năng lực bảo mật để đội an ninh của bạn rà soát theo bảng kiểm riêng — gửi yêu cầu qua thư điện tử.

§ 04 · Một vòng giao diện vận hành

Ba màn hình đại diện cho phần dành riêng cho doanh nghiệp — phân loại rủi ro theo Luật 134/2025, quản trị giấy phép kèm dấu vết kiểm toán, và trình giám sát tác tử theo thời gian thực.

Phân loại rủi ro theo Luật 134/2025 — kết quả 'Rủi ro cao' với năm lý do tham chiếu các điều luật cụ thể.
Phân loại rủi ro theo Luật 134/2025. Mỗi câu trả lời của hệ thống chỉ rõ điều luật áp dụng (Đ8, Đ10, Đ11) với mức rủi ro tương ứng. Đầu vào dạng tự nhiên — không cần nhãn thủ công.
Trang quản trị doanh nghiệp hiển thị tên khách hàng, hạn dùng, danh sách tính năng đang bật và 16 mục nhật ký kiểm toán có băm SHA-256.
Quản trị giấy phép và nhật ký kiểm toán. Giấy phép HMAC ký ngoại tuyến, kiểm tra cục bộ — không cần gọi máy chủ kích hoạt. Nhật ký kiểm toán băm chuỗi liên kết (SHA-256) chống chỉnh sửa.
Trình chạy tác tử hiển thị 20 sự kiện theo thời gian thực — bắt đầu, suy luận, gọi công cụ detect_language và extract_entities, kết quả thực thể.
Trình chạy tác tử theo thời gian thực. Mỗi bước (suy luận, gọi công cụ, kết quả, trả lời) được phát trực tuyến qua SSE. Mọi sự kiện đều được ghi vào nhật ký kiểm toán, kèm tên người dùng và mã phiên.

§ 05 · Tích hợp và lập trình

REST API, thư viện Python và giao diện web đều có sẵn. Bạn chọn mô hình ngôn ngữ — không bị khoá theo nhà cung cấp.

REST API

Đầy đủ điểm cuối theo chuẩn OpenAPI 3.1 cho mọi tác vụ: khôi phục dấu, sửa chính tả, đọc ảnh, sinh vector, tra cứu, hỏi đáp. Có giao diện thử trực tiếp. Xác thực qua khoá API hoặc JWT.

Thư viện Python

pip install nom-vn. Đầy đủ kiểu dữ liệu, dùng giao thức Protocol — không bị khoá vào lớp cụ thể nào. Dễ ghép vào quy trình học máy hoặc xử lý dữ liệu sẵn có.

Mô hình ngôn ngữ

Mặc định Ollama (Qwen3, Llama, GPT-OSS chạy nội bộ). Có thể chuyển hướng sang Claude hoặc GPT cho tác vụ không nhạy cảm — bạn cấu hình từng luồng, không phải gửi tất cả ra ngoài.

Giao diện web

Sẵn FastAPI và React, đóng gói trong pip install nom-vn[chat]. Có thể nhúng vào cổng nội bộ qua iframe, hoặc đổi giao diện theo thương hiệu của bạn.

Đầu nối Office

Thành phần dành cho doanh nghiệp: bóc tách DOCX, XLSX, PPTX giữ nguyên đầu trang, chân trang và bảng. Sắp ra: tiện ích Outlook và đầu nối SharePoint.

Theo dõi và đo lường

Dấu vết theo OpenTelemetry và chỉ số theo Prometheus. Mỗi truy vấn để lại mã tham chiếu gắn vào nhật ký để dò lỗi; ngân sách độ trễ theo từng thành phần.

§ 06 · Các gói dịch vụ

Phân theo mức cam kết hỗ trợ và mức tuỳ biến — không phải theo số lượng tính năng được mở khoá.

cộng đồng

Cộng đồng

Miễn phí · Apache 2.0
  • Toàn bộ phần lõi mã nguồn mở
  • Mô hình nrl-ai/* trên HuggingFace
  • Tài liệu và công thức triển khai
  • Hỗ trợ qua GitHub Issues
tuỳ chỉnh

Doanh nghiệp Mở rộng

Liên hệ · hợp đồng năm
  • Mọi thứ trong gói Doanh nghiệp Tiêu chuẩn
  • Triển khai mạng cô lập, đào tạo trực tiếp tại chỗ
  • Tinh chỉnh mô hình trên dữ liệu của bạn
  • Phản hồi sự cố nghiêm trọng trong 1 giờ, có gói 24/7
  • Xuất nhật ký kiểm toán cho hệ thống giám sát nội bộ
  • Thoả thuận bảo mật và xử lý dữ liệu riêng
  • Kỹ sư giải pháp được phân công riêng

§ 07 · Câu hỏi thường gặp

Những điều đội an ninh và đội pháp chế thường hỏi trong buổi làm việc đầu tiên.

Dữ liệu của chúng tôi có được dùng để huấn luyện mô hình không?

Không. Mặc định mọi truy vấn không được lưu vượt quá phạm vi nhật ký của bạn. Nếu bạn muốn tinh chỉnh mô hình trên dữ liệu nội bộ, đó là một dự án riêng có hợp đồng riêng — và mô hình kết quả thuộc về bạn.

Làm sao chứng minh không có cửa sau trong mô hình?

Phần lõi nom-vn theo giấy phép Apache 2.0 — bạn rà soát được toàn bộ mã nguồn. Mô hình do chúng tôi xuất bản (nrl-ai/*) ở định dạng safetensors, đọc nạp tất định, không có mã chạy khi nạp. Mô hình bên thứ ba được cố định theo bản băm SHA256; danh sách và lý do chọn được ghi rõ trong tài liệu của lớp bao bọc.

Có cần GPU không?

Không bắt buộc. Phần lớn tác vụ chạy được trên CPU; ngân hàng và bảo hiểm thường triển khai chỉ dùng CPU vì dễ dự phòng. GPU (T4, L4, A10) tăng tốc 5 đến 10 lần cho các đợt tra cứu lớn — đáng đầu tư khi vượt 10 nghìn truy vấn mỗi ngày.

Mô hình có chạy hoàn toàn ngoại tuyến không?

Có. Toàn bộ luồng tra cứu (cắt đoạn → sinh vector → tra cứu → xếp hạng lại → trả lời) chạy ngoại tuyến với mô hình nội bộ qua Ollama. Không có lệnh gọi đám mây nào trong luồng mặc định. Nếu bạn cấu hình một luồng đi ra đám mây, đó là lựa chọn rõ ràng — bật/tắt theo từng không gian làm việc.

Đội của các bạn có bao nhiêu người? Còn duy trì lâu dài không?

Neural Research Lab là một đội nhỏ tại Việt Nam, dẫn dắt bởi Viet-Anh Nguyen (tác giả AnyLabeling — 3.2 nghìn sao trên GitHub). Phần lõi nom-vn phát triển công khai trên GitHub từ năm 2026; cam kết phát hành tối thiểu hằng quý. Hợp đồng Doanh nghiệp Mở rộng có điều khoản gửi giữ mã nguồn để bảo vệ khoản đầu tư của bạn nếu chúng tôi dừng phát triển.

So với gọi GPT-5 hoặc Claude qua API thì khác gì?

Khác ở ba điểm: (1) chi phí cố định, không tăng theo lượng — phù hợp với khối lượng văn bản lớn của doanh nghiệp; (2) dữ liệu không rời máy — không gửi hợp đồng hay hồ sơ y tế ra nước ngoài; (3) tinh chỉnh riêng cho tiếng Việt, đặc biệt là khôi phục dấu, sửa chính tả và tra cứu văn bản pháp luật — những việc mà mô hình lớn trên đám mây làm được nhưng không tốt nhất.

Bước tiếp theo

Cách nhanh nhất để biết Nôm có phù hợp với bài toán của bạn không là một buổi trao đổi 30 phút. Điền vài thông tin bên dưới — chúng tôi liên hệ trong vòng một ngày làm việc với đề xuất kiến trúc cụ thể.

Cảm ơn bạn đã liên hệ. Chúng tôi sẽ phản hồi qua thư điện tử trong vòng một ngày làm việc.
Có lỗi khi gửi biểu mẫu. Vui lòng thử lại hoặc viết thẳng cho vietanh@nrl.ai.
Hoặc viết thẳng cho vietanh@nrl.ai