Gwen-TTS: Model mã nguồn mở giúp nhân bản giọng nói tiếng Việt chỉ với vài giây audio

Nếu bạn từng loay hoay tìm công cụ đọc giọng tiếng Việt tự nhiên cho video hay podcast, chắc cũng nhận ra hầu hết model TTS mã nguồn mở đều “chuẩn” cho tiếng Anh, còn tiếng Việt thì nghe lơ lớ, ngắt nhịp sai chỗ. Gwen-TTS, một dự án của G-Group AI Lab, sinh ra để giải quyết đúng vấn đề đó — biến một model TTS mạnh vốn tối ưu cho ngôn ngữ khác thành công cụ chuyên trị giọng Việt.

Gwen-TTS là gì, tách bạch với Qwen3-TTS ra sao

Trước tiên cần làm rõ một điểm dễ nhầm: Qwen3-TTS (của đội Qwen, Alibaba) và Gwen-TTS (của G-Group AI Lab) là hai thứ khác nhau, dù tên gần giống nhau.

Qwen3-TTS là nền tảng gốc, hỗ trợ 10 ngôn ngữ lớn gồm Trung, Anh, Nhật, Hàn, Đức, Pháp, Nga, Bồ Đào Nha, Tây Ban Nha và Ý. Nền tảng này có bộ tính năng khá đầy đủ: sinh giọng nói tự nhiên, nhân bản giọng (voice clone) chỉ từ vài giây audio, thiết kế giọng mới từ mô tả văn bản (voice design), và sinh giọng theo kiểu streaming với độ trễ cực thấp (khoảng 97ms). Model này được cấp phép Apache 2.0.

Gwen-TTS là bản finetune từ Qwen3-TTS-0.6B — cụ thể là bản Base của Qwen, vốn được thiết kế sẵn để người khác finetune tiếp. G-Group AI Lab đã huấn luyện thêm trên khoảng 1.000 giờ audio tiếng Việt thu thập từ TikTok, với mục tiêu chính là nhân bản giọng nói tiếng Việt tự nhiên và biểu cảm hơn. Cần lưu ý: theo README của repo, tính năng được công bố rõ ràng cho Gwen-TTS chỉ là voice cloning; các khả năng voice design hay streaming vốn có ở Qwen3-TTS gốc chưa được xác nhận là đã kế thừa đầy đủ sang bản finetune này — nên nếu bạn cần hai tính năng đó, hãy thử nghiệm kỹ trước khi triển khai thực tế.

Một điểm khác biệt nữa: Gwen-TTS phát hành theo giấy phép MIT, khác với Apache 2.0 của bản gốc.

Tại thời điểm viết bài, repo có 25 sao và 6 lượt fork trên GitHub — vẫn là dự án khá non trẻ, chưa phải “hot” theo tiêu chuẩn cộng đồng mã nguồn mở, nhưng ý tưởng bản địa hóa TTS cho tiếng Việt thì rất đáng chú ý.

Link repo: https://github.com/ggroup-ai-lab/gwen-tts

Ngôn ngữ Gwen-TTS hỗ trợ

Gwen-TTS lấy tiếng Việt làm ngôn ngữ chính (Vietnamese primary), đồng thời vẫn giữ khả năng xử lý 10 ngôn ngữ còn lại từ Qwen3-TTS gốc: Trung, Anh, Nhật, Hàn, Pháp, Đức, Ý, Bồ Đào Nha, Nga và Tây Ban Nha. Tuy nhiên, README có ghi rõ: model được tối ưu riêng cho tiếng Việt, nên chất lượng ở các ngôn ngữ khác có thể không còn tốt như bản Qwen3-TTS gốc.

Cách dùng thử Gwen-TTS

Muốn nghe thử trước khi cài đặt, bạn có thể vào thẳng demo tại g-voice.g-ailab.com/tts — bản demo này đã tích hợp sẵn bước chuẩn hóa văn bản (text normalization) nên không cần lo về số, ký hiệu hay viết tắt.

Nếu muốn chạy tại máy, yêu cầu phần cứng khá dễ thở: Python 3.11, CUDA 12.4, driver NVIDIA từ 550.54 trở lên, và chỉ cần từ 4GB VRAM. Cài đặt qua uv:

curl -LsSf https://astral.sh/uv/install.sh | sh
git clone https://github.com/ggroup-ai-lab/gwen-tts.git
cd gwen-tts
uv sync --python 3.11
uv pip install setuptools && uv pip install flash-attn --no-build-isolation
source .venv/bin/activate

Dùng qua giao diện dòng lệnh cũng đơn giản không kém — có sẵn vài giọng dựng sẵn để chọn, hoặc đưa file audio riêng vào để nhân bản:

# Dùng giọng có sẵn
python inference.py --text "Nội dung bạn muốn đọc" --speaker yen_nhi

# Dùng giọng tùy chỉnh từ file audio riêng
python inference.py \
    --text "Nội dung bạn muốn đọc" \
    --ref_audio duong/dan/toi/giong_cua_ban.wav \
    --ref_text "bản chép lời của đoạn audio tham chiếu"

# Xem danh sách giọng dựng sẵn
python inference.py --list_speakers

Mẹo nhỏ: README khuyến nghị nên áp dụng bước chuẩn hóa văn bản (xử lý số, ký hiệu, từ viết tắt) và chia nhỏ văn bản dài thành từng đoạn trước khi đưa vào model — làm vậy chất lượng giọng đọc sẽ ổn định hơn hẳn.

Ứng dụng thực tế

Với khả năng nhân bản giọng chỉ từ vài giây audio, Gwen-TTS phù hợp cho:

Làm giọng đọc (voice-over) tiếng Việt cho video ngắn, podcast mà không cần thuê lồng tiếng.
Xây trợ lý ảo, tổng đài tự động, hay nội dung e-learning bằng giọng tiếng Việt tự nhiên hơn so với các model TTS chưa tối ưu cho ngôn ngữ này.
Ghép vào pipeline tạo nội dung tự động cho AI Agent — chuyển văn bản tiếng Việt thành giọng nói mà không phải tự huấn luyện lại từ đầu.

Lưu ý: Công nghệ nhân bản giọng nói dễ bị lợi dụng cho mục đích lừa đảo qua điện thoại — kiểu giả giọng người thân hoặc nhân viên ngân hàng để yêu cầu chuyển tiền. Nếu bạn dùng Gwen-TTS để làm nội dung công khai, nên minh bạch về việc giọng đọc là do AI tạo ra, tránh để người nghe hiểu nhầm là giọng thật của một người cụ thể.

Nhìn chung, Gwen-TTS là một hướng đi thú vị: thay vì huấn luyện TTS tiếng Việt từ số không, tận dụng một base model đa ngôn ngữ mạnh rồi finetune riêng cho tiếng Việt tiết kiệm được rất nhiều công sức. Nếu bạn đang cần giọng đọc tiếng Việt tự nhiên cho dự án cá nhân, đây là cái tên đáng thử nghiệm — chỉ cần nhớ kiểm tra kỹ những tính năng chưa được xác nhận rõ ràng trước khi đưa vào sản phẩm thật.