NewStory Text-to-Speech

Hướng dẫn tối ưu hóa văn bản để tạo Audio AI chất lượng cao

Mở đầu

Cũng như mọi AI khác với nền tảng Transformer, NewStory có thể có lỗi, cần kiểm tra lại trước khi sử dụng. Đồng thời, nắm được kĩ thuật Prompt phù hợp sẽ giúp tạo ra kết quả đầu ra tốt hơn nhiều so với việc đưa vào 1 tài liệu thiếu chuẩn hóa.

Cách dùng rất đơn giản: đưa vào 1 văn bản, chọn giọng đọc ở phía bên phải và bấm nút "khởi tạo" là xong. Nhưng audio tốt hay kém, là phụ thuộc vào việc xử lý văn bản trước khi bấm nút tạo Audio. Việc này không chỉ đúng với NewStory, mà còn đúng với đa số các nền tảng AI TTS khác trên thị trường (4/2025)

Dưới cùng bài viết chúng tôi cung cấp Prompt chuẩn hóa text tạo sẵn cho quý vị, chỉ cần đưa vào mô hình Gemini 2.5 Pro chạy kèm file text cần sửa là được (tốt nhất là dưới 30,000 ký tự cả dấu cách, mỗi lần thôi).

Chi tiết kĩ thuật

1Loại bỏ thông tin thừa

AI sẽ đọc tất cả những gì được đưa vào dưới dạng nội dung text theo thứ tự. Vì vậy, hãy đảm bảo rằng văn bản đưa vào chứa đúng và đủ các nội dung cần đọc.

Trường hợp không tốt:

a. Convert từ file PDF nhiều trang hoặc tương tự về dạng txt: có thể lẫn Header/Footer của văn bản.

b. Bản thảo truyện kể, văn bản cá nhân còn các ghi chú riêng trong file. Ví dụ: Trong khu rừng rậm xanh tươi, nơi có những cây cổ thụ cao vút (lưu ý: cần tạo không khí huyền bí), có một nàng tiên mỏng manh.

2Kiểm tra kỹ lỗi chính tả

AI sẽ đọc lỗi đối với các từ không nằm trong từ vựng tiếng Việt. Bạn hãy nhớ sử dụng chức năng kiểm tra lỗi chính tả trên file docx trước khi chuyển định dạng sang txt nếu upload file, hoặc dùng AI như Gemini/OpenAI/DeepSeek để sửa chính tả.

Đặc biệt lưu ý: Có 1 số loại văn bản sử dụng hệ thống Font chữ và Bảng mã đặc thù của ngôn ngữ khác, không phải Unicode thông thường. Khi đọc bằng mắt thì thấy là chữ Việt bình thường, nhưng khi Copy sang khung text khác thì bị lỗi do mã riêng. AI cũng sẽ đọc sai hoặc không đọc đối với các ký tự này.

3Sử dụng dấu câu đầy đủ

NewStory đọc tốt nhất với các câu không quá ngắn cũng như quá dài. Như thế sẽ tạo nên nhịp điệu và cảm xúc giống người và đồng đều nhất cho văn bản. Tốt nhất là từ 10 đến 25 từ, ngắt nhịp bằng dấu phẩy rõ ràng ở các phần trong câu.

Các trường hợp bỏ dấu câu sai chỗ sẽ dẫn đến tạo cảm xúc thiếu chính xác, đọc nhanh lấy hơi với câu quá dài; hoặc ít ổn định với câu quá ngắn. Các cụm có nghĩa được nghỉ hơi bằng dấu phẩy sẽ giúp mô hình hiểu ngữ cảnh và đọc cảm xúc tốt hơn.

Đối với Tiêu đề đoạn văn:

Chưa tốt: Phần 1 Giới thiệu chung

Tốt hơn: Phần 1. Giới thiệu chung.

Ví dụ nghỉ dấu phẩy:

Chưa tốt: Nhị Lang Thần không chậm trễ, biến ngay thành chim cổ cò mình dài chân khẳng khiu đứng bên bờ rình mồi.

Tốt hơn: Nhị Lang Thần không chậm trễ, biến ngay thành chim cổ cò, mình dài chân khẳng khiu, đứng bên bờ rình mồi.

4Phiên âm từ nước ngoài

NewStory cũng như các mô hình tương tự (4/2025) sẽ chỉ nhận diện 1 ngôn ngữ chính làm đầu vào cho việc tạo Audio. Do đó, việc đưa vào các tên riêng, từ nước ngoài có thể dẫn đến việc phát âm không chính xác.

Hãy Copy nguyên câu văn có từ nước ngoài vào ô text và Gen nghe thử xem có lỗi không trước, sẽ giúp kiểm soát rủi ro và tránh tốn Point nếu AI đọc sai.

Cách tốt là hãy sử dụng AI ngôn ngữ (LLM) để phiên âm sang dạng tiếng Việt, như vậy sẽ đảm bảo phát âm chính xác hơn.

Gốc: Chúng tôi sử dụng phần mềm Adobe Photoshop. (AI có thể đọc sai "Adobe Photoshop")

Có thể thử (nếu AI đọc sai): Chúng tôi sử dụng phần mềm A đốp Phô tô sóp. hoặc Chúng tôi sử dụng phần mềm Adobe Phô tô sóp.

Fact: Giọng Google có thể đọc nhiều hơn 1 ngôn ngữ trong văn bản vì khởi tạo Audio bằng công nghệ "ghép từ" cũ, nên đọc được. Nhưng không thể tạo cảm xúc tự nhiên.

5Hạn chế từ viết tắt

AI thường sẽ đọc nguyên văn các chữ cái viết tắt (ví dụ: "TTYT" thành "Tê Tê Y Tê") thay vì đọc dạng đầy đủ ("Trung tâm y tế"), trừ những từ viết tắt rất phổ biến và đã được chúng tôi huấn luyện.

Cách làm: Viết đầy đủ các từ ngữ thay vì dùng dạng viết tắt, đặc biệt là các từ viết tắt không thông dụng hoặc mang tính nội bộ.

Chưa tốt: GĐ Cty đã duyệt KH cho Q1.

Tốt hơn: Giám đốc Công ty đã duyệt Kế hoạch cho Quý 1.

6Từ lóng, từ địa phương

Những từ này thường không có trong bộ dữ liệu huấn luyện của AI, hoặc có nhưng không đủ ngữ cảnh, dẫn đến việc AI đọc sai, không đọc được hoặc đọc với ngữ điệu không phù hợp.

Cách làm: Cố gắng sử dụng ngôn ngữ phổ thông, chuẩn mực, dễ hiểu. Nếu bắt buộc phải dùng, hãy chấp nhận rằng AI có thể đọc chưa tốt và nên nghe thử để kiểm tra. Cân nhắc thay thế bằng từ đồng nghĩa phổ biến hơn nếu có thể.

Có thể chưa tốt: Nay bị răng rứa?

Tốt hơn: Nay bị sao thế?

Các ký hiệu thuộc lĩnh vực khoa học, hay có kết hợp đặc thù giữa số và chữ/ký tự khác đều có thể dẫn đến lỗi đọc và cần kiểm tra trước khi Gen Audio số lượng lớn.

Kết luận

Khi đã đọc đến đây, chúng tôi tin rằng bạn đã nắm trong tay "bí kíp" để Gen Audio Tiếng Việt tốt rồi đấy. "Học" đã xong, "Hành" thôi nào!

Nhớ rằng tên các giọng của NewStory chỉ phản ánh đặc trưng nổi bật của giọng, bạn hoàn toàn có thể "biến hóa" để dùng với các nội dung cho hợp sở thích!

Thực hiện tốt 6 lưu ý ở trên có thể giúp bạn tạo được Audio tốt chỉ trong 1 lần tạo, tiết kiệm Point mà không phải gen nhiều lần.

Chúc các bạn tận dụng tốt công cụ cho công việc của mình!

Tạo audio ngay nào

Prompt dùng để chuẩn hóa văn bản bằng AI:

Bối cảnh: Bạn là một trợ lý AI chuyên xử lý ngôn ngữ tự nhiên tiếng Việt. Nhiệm vụ của bạn là nhận một đoạn văn bản tiếng Việt đầu vào (thường từ file .txt) và chuẩn hóa nó một cách tỉ mỉ để tối ưu hóa cho việc sử dụng với mô hình Text-to-Speech (TTS) tiếng Việt. Mục tiêu cuối cùng là giúp mô hình TTS đọc văn bản một cách tự nhiên, trôi chảy, dễ nghe và chính xác nhất có thể, mô phỏng cách ngắt nghỉ và diễn đạt của người Việt.

Yêu cầu chi tiết cần xử lý:

1. Kiểm tra và Sửa lỗi Chính tả:
Rà soát toàn bộ văn bản, xác định và sửa tất cả các lỗi chính tả tiếng Việt. Đảm bảo sử dụng đúng các quy tắc viết hoa (đầu câu, tên riêng, danh từ riêng...).

2. Chuẩn hóa Dấu câu:
Sử dụng chính xác và đầy đủ các dấu câu (dấu chấm ., dấu phẩy ,, dấu hỏi ?, dấu chấm than !, dấu hai chấm :, dấu chấm phẩy ;, dấu ngoặc đơn (), dấu ngoặc kép " ", dấu gạch ngang -) theo đúng ngữ pháp và ngữ cảnh tiếng Việt.
Đảm bảo mỗi câu kết thúc bằng một dấu câu phù hợp (thường là ., ?, !).

3. Phiên âm Việt hóa và Diễn giải:
Từ nước ngoài: Phiên âm các từ/cụm từ tiếng nước ngoài, tên riêng nước ngoài sang cách đọc tiếng Việt phổ thông (ví dụ: "Google" thành "Gu gồ", "Facebook" thành "Phây búc", "Marketing" thành "Ma két tinh", nhớ là không cần dấu - giữa các từ). Nếu có thể và phù hợp ngữ cảnh, hãy diễn giải bằng cụm từ tiếng Việt tương đương (ví dụ: "CEO" thành "Giám đốc điều hành").
Từ viết tắt: Diễn giải các từ viết tắt thành dạng đầy đủ tiếng Việt (ví dụ: "TP.HCM" thành "Thành phố Hồ Chí Minh", "ĐH BKHN" thành "Đại học Bách khoa Hà Nội", "TTS" thành "ti ti ét" hoặc "chuyển văn bản thành giọng nói"). Chọn cách diễn giải phù hợp nhất với ngữ cảnh thông thường.
Ký hiệu & Biểu tượng: Chuyển đổi các ký hiệu như %, $, €, &, # thành dạng chữ viết tiếng Việt (ví dụ: "10%" thành "mười phần trăm", "$100" thành "một trăm đô la", "&" thành "và").

4. Chuyển đổi Số và Đơn vị:
Viết đầy đủ bằng chữ các con số, đặc biệt là trong các ngữ cảnh cần đọc rõ ràng. Cân nhắc giữ lại dạng số nếu là số liệu phức tạp, năm tháng cụ thể hoặc trong bảng biểu (tuy nhiên, với mục tiêu TTS, ưu tiên dạng chữ).
Viết rõ ràng các đơn vị đo lường vật lý, tiền tệ, thời gian, ngày tháng, phân số, tỉ lệ... (ví dụ: "15kg" thành "mười lăm ki lô gam", "10m/s" thành "mười mét trên giây", "1/2" thành "một phần hai", "19:30" thành "mười chín giờ ba mươi phút" hoặc "bảy rưỡi tối").

5. Bổ sung Dấu phẩy (,) để Ngắt nghỉ Tự nhiên (Rất Quan Trọng):
Mục tiêu: Thêm dấu phẩy một cách chiến lược để tạo ra các điểm dừng nghỉ ngắn, giúp mô hình TTS đọc các câu dài hoặc phức tạp một cách rõ ràng, mạch lạc và tự nhiên hơn.
Vị trí cần thêm:
- Giữa các vế trong câu ghép.
- Sau các cụm trạng ngữ chỉ thời gian, nơi chốn, mục đích, nguyên nhân... đứng đầu câu.
- Sau các thán từ, từ gọi đáp đứng đầu câu (ví dụ: "Ôi,", "Này,").
- Để tách các thành phần trong một chuỗi liệt kê.
- Tách các thành phần phụ chú, giải thích.
Đặc biệt chú trọng các câu dài (ví dụ: trên 160 ký tự, bao gồm cả dấu cách): Tìm các cụm từ có nghĩa hoàn chỉnh (cụm chủ-vị, cụm danh từ, cụm động từ, cụm tính từ) và đặt dấu phẩy giữa chúng để tạo nhịp điệu đọc, giúp người nghe dễ theo dõi. Hãy phân tích cấu trúc ngữ pháp để đặt dấu phẩy hợp lý, tránh làm sai lệch ý nghĩa câu.

6. Xử lý Cụm Từ Lặp lại có Chấm than:
Đối với các cụm từ cảm thán, mệnh lệnh hoặc khẳng định được lặp lại ngay lập tức và ngăn cách bằng dấu chấm than (ví dụ: "Cứu tôi! Cứu tôi!", "Không! Không!", "Tuyệt vời! Tuyệt vời!"), hãy chuyển dấu chấm than ở giữa thành dấu phẩy và giữ lại dấu chấm than ở cuối (ví dụ: "Cứu tôi, cứu tôi!", "Không, không!", "Tuyệt vời, tuyệt vời!"). Điều này giúp TTS đọc liền mạch hơn, thể hiện đúng ngữ điệu nhấn mạnh lặp lại thay vì đọc thành hai câu riêng biệt.

7. Định dạng và Làm sạch:
Loại bỏ các khoảng trắng thừa (giữa các từ, đầu/cuối dòng, đầu/cuối văn bản).
Đảm bảo xuống dòng hợp lý, thường là kết thúc một đoạn văn hoàn chỉnh. Tránh các ngắt dòng giữa câu không cần thiết.
Loại bỏ các ký tự đặc biệt, emoji không thể diễn giải hoặc không cần thiết cho việc đọc.

Kết quả mong muốn: Một văn bản tiếng Việt hoàn chỉnh, sạch sẽ, đúng chính tả, đúng ngữ pháp, sử dụng dấu câu hợp lý (đặc biệt là dấu phẩy để ngắt nghỉ), đã được Việt hóa các yếu tố phi văn bản (số, ký hiệu, từ nước ngoài, viết tắt), sẵn sàng để đưa vào mô hình TTS và tạo ra âm thanh đọc tự nhiên nhất.

Yêu cầu thực hiện: Vui lòng xử lý đoạn văn bản dưới đây theo tất cả các tiêu chí đã nêu trên và cung cấp văn bản đã được chuẩn hóa.

© 2025 NewStory Text-to-Speech