NewStory Text-to-Speech

Hướng dẫn tối ưu hóa văn bản để tạo Audio AI chất lượng cao

Mở đầu

Cũng như mọi AI khác với nền tảng Transformer, NewStory có thể có lỗi, cần kiểm tra lại trước khi sử dụng. Đồng thời, nắm được kĩ thuật Prompt phù hợp sẽ giúp tạo ra kết quả đầu ra tốt hơn nhiều so với việc đưa vào 1 tài liệu thiếu chuẩn hóa.

Cách dùng rất đơn giản: đưa vào 1 văn bản, chọn giọng đọc ở phía bên phải và bấm nút "khởi tạo" là xong. Nhưng audio tốt hay kém, là phụ thuộc vào việc xử lý văn bản trước khi bấm nút tạo Audio. Việc này không chỉ đúng với NewStory, mà còn đúng với đa số các nền tảng AI TTS khác trên thị trường (4/2025)

Chi tiết kĩ thuật

1Loại bỏ thông tin thừa

AI sẽ đọc tất cả những gì được đưa vào dưới dạng nội dung text theo thứ tự. Vì vậy, hãy đảm bảo rằng văn bản đưa vào chứa đúng và đủ các nội dung cần đọc.

Trường hợp không tốt:

a. Convert từ file PDF nhiều trang hoặc tương tự về dạng txt: có thể lẫn Header/Footer của văn bản.

b. Bản thảo truyện kể, văn bản cá nhân còn các ghi chú riêng trong file. Ví dụ: Trong khu rừng rậm xanh tươi, nơi có những cây cổ thụ cao vút (lưu ý: cần tạo không khí huyền bí), có một nàng tiên mỏng manh.

2Kiểm tra kỹ lỗi chính tả

AI sẽ đọc lỗi đối với các từ không nằm trong từ vựng tiếng Việt. Bạn hãy nhớ sử dụng chức năng kiểm tra lỗi chính tả trên file docx trước khi chuyển định dạng sang txt nếu upload file, hoặc dùng AI như Gemini/OpenAI/DeepSeek để sửa chính tả.

Đặc biệt lưu ý: Có 1 số loại văn bản sử dụng hệ thống Font chữ và Bảng mã đặc thù của ngôn ngữ khác, không phải Unicode thông thường. Khi đọc bằng mắt thì thấy là chữ Việt bình thường, nhưng khi Copy sang khung text khác thì bị lỗi do mã riêng. AI cũng sẽ đọc sai hoặc không đọc đối với các ký tự này.

3Sử dụng dấu câu đầy đủ

NewStory đọc tốt nhất với các câu không quá ngắn cũng như quá dài. Như thế sẽ tạo nên nhịp điệu và cảm xúc giống người và đồng đều nhất cho văn bản. Tốt nhất là từ 10 đến 25 từ, ngắt nhịp bằng dấu phẩy rõ ràng ở các phần trong câu.

Các trường hợp bỏ dấu câu sai chỗ sẽ dẫn đến tạo cảm xúc thiếu chính xác, đọc nhanh lấy hơi với câu quá dài; hoặc ít ổn định với câu quá ngắn. Các cụm có nghĩa được nghỉ hơi bằng dấu phẩy sẽ giúp mô hình hiểu ngữ cảnh và đọc cảm xúc tốt hơn.

Đối với Tiêu đề đoạn văn:

Chưa tốt: Phần 1 Giới thiệu chung

Tốt hơn: Phần 1. Giới thiệu chung.

Ví dụ nghỉ dấu phẩy:

Chưa tốt: Nhị Lang Thần không chậm trễ, biến ngay thành chim cổ cò mình dài chân khẳng khiu đứng bên bờ rình mồi.

Tốt hơn: Nhị Lang Thần không chậm trễ, biến ngay thành chim cổ cò, mình dài chân khẳng khiu, đứng bên bờ rình mồi.

4Phiên âm từ nước ngoài

NewStory cũng như các mô hình tương tự (4/2025) sẽ chỉ nhận diện 1 ngôn ngũ chính làm đầu vào cho việc tạo Audio. Do đó, việc đưa vào các tên riêng, từ nước ngoài có thể dẫn đến việc phát âm không chính xác.

Hãy Copy nguyên câu văn có từ nước ngoài vào ô text và Gen nghe thử xem có lỗi không trước, sẽ giúp kiểm soát rủi ro và tránh tốn Point nếu AI đọc sai.

Cách tốt là hãy sử dụng AI ngôn ngữ (LLM) để phiên âm sang dạng tiếng Việt, như vậy sẽ đảm bảo phát âm chính xác hơn.

Gốc: Chúng tôi sử dụng phần mềm Adobe Photoshop. (AI có thể đọc sai "Adobe Photoshop")

Có thể thử (nếu AI đọc sai): Chúng tôi sử dụng phần mềm A-đốp Phô-tô-shóp. hoặc Chúng tôi sử dụng phần mềm Adobe Phô-tô-shóp.

Fact: Giọng Google có thể đọc nhiều hơn 1 ngôn ngữ trong văn bản vì khởi tạo Audio bằng công nghệ "ghép từ" cũ, nên đọc được. Nhưng không thể tạo cảm xúc tự nhiên.

5Hạn chế từ viết tắt

AI thường sẽ đọc nguyên văn các chữ cái viết tắt (ví dụ: "TTYT" thành "Tê Tê Y Tê") thay vì đọc dạng đầy đủ ("Trung tâm y tế"), trừ những từ viết tắt rất phổ biến và đã được chúng tôi huấn luyện.

Cách làm: Viết đầy đủ các từ ngữ thay vì dùng dạng viết tắt, đặc biệt là các từ viết tắt không thông dụng hoặc mang tính nội bộ.

Chưa tốt: GĐ Cty đã duyệt KH cho Q1.

Tốt hơn: Giám đốc Công ty đã duyệt Kế hoạch cho Quý 1.

6Từ lóng, từ địa phương

Những từ này thường không có trong bộ dữ liệu huấn luyện của AI, hoặc có nhưng không đủ ngữ cảnh, dẫn đến việc AI đọc sai, không đọc được hoặc đọc với ngữ điệu không phù hợp.

Cách làm: Cố gắng sử dụng ngôn ngữ phổ thông, chuẩn mực, dễ hiểu. Nếu bắt buộc phải dùng, hãy chấp nhận rằng AI có thể đọc chưa tốt và nên nghe thử để kiểm tra. Cân nhắc thay thế bằng từ đồng nghĩa phổ biến hơn nếu có thể.

Có thể chưa tốt: Nay bị răng rứa?

Tốt hơn: Nay bị sao thế?

Các ký hiệu thuộc lĩnh vực khoa học, hay có kết hợp đặc thù giữa số và chữ/ký tự khác đều có thể dẫn đến lỗi đọc và cần kiểm tra trước khi Gen Audio số lượng lớn.

Kết luận

Khi đã đọc đến đây, chúng tôi tin rằng bạn đã nắm trong tay "bí kíp" để Gen Audio Tiếng Việt tốt rồi đấy. "Học" đã xong, "Hành" thôi nào!

Nhớ rằng tên các giọng của NewStory chỉ phản ánh đặc trưng nổi bật của giọng, bạn hoàn toàn có thể "biến hóa" để dùng với các nội dung cho hợp sở thích!

Thực hiện tốt 6 lưu ý ở trên có thể giúp bạn tạo được Audio tốt chỉ trong 1 lần tạo, tiết kiệm Point mà không phải gen nhiều lần.

Chúc các bạn tận dụng tốt công cụ cho công việc của mình!

© 2025 NewStory Text-to-Speech