Các công cụ sử dụng AI như ChatGPT ngày càng tinh vi và ấn tượng hơn, nhưng khi chúng trở nên quá tốt thì sẽ không thể phân biệt được đâu là con người và đâu là máy móc. Điều đó đã xảy ra, hoặc ít nhất khi nói đến trình tạo giọng nói dựa trên AI của Microsoft.
Được phát hiện bởi LiveScience, Microsoft được cho là đã tạo ra trình AI có thể chuyển văn bản thành giọng nói mạnh đến mức công ty cho rằng không an toàn để công bố sản phẩm ra công chúng vì mô hình này có thể "tạo ra giọng nói chính xác, tự nhiên theo đúng giọng nói của người nói ban đầu". Rõ ràng việc công khai công cụ này có thể dẫn đến các hành vi gia tăng gian lận, mạo danh…
Mô hình AI nguy hiểm của Microsoft được gọi là VALL-E 2 và trong một bài báo, các nhà nghiên cứu giải thích rằng mô hình này đánh dấu một cột mốc trong quá trình tổng hợp văn bản thành giọng nói và đã đạt được sự tương đương với giọng nói người mà nó muốn sao chép. Các tiêu chuẩn nội bộ của Microsoft phát hiện VALL-E 2 có thể sao chép giọng nói của con người hoặc thậm chí vượt trội trong một số trường hợp.
Các nhà nghiên cứu của Microsoft cho biết: "Các thí nghiệm của chúng tôi, được tiến hành trên các tập dữ liệu LibriSpeech và VCTK, đã chỉ ra rằng VALL-E 2 vượt trội hơn các hệ thống TTS zero-shot trước đây về độ mạnh mẽ, tự nhiên và độ tương đồng của giọng nói. Đây là hệ thống đầu tiên đạt được sự tương đương với con người trên các tiêu chuẩn này".
Dành cho bạn
Microsoft tuyên bố VALL-E 2 hoàn toàn là một dự án nghiên cứu, có nghĩa công ty không có kế hoạch đưa VALL-E 2 vào sản phẩm hoặc mở rộng quyền truy cập của công chúng. Tuy nhiên, công ty đã phác thảo một số trường hợp sử dụng công nghệ này có thể là những người trong ngành như giáo dục, báo chí, nội dung tự biên soạn, tính năng trợ năng, hệ thống phản hồi bằng giọng nói, dịch thuật và chatbot.