OpenAI vừa giới thiệu bản thử nghiệm của Voice Engine - công cụ tạo giọng nói kỹ thuật số. Theo OpenAI, Voice Engine có khả năng tạo ra giọng nói nghe tự nhiên chỉ từ một mẫu âm thanh 15 giây.
Trong bài đăng trên blog, OpenAI cho biết họ đã thử nghiệm Voice Engine cho nhiều mục đích khác nhau, bao gồm hỗ trợ đọc sách cho trẻ em, dịch ngôn ngữ và phục hồi giọng nói cho bệnh nhân ung thư.
OpenAI cho biết một nhóm nhỏ doanh nghiệp đang thử nghiệm Voice Engine. Công cụ này có khả năng tái tạo giọng nói của một người từ bản ghi âm 15 giây. Người dùng chỉ cần tải lên bản ghi âm của mình và một đoạn văn bản, Voice Engine sẽ đọc văn bản đó bằng giọng nói tổng hợp giống giọng nói của người dùng.
Giọng nói tổng hợp này có thể đọc các ngôn ngữ khác nhau, vượt ra ngoài ngôn ngữ mẹ của người dùng. Ví dụ, người nói tiếng Anh có thể sử dụng Voice Engine để tạo ra giọng nói tiếng Tây Ban Nha, Pháp, Trung Quốc hoặc nhiều ngôn ngữ khác bằng giọng của chính mình.
Tuy nhiên, một số người dùng mạng xã hội bày tỏ lo ngại về khả năng sử dụng sai mục đích của công nghệ này, chẳng hạn như tạo ra các video deepfake (video giả mạo) hoặc hỗ trợ lừa đảo bằng cách mô phỏng giọng nói trái phép.
OpenAI cũng thừa nhận mối lo ngại về việc công nghệ này có thể được sử dụng để đánh bại các hệ thống xác thực giọng nói dùng để kiểm soát quyền truy cập vào tài khoản ngân hàng trực tuyến và các ứng dụng cá nhân khác.
"Đây là một công nghệ nhạy cảm và việc triển khai cần được thực hiện đúng đắn", Jeff Harris, Giám đốc sản phẩm của OpenAI, cho biết trong một cuộc phỏng vấn.
OpenAI đang nghiên cứu các phương pháp đánh dấu bản quyền cho giọng nói tổng hợp hoặc bổ sung các tính năng kiểm soát để ngăn chặn việc sử dụng trái phép giọng nói của các chính trị gia hoặc nhân vật nổi tiếng khác.