ElevenLabs, công ty khởi nghiệp về giọng nói AI nổi tiếng với công nghệ nhân bản giọng nói, chuyển văn bản thành giọng nói và chuyển giọng nói thành giọng nói, vừa bổ sung một công cụ mới vào danh mục sản phẩm của mình: AI Voice Isolator.
Có sẵn trên nền tảng ElevenLabs bắt đầu từ hôm nay, công cụ này cho phép người sáng tạo loại bỏ tiếng ồn môi trường và âm thanh không mong muốn khỏi bất kỳ nội dung nào họ có, từ phim đến podcast hoặc video YouTube.
Nó ra mắt chỉ vài ngày sau khi công ty ra mắt ứng dụng Reader và được sử dụng miễn phí (với một số giới hạn). Tuy nhiên, người dùng cũng phải lưu ý rằng tính năng này không phải là hoàn toàn mới trên thị trường. Nhiều nhà cung cấp giải pháp sáng tạo khác, bao gồm Adobe, đều có các công cụ để cải thiện chất lượng giọng nói trong nội dung. Điều duy nhất còn lại cần xem là Voice Isolator hiệu quả như thế nào so với chúng.
AI Voice Isolator hoạt động như thế nào?
Khi ghi lại nội dung như phim, podcast hoặc phỏng vấn, người sáng tạo thường gặp phải vấn đề về tiếng ồn xung quanh, nơi âm thanh không mong muốn can thiệp vào nội dung (hãy tưởng tượng những người ngẫu nhiên nói chuyện, gió thổi hoặc một số phương tiện đi trên đường). Những tiếng ồn này có thể không được chú ý trong quá trình quay nhưng có thể ảnh hưởng đến chất lượng của sản phẩm cuối cùng — chủ yếu là đôi khi át đi giọng nói của người nói.
Để giải quyết vấn đề này, nhiều người có xu hướng sử dụng micrô có khả năng khử tiếng ồn xung quanh để loại bỏ tiếng ồn nền trong chính giai đoạn ghi âm. Chúng thực hiện công việc, nhưng có thể không thể tiếp cận được trong nhiều trường hợp, đặc biệt là đối với những người sáng tạo giai đoạn đầu có nguồn lực hạn chế. Đây là lúc các công cụ dựa trên AI như Voice Isolator mới của ElevenLabs phát huy tác dụng.
Về cốt lõi, sản phẩm hoạt động ở giai đoạn hậu kỳ, nơi người dùng chỉ cần tải lên nội dung họ muốn nâng cao. Khi tệp được tải lên, các mô hình cơ bản sẽ xử lý tệp đó, phát hiện và loại bỏ tiếng ồn không mong muốn đồng thời trích xuất đoạn hội thoại rõ ràng dưới dạng đầu ra.
ElevenLabs cho biết sản phẩm trích xuất giọng nói với mức chất lượng tương tự như nội dung được ghi trong phòng thu. Ammaar Reshi, người đứng đầu bộ phận thiết kế của công ty, cũng đã chia sẻ một bản demo, trong đó công cụ này có thể loại bỏ tiếng ồn của máy thổi lá để trích xuất giọng nói rõ ràng của người nói.
Thử nghiệm thực tế AI Voice Isolator
We just launched our Voice Isolator! 🚀
The best way to remove any background noise and extract crystal clear dialog from your content
There was a method to our madness yesterdaypic.twitter.com/FBExEXHIsn https://t.co/AtMuwUb4AL
— Ammaar Reshi (@ammaar) July 3, 2024
Chúng tôi đã chạy ba bài kiểm tra để thử nghiệm khả năng áp dụng trong thế giới thực của công cụ cách ly giọng nói. Trong lần đầu tiên, chúng tôi nói ba câu riêng biệt, mỗi câu bị nhiễu bởi các tiếng ồn khác nhau ở hậu cảnh, trong khi hai câu còn lại có ba câu với sự kết hợp của các tiếng ồn khác nhau, xảy ra ở các điểm ngẫu nhiên, không đều.
Trong tất cả các trường hợp, công cụ đã có thể xử lý âm thanh trong vài giây. Quan trọng nhất, nó đã loại bỏ tiếng ồn — từ những tiếng ồn liên quan đến việc mở/đóng cửa và đập bàn cho đến tiếng vỗ tay và di chuyển đồ gia dụng — trong hầu hết mọi trường hợp và trích xuất giọng nói rõ ràng, không có bất kỳ loại biến dạng nào. Chỉ có một số ít âm thanh mà nó không nhận ra và loại bỏ được là âm thanh của tiếng đập vào tường và tiếng búng tay.
Sam Sklar, người phụ trách mảng tăng trưởng của công ty, cũng nói với chúng tôi rằng ở giai đoạn này, nó không hoạt động trên giọng hát mà người dùng có thể thử sử dụng trong trường hợp đó và có thể thành công với một số bài hát.
Những cải tiến có thể được thực hiện trong tương lai
Mặc dù khả năng loại bỏ tiếng ồn nền không thường xuyên của Voice Isolator chắc chắn làm cho nó nổi bật so với hầu hết các công cụ khác chỉ hoạt động với tiếng ồn phẳng, nhưng vẫn còn một số điểm cần cải thiện. Hy vọng rằng, giống như tất cả các công cụ khác, ElevenLabs sẽ cải thiện hơn nữa hiệu suất của nó.
Điều quan trọng cần lưu ý ở đây là công ty đã không chia sẻ nhiều về các mô hình cơ bản hỗ trợ công cụ hoặc liệu các bản ghi âm đi vào đó có được sử dụng để đào tạo mô hình của mình theo bất kỳ cách nào hay không. Sklar cho biết ông không thể chia sẻ chi tiết cụ thể về những gì đi vào việc tạo mô hình nhưng nhấn mạnh công ty có một biểu mẫu được liên kết trong chính sách bảo mật của mình, nơi người dùng có thể từ chối sử dụng dữ liệu cá nhân để đào tạo.
Các gói dịch vụ và chi phí sử dụng
Tính đến thời điểm hiện tại, công ty đang cung cấp Voice Isolator chỉ thông qua nền tảng của mình. Họ có kế hoạch mở quyền truy cập API trong những tuần tới, mặc dù mốc thời gian chính xác vẫn chưa rõ ràng. Đối với người dùng đến trang web hoặc ứng dụng để dùng thử công cụ, ElevenLabs đang cung cấp quyền truy cập miễn phí với một số giới hạn sử dụng nhất định.
“Mô hình Voice Isolator có giá 1000 ký tự mỗi phút âm thanh. Chúng tôi có một gói miễn phí trên trang web của mình đi kèm với 10 nghìn ký tự/tháng, vì vậy có thể sử dụng nó với 10 phút âm thanh mỗi tháng miễn phí”, Sklar giải thích. Điều này có nghĩa là người dùng muốn loại bỏ tiếng ồn nền khỏi các tệp âm thanh lớn hơn sẽ phải chuyển sang các gói trả phí bắt đầu từ $5/tháng, được thanh toán hàng tháng.