Bài học rút ra chính
- DeepZen sử dụng AI (trí tuệ nhân tạo) để tạo ra những cuốn sách nói chân thực đến kinh ngạc từ văn bản.
- Công nghệ sử dụng các diễn viên lồng tiếng người thật để cung cấp các khối xây dựng.
- Amazon và Audible hiện không chấp nhận sách nói do máy tính tạo ra.
DeepZen là một công ty tạo ra giọng nói máy tính được sử dụng trong sách nói, dựa trên giọng nói thực của các diễn viên con người. Chất lượng đáng sợ - đủ tốt để nghe hàng giờ đồng hồ. Mánh lới quảng cáo ở đây là thành phần AI (trí tuệ nhân tạo), có thể đọc văn bản và suy ra phản ứng cảm xúc chính xác dựa trên ngữ cảnh. Sau đó, nó đưa cảm xúc đó vào giọng nói.
Thật ấn tượng và rất tiện lợi. Nhưng chúng ta có thực sự muốn trải nghiệm sách nói đồng nhất không? Còn những diễn viên lồng tiếng đó thì sao?
"Từ quan điểm của nhà xuất bản độc lập, bất cứ điều gì làm giảm chi phí sản xuất sách nói đều rất thú vị", Rick Carlile, chủ sở hữu của nhà xuất bản độc lập Carlile Media, nói với Lifewire qua email.
"Nhưng sự hấp dẫn đó giả định rằng sản phẩm sẽ có chất lượng tương đương với tường thuật truyền thống. Tôi không nghĩ rằng chúng ta đang ở đó một trăm phần trăm. Đừng hiểu sai ý tôi, DeepZen tốt một cách đáng kinh ngạc. Đó là một bước đột phá to lớn và những người tạo ra nó xứng đáng được khen ngợi và thành công. Nhưng nó vẫn chưa hoàn hảo."
Âm thanh 'Đủ tốt'
Cách tốt nhất để hiểu chất lượng của DeepZen là nghe mẫu. Nếu bạn không biết chúng được tạo ra bằng máy tính, bạn thậm chí có thể không nhận ra. Không phải trong một thời gian dù sao. Hãy giả sử rằng AI của DeepZen là hoàn hảo và nó không bao giờ hiểu sai các nốt cảm xúc mà nó phải đánh.
Ngay cả khi đó, một con người có thể đưa ra nhiều cách diễn giải sắc thái hơn và thường gây ngạc nhiên hơn. Một diễn viên có thể đưa ra một bước ngoặt bất ngờ đối với những từ mà máy tính thậm chí không bao giờ nghĩ đến. Và trên thực tế, khả năng diễn giải của AI chắc chắn vẫn chưa tốt bằng diễn viên lồng tiếng chuyên nghiệp.
"Là một người làm việc trên phim ảnh và gần đây nhất trong thế giới tường thuật âm thanh, trong khi tôi rất ấn tượng với AI-tôi biết một thực tế rằng có những ý nghĩa sâu xa mà máy móc không thể diễn giải", giọng nói chuyên nghiệp nam diễn viên Paul Cram nói với Lifewire qua email.
"Sẽ có một lượng lớn các tác giả không rõ sử dụng nó? Tôi đảm bảo sẽ có vì nó 'đủ tốt.'"
Đủ tốt, kết hợp với sự tiện lợi và tiết kiệm chi phí, có thể đủ để thúc đẩy các nhà xuất bản độc lập sử dụng dịch vụ.
"Sách nói có thể có giá lên đến 500 đô la cho mỗi giờ âm thanh hoàn chỉnh (cao hơn nhiều đối với giọng của người nổi tiếng) và điều đó không bao gồm chi phí thời gian quản lý và quản trị", Carlile nói. "Có thể giảm một nửa chi phí đó chỉ bằng cách tải bản thảo lên một nhà cung cấp như DeepZen là điều cực kỳ hấp dẫn."
Nói Rắc rối
Việc tuyển diễn viên lồng tiếng của bạn và tải bản thảo lên DeepZen vẫn chưa hoàn toàn dễ dàng. Hiện có một rào cản đối với việc hợp tác sách nói dễ dàng bằng AI và đó là từ Amazon.
"Hiện tại, ACX, con đường của nhà xuất bản tự phát hành để phân phối sách nói Audible và Amazon, sẽ không chấp nhận sách nói mà con người không ghi âm", Carlile nói.
Tại sao? Phẩm chất. Đây là mục Câu hỏi thường gặp từ trang web:
"Không cho phép chuyển văn bản thành giọng nói hoặc các bản ghi âm tự động khác. Người nghe có thể chọn sách nói để trình diễn tài liệu cũng như câu chuyện. Để đáp ứng mong đợi đó, sách nói của bạn phải được ghi âm bởi con người."
Điều này có nghĩa là ít nhất sách nói do DeepZen tạo ra hiện đã hết. Đây chỉ là suy đoán thuần túy, nhưng DeepZen có vẻ như là một thương vụ mua lại khá tốt đối với Amazon, cho phép họ bán dịch vụ và chỉ giữ nó cho sách Audible. Và ngay cả khi điều đó không xảy ra, nếu chất lượng của sách nói do máy tính tạo ra tốt như thế này, thì dường như có rất ít lý do để không tạo ngoại lệ cho quy tắc này.
Bạn có vui khi nghe sách nói được làm theo cách này không? Khi nó xảy ra, hầu hết mọi người thậm chí sẽ không nghi ngờ. Một số người có thể thích sự hoàn hảo của giọng nói do máy tính tạo ra bởi vì họ sẽ không bị vướng vào âm vực và thói quen đôi khi có thể làm mất tập trung. Công nghệ này cũng phù hợp với các trò chơi điện tử, quảng cáo trên TV và đài phát thanh và bất kỳ trường hợp nào khác mà bạn thuê một diễn viên lồng tiếng.
Công nghệ củaDeepZen cũng sẽ tạo ra một cách tuyệt vời để tự động tạo podcast tin tức từ các bài báo đã viết, điều này có thể hữu ích cho việc đi làm.
Và những diễn viên lồng tiếng đó thì sao? Chà, sẽ có ít nhất một cơ hội: Họ có thể làm việc cho DeepZen.