Làm thế nào AI có thể làm cho giọng nói trên máy tính trở nên tự nhiên hơn

Mục lục:

Làm thế nào AI có thể làm cho giọng nói trên máy tính trở nên tự nhiên hơn
Làm thế nào AI có thể làm cho giọng nói trên máy tính trở nên tự nhiên hơn
Anonim

Bài học rút ra chính

  • Các công ty đang chạy đua để tìm cách làm cho giọng nói do máy tính tạo ra âm thanh trung thực hơn.
  • NVIDIA gần đây đã tiết lộ các công cụ có thể ghi lại âm thanh của giọng nói tự nhiên bằng cách cho phép bạn đào tạo AI bằng chính giọng nói của mình.
  • Ngữ điệu, cảm xúc và âm nhạc là những đặc điểm mà giọng nói máy tính vẫn còn thiếu, một chuyên gia nói.
Image
Image

Bài phát biểu do máy tính tạo ra có thể sớm nghe giống người hơn nhiều.

Nhà sản xuất bộ phận máy tính NVIDIA gần đây đã tiết lộ các công cụ có thể ghi lại âm thanh của giọng nói tự nhiên bằng cách cho phép bạn đào tạo AI bằng giọng nói của mình. Phần mềm cũng có thể phân phối lời nói của một người bằng giọng nói của người khác. Đó là một phần của sự thúc đẩy đang phát triển để làm cho giọng nói trên máy tính trở nên thực tế hơn.

"Công nghệ AI bằng giọng nói tiên tiến cho phép người dùng nói một cách tự nhiên, kết hợp nhiều câu hỏi thành một câu duy nhất và loại bỏ sự cần thiết phải lặp lại liên tục các chi tiết từ câu hỏi ban đầu", Michael Zagorsek, giám đốc điều hành của công ty nhận dạng giọng nói SoundHound, nói với Lifewire trong một cuộc phỏng vấn qua email.

"Việc bổ sung nhiều ngôn ngữ, hiện đã có trên hầu hết các nền tảng AI bằng giọng nói, giúp trợ lý giọng nói kỹ thuật số có thể truy cập ở nhiều khu vực địa lý hơn và cho nhiều dân số hơn", ông nói thêm.

Robospeech Đang trỗi dậy

Alexa của Amazon và Siri của Apple nghe hay hơn rất nhiều so với giọng nói của máy tính từ một thập kỷ trước, nhưng chúng sẽ không sớm bị nhầm lẫn với giọng nói đích thực của con người.

Để làm cho giọng nói nhân tạo nghe tự nhiên hơn, nhóm nghiên cứu chuyển văn bản thành giọng nói của NVIDIA đã phát triển mô hình RAD-TTS. Hệ thống cho phép các cá nhân dạy mô hình chuyển văn bản thành giọng nói (TTS) bằng giọng nói của họ, bao gồm nhịp độ, âm sắc, âm sắc và các yếu tố khác.

Công ty đã sử dụng mô hình mới của mình để xây dựng lời tường thuật bằng giọng nói mang âm hưởng hội thoại hơn cho loạt video Tôi là AI của mình.

"Với giao diện này, nhà sản xuất video của chúng tôi có thể ghi lại chính mình đang đọc kịch bản video và sau đó sử dụng mô hình AI để chuyển lời nói của mình thành giọng của người kể chuyện nữ. Sử dụng bản tường thuật cơ bản này, nhà sản xuất sau đó có thể chỉ đạo AI như một diễn viên lồng tiếng - điều chỉnh bài phát biểu tổng hợp để nhấn mạnh các từ cụ thể và sửa đổi nhịp độ của bài tường thuật để thể hiện tốt hơn giọng điệu của video ", NVIDIA viết trên trang web của mình.

Khó hơn Nghe

Làm cho giọng nói do máy tính tạo ra âm thanh tự nhiên là một vấn đề khó, các chuyên gia nói.

"Bạn cần ghi âm hàng trăm giờ giọng nói của ai đó để tạo ra phiên bản máy tính của nó", Nazim Ragimov, Giám đốc điều hành của công ty phần mềm chuyển văn bản thành giọng nói Kukarella, nói với Lifewire trong một cuộc phỏng vấn qua email. “Và bản thu phải có chất lượng cao, được thu trong phòng thu chuyên nghiệp. Càng nhiều giờ chất lượng giọng nói được tải và xử lý, kết quả càng tốt."

Tính năng chuyển văn bản thành giọng nói có thể được sử dụng trong trò chơi, để hỗ trợ những người bị khiếm khuyết về giọng nói hoặc để giúp người dùng dịch giữa các ngôn ngữ bằng giọng nói của họ.

Ngữ điệu, cảm xúc và âm nhạc là những đặc điểm mà giọng nói máy tính vẫn còn thiếu, Ragimov nói.

Nếu AI có thể thêm các liên kết bị thiếu này, giọng nói do máy tính tạo ra sẽ "không thể phân biệt được với giọng của các diễn viên thực", ông nói thêm. "Đó là một công việc đang được tiến hành. Những giọng nói khác sẽ có thể cạnh tranh với những người dẫn chương trình radio. Bạn sẽ sớm thấy những giọng nói có thể hát và đọc sách nói."

Công nghệ giọng nói đang trở nên phổ biến hơn trong một loạt các doanh nghiệp.

"Ngành công nghiệp ô tô gần đây đã áp dụng AI bằng giọng nói như một cách để tạo ra trải nghiệm lái xe an toàn hơn và kết nối hơn", Zagorsek nói.

"Kể từ đó, trợ lý giọng nói ngày càng trở nên phổ biến khi các thương hiệu đang tìm cách cải thiện trải nghiệm của khách hàng và đáp ứng nhu cầu về các phương pháp tương tác với sản phẩm và dịch vụ của họ dễ dàng hơn, an toàn hơn, thuận tiện hơn, hiệu quả và hợp vệ sinh."

Thông thường, AI bằng giọng nói chuyển đổi truy vấn thành phản hồi trong một quy trình hai bước bắt đầu bằng cách chuyển lời nói thành văn bản bằng cách sử dụng nhận dạng giọng nói tự động (ASR) và sau đó đưa văn bản đó vào mô hình hiểu ngôn ngữ tự nhiên (NLU).

Image
Image

Phương pháp tiếp cận củaSoundHound kết hợp hai bước này thành một quy trình để theo dõi giọng nói trong thời gian thực. Công ty tuyên bố kỹ thuật này cho phép trợ lý giọng nói hiểu ý nghĩa của các truy vấn của người dùng, ngay cả trước khi người đó nói xong.

Những tiến bộ trong tương lai về giọng nói trên máy tính, bao gồm sự sẵn có của nhiều tùy chọn kết nối từ chỉ nhúng (không yêu cầu kết nối đám mây) đến kết hợp (nhúng cộng với đám mây) và chỉ đám mây "sẽ mang lại nhiều lựa chọn hơn cho các công ty trong các ngành về chi phí, quyền riêng tư và khả năng xử lý sẵn có, "Zagoresk nói.

NVIDIA cho biết các mô hình AI tin tức của họ vượt xa công việc lồng tiếng.

"Chuyển văn bản thành giọng nói có thể được sử dụng trong trò chơi, để hỗ trợ những người khuyết tật về giọng nói hoặc giúp người dùng dịch giữa các ngôn ngữ bằng giọng nói của chính họ", công ty viết. "Nó thậm chí có thể tái tạo màn trình diễn của các ca sĩ mang tính biểu tượng, không chỉ phù hợp với giai điệu của bài hát mà còn thể hiện cảm xúc đằng sau giọng hát."

Đề xuất: