Bài học rút ra chính
- Meta đang sử dụng AI để tạo ra các chương trình có thể thể hiện cảm xúc bằng lời nói.
- Nhóm AI của công ty cho biết họ đã đạt được những tiến bộ trong việc mô hình hóa giọng nói biểu cảm, chẳng hạn như tiếng cười, ngáp, tiếng khóc và "trò chuyện chit tự phát" trong thời gian thực.
- AI cũng đang được sử dụng để cải thiện khả năng nhận dạng giọng nói.
Bạn sẽ sớm có thể trò chuyện tự nhiên hơn với máy tính của mình, nhờ vào sức mạnh của trí tuệ nhân tạo (AI).
Meta cho biết họ đã đạt được tiến bộ đáng kể trong nỗ lực tạo ra các hệ thống giọng nói do AI tạo ra thực tế hơn. Nhóm AI của công ty cho biết họ đã đạt được những tiến bộ trong khả năng mô hình hóa giọng nói biểu cảm, chẳng hạn như tiếng cười, ngáp và khóc, ngoài "trò chuyện chit tự phát" trong thời gian thực.
"Trong bất kỳ cuộc trò chuyện nhất định nào, mọi người trao đổi với nhau rất nhiều tín hiệu phi ngôn ngữ, như ngữ điệu, biểu hiện cảm xúc, tạm dừng, trọng âm, nhịp điệu - tất cả đều quan trọng đối với tương tác của con người", nhóm này viết trong bài đăng trên blog gần đây. "Nhưng các hệ thống AI ngày nay không nắm bắt được những tín hiệu giàu tính biểu cảm này bởi vì chúng chỉ học được từ văn bản viết, thứ nắm bắt những gì chúng ta nói chứ không nắm bắt được cách chúng ta nói."
Nói thông minh hơn
Trong bài đăng trên blog, nhóm của Meta AI cho biết họ đang làm việc để khắc phục những hạn chế của các hệ thống AI truyền thống là không thể hiểu các tín hiệu phi ngôn ngữ trong giọng nói, chẳng hạn như ngữ điệu, biểu hiện cảm xúc, tạm dừng, trọng âm và nhịp điệu. Hệ thống bị cản trở vì chúng chỉ có thể học từ văn bản viết.
Nhưng công việc của Meta khác với những nỗ lực trước đây vì các mô hình AI của nó có thể sử dụng các mô hình xử lý ngôn ngữ tự nhiên để nắm bắt toàn bộ bản chất của ngôn ngữ nói. Các nhà nghiên cứu Meta nói rằng các mô hình mới có thể cho phép các hệ thống AI truyền tải cảm xúc mà họ muốn truyền tải - chẳng hạn như buồn chán hoặc trớ trêu.
"Trong tương lai gần, chúng tôi sẽ tập trung vào việc áp dụng các kỹ thuật không văn bản để xây dựng các ứng dụng xuôi dòng hữu ích mà không yêu cầu nhãn văn bản sử dụng nhiều tài nguyên hoặc hệ thống nhận dạng giọng nói tự động (ASR), chẳng hạn như trả lời câu hỏi (ví dụ:" How's the thời tiết? ")," nhóm nghiên cứu viết trong bài đăng trên blog. "Chúng tôi tin rằng những câu nói hay trong bài phát biểu có thể giúp phân tích cú pháp câu tốt hơn, từ đó tạo điều kiện hiểu ý định và cải thiện hiệu suất trả lời câu hỏi."
Trí tuệ nhân tạo
Không chỉ máy tính ngày càng trở nên tốt hơn trong việc truyền đạt ý nghĩa mà AI cũng đang được sử dụng để cải thiện khả năng nhận dạng giọng nói.
Các nhà khoa học máy tính đã làm việc trên máy tính nhận dạng giọng nói ít nhất là từ năm 1952, khi ba nhà nghiên cứu của Bell Labs tạo ra một hệ thống có thể nhận dạng các chữ số đơn lẻ, giám đốc công nghệ của AI Dynamics, Ryan Monsurate, cho biết trong một email tới Dây cứu sinh. Đến những năm 1990, hệ thống nhận dạng giọng nói đã có sẵn trên thị trường nhưng vẫn có tỷ lệ lỗi đủ cao để không khuyến khích sử dụng bên ngoài các lĩnh vực ứng dụng rất cụ thể như chăm sóc sức khỏe.
"Giờ đây, các mô hình học sâu đã cho phép các mô hình tập hợp (như của Microsoft) đạt được hiệu suất siêu phàm trong việc nhận dạng giọng nói, chúng tôi có công nghệ cho phép giao tiếp bằng lời không phụ thuộc vào người nói với máy tính ở quy mô lớn", Monsurate nói. "Giai đoạn tiếp theo sẽ bao gồm giảm chi phí để tất cả những người sử dụng Siri hoặc trợ lý AI của Google sẽ có quyền truy cập vào cấp độ nhận dạng giọng nói này."
AI rất hữu ích cho việc nhận dạng giọng nói vì nó có thể cải thiện theo thời gian thông qua việc học hỏi, Ariel Utnik, giám đốc doanh thu kiêm tổng giám đốc tại công ty giọng nói AI Verbit.ai, nói với Lifewire trong một cuộc phỏng vấn qua email. Ví dụ: Verbit tuyên bố công nghệ AI nội bộ của họ phát hiện và lọc tiếng ồn xung quanh và tiếng vọng, đồng thời phiên âm người nói bất kể trọng âm để tạo ra các bản ghi và chú thích chi tiết, chuyên nghiệp từ video và âm thanh trực tiếp và được ghi lại.
Nhưng Utnik nói rằng hầu hết các nền tảng nhận dạng giọng nói hiện tại chỉ chính xác 75-80%.
"AI sẽ không bao giờ thay thế hoàn toàn con người vì việc đánh giá cá nhân của người sao chép, người hiệu đính và người chỉnh sửa là cần thiết để đảm bảo bản ghi cuối cùng có chất lượng cao và độ chính xác hàng đầu", ông nói thêm.
Nhận dạng giọng nói tốt hơn cũng có thể được sử dụng để ngăn chặn tin tặc, Sanjay Gupta, phó chủ tịch toàn cầu về phát triển sản phẩm và công ty tại công ty nhận dạng giọng nói Mitek Systems, cho biết trong một email. Nghiên cứu chỉ ra rằng trong vòng hai năm, 20% của tất cả các cuộc tấn công chiếm đoạt tài khoản thành công sẽ sử dụng tính năng nâng cao giọng nói tổng hợp, ông nói thêm.
"Điều này có nghĩa là khi công nghệ giả sâu ngày càng tinh vi hơn, chúng ta cần đồng thời tạo ra biện pháp bảo mật nâng cao có thể chống lại những chiến thuật này bên cạnh những trò giả sâu bằng hình ảnh và video", Gupta nói. "Chống giả mạo giọng nói yêu cầu công nghệ phát hiện độ trực tiếp, có khả năng phân biệt giữa giọng nói trực tiếp và phiên bản giọng nói được ghi âm, tổng hợp hoặc do máy tính tạo ra."
Sửa 2022-05-04: Sửa lỗi chính tả tên của Ryan Monsurate trong đoạn 9.