Chẳng bao lâu nữa, bạn có thể không biết mình đang nói chuyện với máy tính

👤 Tác giả Abigail Brown 📧 [email protected].
⏱ Public 2023-12-17 07:05.
🖍 Sửa đổi lần cuối 2025-01-24 12:29.

Bài học rút ra chính

Ngày đang đến rất nhanh khi bạn không thể phân biệt lời nói do máy tính tạo ra từ thực tế.
Google gần đây đã công bố LaMDA, một mô hình có thể cho phép các cuộc trò chuyện tự nhiên hơn.
Việc tạo ra giọng nói giống con người cũng cần rất nhiều sức mạnh xử lý.

Ngay bây giờ, thật dễ dàng để biết khi nào bạn đang nói chuyện với máy tính, nhưng điều đó có thể sớm thay đổi nhờ những tiến bộ gần đây trong AI.

Google gần đây đã tiết lộ LaMDA, một mô hình thử nghiệm mà công ty tuyên bố có thể tăng cường khả năng trò chuyện của trợ lý AI và cho phép các cuộc trò chuyện tự nhiên hơn. Mục đích của LaMDA là cuối cùng có thể trò chuyện bình thường về hầu hết mọi thứ mà không cần đào tạo trước.

Đó là một trong những dự án AI ngày càng nhiều có thể khiến bạn tự hỏi liệu bạn có đang nói chuyện với một con người hay không.

"Ước tính của tôi là trong vòng 12 tháng tới, người dùng sẽ bắt đầu tiếp xúc và làm quen với những giọng nói mới, giàu cảm xúc hơn", James Kaplan, CEO của MeetKai, một trợ lý ảo AI đàm thoại và tìm kiếm., cho biết trong một cuộc phỏng vấn qua email.

"Khi điều này xảy ra, bài phát biểu tổng hợp của ngày hôm nay sẽ cho người dùng nghe giống như bài phát biểu của đầu những năm 2000 đối với chúng ta ngày nay."

Trợ lý giọng nói với ký tự

Google’s LaMDA được xây dựng dựa trên Transformer, một kiến trúc mạng thần kinh do Google Research phát minh. Không giống như các mô hình ngôn ngữ khác, LaMDA của Google được đào tạo về đối thoại thực tế.

Một phần của thách thức để tạo ra giọng nói AI có âm thanh tự nhiên là tính chất mở của các cuộc trò chuyện, Eli Collins của Google đã viết trong một bài đăng trên blog.

"Cuộc trò chuyện với một người bạn về một chương trình truyền hình có thể phát triển thành một cuộc thảo luận về quốc gia nơi chương trình được quay trước khi giải quyết tranh luận về ẩm thực khu vực ngon nhất của quốc gia đó", anh ấy nói thêm.

Mọi thứ đang diễn ra nhanh chóng với giọng nói của robot. Eric Rosenblum, đối tác quản lý tại Tsingyuan Ventures, công ty đầu tư vào AI đàm thoại, nói rằng một số vấn đề cơ bản nhất trong bài phát biểu có sự hỗ trợ của máy tính hầu như đã được giải quyết.

Ví dụ: tỷ lệ chính xác khi hiểu giọng nói đã rất cao trong các dịch vụ như phiên âm được thực hiện bởi phần mềm Otter.ai hoặc ghi chú y tế do DeepScribe thực hiện.

"Tuy nhiên, biên giới tiếp theo khó khăn hơn nhiều", anh ấy nói thêm.

"Duy trì sự hiểu biết về ngữ cảnh, một vấn đề vượt xa quá trình xử lý ngôn ngữ tự nhiên và sự đồng cảm, chẳng hạn như máy tính tương tác với con người cần phải hiểu được sự thất vọng, tức giận, thiếu kiên nhẫn, v.v. Cả hai vấn đề này đều đang được giải quyết, nhưng cả hai đều chưa đạt yêu cầu."

Mạng thần kinh là chìa khóa

Để tạo ra giọng nói giống như cuộc sống, các công ty đang sử dụng công nghệ như mạng nơ-ron sâu, một dạng máy học phân loại dữ liệu qua các lớp, Matt Muldoon, chủ tịch Bắc Mỹ tại ReadSpeaker, một công ty phát triển phần mềm chuyển văn bản thành giọng nói, cho biết trong một cuộc phỏng vấn qua email.

"Các lớp này tinh chỉnh tín hiệu, sắp xếp nó thành các phân loại phức tạp hơn," ông nói thêm. "Kết quả là lời nói tổng hợp nghe giống một con người kỳ lạ."

Một công nghệ khác đang được phát triển là Prosody Transfer, liên quan đến việc kết hợp âm thanh của một giọng nói chuyển văn bản thành giọng nói với phong cách nói của một giọng nói khác, Muldoon nói. Ngoài ra còn có học chuyển tiếp, giúp giảm lượng dữ liệu đào tạo cần thiết để tạo ra giọng nói chuyển văn bản thành giọng nói thần kinh mới.

Kaplan cho biết việc tạo ra giọng nói giống con người cũng cần một lượng lớn sức mạnh xử lý. Các công ty đang phát triển chip tăng tốc thần kinh, là các mô-đun tùy chỉnh hoạt động cùng với các bộ xử lý thông thường.

"Giai đoạn tiếp theo của quá trình này sẽ là đưa những con chip này vào phần cứng nhỏ hơn, như hiện tại nó đã được thực hiện cho máy ảnh khi AI cho tầm nhìn là cần thiết", ông nói thêm. "Sẽ không lâu nữa trước khi loại khả năng tính toán này có sẵn trong chính tai nghe."

Một thách thức để phát triển bài phát biểu dựa trên AI là mọi người nói chuyện khác nhau, vì vậy máy tính có xu hướng khó hiểu chúng ta.

"Hãy nghĩ đến giọng Georgia so với Boston và giọng North Dakota, và liệu tiếng Anh có phải là ngôn ngữ chính của bạn hay không", Monica Dema, người làm việc về phân tích tìm kiếm bằng giọng nói tại MDinc, cho biết trong một email. "Xét trên phạm vi toàn cầu, thực hiện điều này rất tốn kém cho tất cả các khu vực của Đức, Trung Quốc và Ấn Độ, nhưng điều đó không có nghĩa là không hoặc không thể thực hiện được."

Đề xuất:

Đăng ký không đảm bảo nội dung bạn muốn, các chuyên gia nói

Đăng ký dường như là cách người tiêu dùng truy cập nội dung ngày nay, nhưng các chuyên gia cho rằng bạn không nên hành động như thể bạn sở hữu nội dung đó, bởi vì đăng ký không đảm bảo quyền truy cập mãi mãi

Chẳng bao lâu nữa, Camera trên điện thoại của bạn có thể luôn theo dõi bạn

Bộ vi xử lý điện thoại Snapdragon 8, Gen 1 mới của Qualcomm có thể cho phép bạn sử dụng máy ảnh cho mục đích bảo mật, nhưng các chuyên gia về quyền riêng tư và bảo mật cho rằng đây là một ý tưởng khủng khiếp

Công nghệ lưu trữ dữ liệu mới có thể không bao giờ nói lời tạm biệt với thông tin của bạn

Các nhà nghiên cứu tại Viện Công nghệ Stevens đã tìm ra cách ghi dữ liệu vào đĩa vật lý trong 5D, có nghĩa là có thể lưu trữ tới 500 terabyte dữ liệu trên một đĩa trong tương lai

Chẳng bao lâu nữa, Tiện ích mở rộng của Chrome có thể hoạt động trong Safari

Bạn sẽ sớm có thể sử dụng tất cả các tiện ích mở rộng trình duyệt Chrome tuyệt vời đó trong Safari, Edge và Firefox, đồng thời "tận hưởng" một số tiện ích mở rộng Safari trong tất cả các trình duyệt

Đánh giá Máy tính để bàn HP Flagship Pro: Máy tính đã được tân trang lại với giá cả phải chăng với các thông số kỹ thuật vững chắc

Máy tính để bàn HP Flagship Pro có kết quả tốt trong thử nghiệm điểm chuẩn, nhưng các bộ phận đảm bảo có thể được đưa vào thử nghiệm theo thời gian. Là một chiếc PC được tân trang lại từ Amazon Renewed, chúng tôi đưa nó vào thử nghiệm để xem nó so với các tùy chọn mới hơn như thế nào

Chẳng bao lâu nữa, bạn có thể không biết mình đang nói chuyện với máy tính

Mục lục:

Bài học rút ra chính

Trợ lý giọng nói với ký tự

Mạng thần kinh là chìa khóa

Đề xuất:

Đăng ký không đảm bảo nội dung bạn muốn, các chuyên gia nói

Chẳng bao lâu nữa, Camera trên điện thoại của bạn có thể luôn theo dõi bạn

Công nghệ lưu trữ dữ liệu mới có thể không bao giờ nói lời tạm biệt với thông tin của bạn

Chẳng bao lâu nữa, Tiện ích mở rộng của Chrome có thể hoạt động trong Safari

Đánh giá Máy tính để bàn HP Flagship Pro: Máy tính đã được tân trang lại với giá cả phải chăng với các thông số kỹ thuật vững chắc

Chromebook Hack để tận dụng tối đa máy tính xách tay của bạn

Cách Thay đổi Kích thước Phông chữ của Danh sách Thư Outlook

Cách Đo Màn hình TV

Cách thay đổi tên người dùng TikTok và ảnh hồ sơ của bạn

Cách Thêm Ảnh Nền vào Trang trình bày PowerPoint

Cách xóa sinh nhật trên Facebook khỏi lịch của bạn

Cách kết nối Bộ điều khiển GameCube với Công tắc

Cách Chuyển Quyền sở hữu Tài liệu Google

Netflix và Waze Gamify Summer Roadtrip của bạn

Cách tạo Screencasts với Windows 10 Xbox Game DVR

Cách tải xuống danh sách phát Spotify

Amazon công bố công cụ theo dõi thể dục Halo View mới

Tại sao tôi nghĩ việc đặt USB-C làm mặc định khó hơn âm thanh

Sonic The Hedgehog' của Sega kết thúc như thế nào trên Nintendo’s Switch?

2021 iPad mini: Tin tức, Giá bán, Ngày phát hành & Thông số kỹ thuật