Chẳng bao lâu nữa, bạn có thể không biết mình đang nói chuyện với máy tính

Mục lục:

Chẳng bao lâu nữa, bạn có thể không biết mình đang nói chuyện với máy tính
Chẳng bao lâu nữa, bạn có thể không biết mình đang nói chuyện với máy tính
Anonim

Bài học rút ra chính

  • Ngày đang đến rất nhanh khi bạn không thể phân biệt lời nói do máy tính tạo ra từ thực tế.
  • Google gần đây đã công bố LaMDA, một mô hình có thể cho phép các cuộc trò chuyện tự nhiên hơn.
  • Việc tạo ra giọng nói giống con người cũng cần rất nhiều sức mạnh xử lý.
Image
Image

Ngay bây giờ, thật dễ dàng để biết khi nào bạn đang nói chuyện với máy tính, nhưng điều đó có thể sớm thay đổi nhờ những tiến bộ gần đây trong AI.

Google gần đây đã tiết lộ LaMDA, một mô hình thử nghiệm mà công ty tuyên bố có thể tăng cường khả năng trò chuyện của trợ lý AI và cho phép các cuộc trò chuyện tự nhiên hơn. Mục đích của LaMDA là cuối cùng có thể trò chuyện bình thường về hầu hết mọi thứ mà không cần đào tạo trước.

Đó là một trong những dự án AI ngày càng nhiều có thể khiến bạn tự hỏi liệu bạn có đang nói chuyện với một con người hay không.

"Ước tính của tôi là trong vòng 12 tháng tới, người dùng sẽ bắt đầu tiếp xúc và làm quen với những giọng nói mới, giàu cảm xúc hơn", James Kaplan, CEO của MeetKai, một trợ lý ảo AI đàm thoại và tìm kiếm., cho biết trong một cuộc phỏng vấn qua email.

"Khi điều này xảy ra, bài phát biểu tổng hợp của ngày hôm nay sẽ cho người dùng nghe giống như bài phát biểu của đầu những năm 2000 đối với chúng ta ngày nay."

Trợ lý giọng nói với ký tự

Google’s LaMDA được xây dựng dựa trên Transformer, một kiến trúc mạng thần kinh do Google Research phát minh. Không giống như các mô hình ngôn ngữ khác, LaMDA của Google được đào tạo về đối thoại thực tế.

Một phần của thách thức để tạo ra giọng nói AI có âm thanh tự nhiên là tính chất mở của các cuộc trò chuyện, Eli Collins của Google đã viết trong một bài đăng trên blog.

Image
Image

"Cuộc trò chuyện với một người bạn về một chương trình truyền hình có thể phát triển thành một cuộc thảo luận về quốc gia nơi chương trình được quay trước khi giải quyết tranh luận về ẩm thực khu vực ngon nhất của quốc gia đó", anh ấy nói thêm.

Mọi thứ đang diễn ra nhanh chóng với giọng nói của robot. Eric Rosenblum, đối tác quản lý tại Tsingyuan Ventures, công ty đầu tư vào AI đàm thoại, nói rằng một số vấn đề cơ bản nhất trong bài phát biểu có sự hỗ trợ của máy tính hầu như đã được giải quyết.

Ví dụ: tỷ lệ chính xác khi hiểu giọng nói đã rất cao trong các dịch vụ như phiên âm được thực hiện bởi phần mềm Otter.ai hoặc ghi chú y tế do DeepScribe thực hiện.

"Tuy nhiên, biên giới tiếp theo khó khăn hơn nhiều", anh ấy nói thêm.

"Duy trì sự hiểu biết về ngữ cảnh, một vấn đề vượt xa quá trình xử lý ngôn ngữ tự nhiên và sự đồng cảm, chẳng hạn như máy tính tương tác với con người cần phải hiểu được sự thất vọng, tức giận, thiếu kiên nhẫn, v.v. Cả hai vấn đề này đều đang được giải quyết, nhưng cả hai đều chưa đạt yêu cầu."

Mạng thần kinh là chìa khóa

Để tạo ra giọng nói giống như cuộc sống, các công ty đang sử dụng công nghệ như mạng nơ-ron sâu, một dạng máy học phân loại dữ liệu qua các lớp, Matt Muldoon, chủ tịch Bắc Mỹ tại ReadSpeaker, một công ty phát triển phần mềm chuyển văn bản thành giọng nói, cho biết trong một cuộc phỏng vấn qua email.

"Các lớp này tinh chỉnh tín hiệu, sắp xếp nó thành các phân loại phức tạp hơn," ông nói thêm. "Kết quả là lời nói tổng hợp nghe giống một con người kỳ lạ."

Một công nghệ khác đang được phát triển là Prosody Transfer, liên quan đến việc kết hợp âm thanh của một giọng nói chuyển văn bản thành giọng nói với phong cách nói của một giọng nói khác, Muldoon nói. Ngoài ra còn có học chuyển tiếp, giúp giảm lượng dữ liệu đào tạo cần thiết để tạo ra giọng nói chuyển văn bản thành giọng nói thần kinh mới.

Kaplan cho biết việc tạo ra giọng nói giống con người cũng cần một lượng lớn sức mạnh xử lý. Các công ty đang phát triển chip tăng tốc thần kinh, là các mô-đun tùy chỉnh hoạt động cùng với các bộ xử lý thông thường.

"Giai đoạn tiếp theo của quá trình này sẽ là đưa những con chip này vào phần cứng nhỏ hơn, như hiện tại nó đã được thực hiện cho máy ảnh khi AI cho tầm nhìn là cần thiết", ông nói thêm. "Sẽ không lâu nữa trước khi loại khả năng tính toán này có sẵn trong chính tai nghe."

Một thách thức để phát triển bài phát biểu dựa trên AI là mọi người nói chuyện khác nhau, vì vậy máy tính có xu hướng khó hiểu chúng ta.

"Hãy nghĩ đến giọng Georgia so với Boston và giọng North Dakota, và liệu tiếng Anh có phải là ngôn ngữ chính của bạn hay không", Monica Dema, người làm việc về phân tích tìm kiếm bằng giọng nói tại MDinc, cho biết trong một email. "Xét trên phạm vi toàn cầu, thực hiện điều này rất tốn kém cho tất cả các khu vực của Đức, Trung Quốc và Ấn Độ, nhưng điều đó không có nghĩa là không hoặc không thể thực hiện được."

Đề xuất: