Phụ đề và bản dịch theo thời gian thực có thể là tương lai của trò chuyện video

Mục lục:

Phụ đề và bản dịch theo thời gian thực có thể là tương lai của trò chuyện video
Phụ đề và bản dịch theo thời gian thực có thể là tương lai của trò chuyện video
Anonim

Bài học rút ra chính

  • Navi sử dụng SharePlay và tính năng chuyển giọng nói thành văn bản được tích hợp sẵn của Apple để cung cấp phụ đề và bản dịch trong FaceTime.
  • Còn lâu mới hoàn hảo nhưng đã đủ tốt rồi.
  • Phụ đề rất tốt cho khả năng truy cập.
Image
Image

Navi là ứng dụng bổ sung phụ đề trực tiếp và bản dịch theo thời gian thực cho các cuộc gọi FaceTime của bạn.

Ứng dụng sử dụng SharePlay và Nhận dạng giọng nói tích hợp để thêm phụ đề và bản dịch bằng 20 ngôn ngữ vào cuộc gọi FaceTime của bạn. Đó là một cách sử dụng đáng kinh ngạc của SharePlay, mà hầu hết chúng ta coi như một cách phô trương để xem phim được đồng bộ hóa với những người ở những nơi khác. Bạn có thể chưa cần sa thải người phiên dịch của mình, nhưng một ứng dụng làm tốt điều này có thể cực kỳ hữu ích.

"Tôi không nhận được âm thanh từ cuộc gọi FaceTime", nhà phát triển Navi Jordi Bruin viết trên Twitter, "nhưng sử dụng SharePlay để chia sẻ nó giữa những người tham gia cuộc gọi."

SharePlay

SharePlay là một tính năng mới trong iOS 15 và macOS 12.1 cho phép bạn chia sẻ và đồng bộ hóa mọi thứ trong cuộc gọi FaceTime. Với ví dụ xem phim ở trên, bất kỳ người tham gia nào cũng có thể tạm dừng hoặc phát phim chẳng hạn, trong khi tất cả các bạn trò chuyện trong cuộc gọi FaceTime. Video FaceTime vẫn mở trong một bảng điều khiển nhỏ, nổi, hình trong ảnh và mỗi người tham gia chạy ứng dụng cục bộ trên thiết bị của họ. Mẹo của SharePlay là đồng bộ hóa bất cứ điều gì đang xảy ra trong các ứng dụng cục bộ này, để mọi người chia sẻ trải nghiệm, có thể là một bộ phim, một bài tập Thể dục + hoặc một bảng tính.

Navi sử dụng cùng một công nghệ, chỉ có ứng dụng trong cuộc gọi không phải là một bộ phim - đó là một công cụ dịch thời gian thực. Để sử dụng nó, bạn khởi chạy ứng dụng khi đang gọi FaceTime và nhấn vào nút 'Bật phụ đề'. Sau đó, những người tham gia khác cũng có thể tham gia hành động và xem phụ đề trực tiếp cho người nói hiện tại. Nếu ai đó đang độc thoại, bong bóng lời thoại của họ sẽ lớn lên và tồn tại lâu hơn một chút.

Image
Image

Đối với người khiếm thính, điều này có nghĩa là sự khác biệt giữa việc gọi cho mọi người hay không. Và đối với bất kỳ ai, điều đó có nghĩa là bạn có thể có những cuộc trò chuyện hữu ích giữa những người không nói chung một ngôn ngữ.

Văn bản phổ quát

Internet được xây dựng dựa trên văn bản và điều đó thật tuyệt. Nó nhỏ gọn và dễ tạo, đọc và dịch. Nó cũng đơn giản để chuyển thành bài phát biểu tổng hợp. Kết quả là bất kỳ ai từ bất kỳ đâu đều có thể tham gia vào bất kỳ cuộc trò chuyện nào. Ngôn ngữ không phải là rào cản và cũng không phải là điếc hay bất kỳ loại mù nào miễn là bạn đang sử dụng một thiết bị có công cụ hỗ trợ tiếp cận tốt dành cho người khiếm thính hoặc khiếm thính.

Nhưng từ nói khó xử lý hơn nhiều. Tính năng chính tả bằng giọng nói thành văn bản rất ấn tượng, nhưng chỉ tương đối gần đây, tính năng nhận dạng giọng nói chung mới trở nên đủ tốt để sử dụng chung-ứng dụng Dịch của Apple là một ví dụ điển hình. Được giới thiệu trong iOS 15, nó cung cấp bản dịch âm thanh theo thời gian thực. Nếu chúng tôi vẫn đi nghỉ ở nước ngoài, điều đó thật hoàn hảo.

Giờ đây, chúng tôi ngày càng sử dụng video cho công việc và giữ liên lạc với bạn bè và gia đình. Bất kể chúng tôi hoạt động như thế nào trong tương lai, rào cản đối với cuộc gọi điện video đã bị phá bỏ triệt để. Nó hiện là một công cụ phổ biến, nhưng nó thiếu rất nhiều sự khéo léo của các công cụ giao tiếp bằng văn bản.

Một cái gì đó như Navi, cung cấp phụ đề và bản dịch theo thời gian thực, có thể rất quan trọng. Khả năng tiếp cận là một khía cạnh, nhưng khả năng trò chuyện với những người mà bạn không nói được ngôn ngữ của họ sẽ mở ra hoạt động kinh doanh quốc tế ở một mức độ đáng kinh ngạc.

Image
Image

Đang thực hiện

Tôi đã thử nghiệm Navi với nhà phát triển ứng dụng, tác giả và người dùng thiết bị trợ thính Graham Bower. Nó khá tốt nhưng chưa sẵn sàng cho các nhiệm vụ quan trọng. Một số đoạn phiên âm tệ một cách hài hước và quá thô tục để có thể liên quan. Tuy nhiên, khi cuộc trò chuyện của chúng tôi tiếp tục, việc nhận dạng chính xác bài phát biểu của anh ấy đã tốt hơn rất nhiều. Điều đó có ý nghĩa vì công cụ đọc chính tả iOS thích ứng với giọng nói của bạn theo thời gian.

Bản dịch cũng hoạt động, mặc dù chất lượng bản dịch phụ thuộc vào độ chính xác của đầu vào.

Thật dễ dàng để chiếu loại công nghệ này vào Kính Apple trong tương lai hoặc bất kỳ sản phẩm AR / VR nào được đồn đại đang hoạt động trong tuần này.

"Tôi có thể thấy điều này hoạt động trong kính AR," Bower nói trong cuộc trò chuyện của chúng tôi. "Một số người, ngay cả với thính giác bình thường, vẫn thích phụ đề trong phim. Điều này sẽ giống như phụ đề trong đời thực."

Trong khi một bản demo công nghệ ấn tượng, Navi vẫn chưa có. Để sử dụng trong kinh doanh đáng tin cậy, tính năng nhận dạng giọng nói ban đầu của Apple sẽ phải chính xác hơn rất nhiều. Nhưng về tốc độ, nó ổn, và bản dịch cũng tốt như bất kỳ.

Nhưng bây giờ chúng ta đang đi trên con đường, và điều này sẽ chỉ trở nên tốt hơn.

Đề xuất: