Bài học rút ra chính
- Các nhà nghiên cứu cho biết họ có thể dạy AI gắn nhãn video bằng cách xem và nghe.
- Hệ thống AI học cách biểu diễn dữ liệu để nắm bắt các khái niệm được chia sẻ giữa dữ liệu hình ảnh và âm thanh.
-
Đó là một phần trong nỗ lực dạy AI hiểu các khái niệm mà con người không gặp khó khăn khi học nhưng máy tính khó nắm bắt được.
Một hệ thống trí tuệ nhân tạo (AI) mới có thể xem và nghe video của bạn cũng như gắn nhãn những điều đang xảy ra.
Các nhà nghiên cứuMIT đã phát triển một kỹ thuật dạy AI nắm bắt các hành động được chia sẻ giữa video và âm thanh. Ví dụ, phương pháp của họ có thể hiểu rằng hành động của một đứa trẻ khóc trong video có liên quan đến từ "khóc" trong một đoạn âm thanh. Đó là một phần trong nỗ lực dạy cho AI cách hiểu các khái niệm mà con người không gặp khó khăn khi học, nhưng máy tính khó nắm bắt được.
"Mô hình học tập phổ biến, học có giám sát, hoạt động tốt khi bạn có bộ dữ liệu được mô tả tốt và đầy đủ", chuyên gia AI Phil Winder nói với Lifewire trong một cuộc phỏng vấn qua email. "Thật không may, bộ dữ liệu hiếm khi hoàn chỉnh vì thế giới thực có thói quen xấu là đưa ra các tình huống mới."
AI thông minh hơn
Máy tính gặp khó khăn trong việc hình dung các tình huống hàng ngày vì chúng cần xử lý dữ liệu hơn là âm thanh và hình ảnh như con người. Khi một máy "nhìn thấy" một bức ảnh, nó phải mã hóa bức ảnh đó thành dữ liệu mà nó có thể sử dụng để thực hiện một nhiệm vụ như phân loại ảnh. AI có thể bị sa lầy khi đầu vào có nhiều định dạng, như video, clip âm thanh và hình ảnh.
"Thách thức chính ở đây là, làm thế nào mà một cỗ máy có thể điều chỉnh các phương thức khác nhau đó? Là con người, điều này thật dễ dàng đối với chúng tôi", Alexander Liu, một nhà nghiên cứu của MIT và là tác giả đầu tiên của một bài báo về chủ đề này, cho biết trong một thông tin mới được đăng. "Chúng tôi nhìn thấy một chiếc ô tô và sau đó nghe thấy âm thanh của một chiếc ô tô chạy ngang qua và chúng tôi biết đây là những điều tương tự. Nhưng đối với máy học, điều đó không đơn giản như vậy."
Nhóm củaLiu đã phát triển một kỹ thuật AI mà họ nói là học cách đại diện cho dữ liệu để nắm bắt các khái niệm được chia sẻ giữa dữ liệu hình ảnh và âm thanh. Sử dụng kiến thức này, mô hình học máy của họ có thể xác định vị trí của một hành động cụ thể đang diễn ra trong video và gắn nhãn cho video đó.
Mô hình mới lấy dữ liệu thô, chẳng hạn như video và chú thích văn bản tương ứng của chúng và mã hóa chúng bằng cách trích xuất các tính năng hoặc quan sát về các đối tượng và hành động trong video. Sau đó, nó ánh xạ các điểm dữ liệu đó trong một lưới, được gọi là không gian nhúng. Mô hình tập hợp các dữ liệu tương tự với nhau dưới dạng các điểm đơn lẻ trong lưới; mỗi điểm dữ liệu hoặc vectơ này được biểu diễn bằng một từ riêng lẻ.
Ví dụ: một video clip về một người đang tung hứng có thể được ánh xạ tới một vectơ có nhãn "tung hứng".
Các nhà nghiên cứu đã thiết kế mô hình để nó chỉ có thể sử dụng 1, 000 từ để gắn nhãn vectơ. Mô hình có thể quyết định hành động hoặc khái niệm nào nó muốn mã hóa thành một vectơ duy nhất, nhưng nó chỉ có thể sử dụng 1, 000 vectơ. Mô hình chọn những từ mà nó cho là đại diện tốt nhất cho dữ liệu.
"Nếu có video về lợn, người mẫu có thể gán từ 'lợn' cho một trong 1.000 vectơ. Sau đó, nếu người mẫu nghe thấy ai đó nói từ 'lợn' trong một đoạn âm thanh, nó vẫn nên sử dụng cùng một vectơ để mã hóa điều đó, "Liu giải thích.
Video của bạn, được giải mã
Hệ thống ghi nhãn tốt hơn như hệ thống do MIT phát triển có thể giúp giảm sự thiên vị trong AI, Marian Beszedes, trưởng bộ phận nghiên cứu và phát triển của công ty sinh trắc học Innovatrics, nói với Lifewire trong một cuộc phỏng vấn qua email. Beszedes đề xuất ngành công nghiệp dữ liệu có thể xem các hệ thống AI từ góc độ quy trình sản xuất.
"Hệ thống chấp nhận dữ liệu thô làm đầu vào (nguyên liệu thô), xử lý trước, nhập dữ liệu, đưa ra quyết định hoặc dự đoán và phân tích đầu ra (thành phẩm)," Beszedes nói. "Chúng tôi gọi quy trình này là" nhà máy sản xuất dữ liệu "và giống như các quy trình sản xuất khác, quy trình này phải được kiểm soát chất lượng. Ngành công nghiệp dữ liệu cần coi sự thiên vị AI như một vấn đề về chất lượng.
"Từ góc độ người tiêu dùng, dữ liệu được dán nhãn sai khiến cho việc tìm kiếm trực tuyến các hình ảnh / video cụ thể trở nên khó khăn hơn", Beszedes nói thêm. "Với AI được phát triển chính xác, bạn có thể dán nhãn tự động, nhanh hơn và trung tính hơn nhiều so với việc ghi nhãn thủ công."
Nhưng mô hình MIT vẫn còn một số hạn chế. Thứ nhất, nghiên cứu của họ tập trung vào dữ liệu từ hai nguồn cùng một lúc, nhưng trong thế giới thực, con người gặp phải nhiều loại thông tin đồng thời, Liu nói
"Và chúng tôi biết 1.000 từ hoạt động trên loại tập dữ liệu này, nhưng chúng tôi không biết liệu nó có thể được khái quát hóa thành một vấn đề trong thế giới thực hay không", Liu nói thêm.
Các nhà nghiên cứu của MIT cho biết kỹ thuật mới của họ vượt trội hơn nhiều mô hình tương tự. Nếu AI có thể được đào tạo để hiểu video, thì cuối cùng bạn có thể bỏ qua việc xem video kỳ nghỉ của bạn mình và thay vào đó nhận được báo cáo do máy tính tạo.