Bài học rút ra chính
- DALL · E là một mạng nơ-ron mới có thể vẽ hình ảnh dựa trên văn bản.
- Mạng là một trong số ngày càng nhiều các dự án AI có thể bắt chước sản lượng sáng tạo của con người.
- Các chuyên gia nói rằng hình ảnh do AI vẽ không phải là sáng tạo ban đầu.
Di chuyển qua, Picasso. Một mạng nơ-ron mới có thể vẽ hình ảnh dựa trên văn bản.
DALL · E, từ ghép tên của nghệ sĩ Salvador Dalí và Pixar’s WALL · E, có thể lấy bất kỳ văn bản nào và tạo hình ảnh từ đó. Hệ thống sử dụng mạng nơ-ron đã được đào tạo trên hàng tỷ ví dụ về hình ảnh và văn bản. Đây là một trong số ngày càng nhiều các dự án AI có thể bắt chước, nhưng không sao chép, sản phẩm sáng tạo của con người.
"Bởi vì ngôn ngữ tự nhiên không ngừng phát triển và phụ thuộc rất nhiều vào sắc thái ngữ cảnh, việc dạy cho một cỗ máy hiểu ngôn ngữ đủ tốt để vẽ một bức tranh là một thành tựu rất đáng kể", Tamara Schwartz, giáo sư về an ninh mạng tại Đại học York University of Pennsylvania, cho biết trong một cuộc phỏng vấn qua email. "Hãy tưởng tượng một nghệ sĩ phác thảo cảnh sát, đó là một tài năng hiếm có, có khả năng tạo ra một bức tranh dựa trên mô tả của nhân chứng."
Sử dụng Dữ liệu Lớn để Tạo Hình ảnh
DALL-E được tạo ra bởi công ty nghiên cứu AI OpenAI và hoạt động bằng cách tích lũy một lượng lớn dữ liệu từ internet. Dữ liệu sau đó được xử lý bằng mô hình ngôn ngữ tự nhiên và được đào tạo để tạo ra hình ảnh từ văn bản. DALL-E hoạt động tương tự như GPT-3 được phát hành gần đây, một mô hình ngôn ngữ được tạo bởi OpenAI có thể được nhắc tạo các đoạn văn bản gốc. GPT-3 được đào tạo bằng cách sử dụng nửa nghìn tỷ từ văn bản trên Internet và có thể tạo ra văn bản giống như thật đến kinh ngạc.
Dạy cho một chiếc máy hiểu ngôn ngữ đủ tốt để vẽ một bức tranh là một thành tựu rất đáng kể.
Michael Yurushkin, người sáng lập và CTO của BroutonLab, một công ty khoa học dữ liệu, cho biết trong một cuộc phỏng vấn qua email rằng DALL-E là "một trong số ít thành công của nhân loại trong việc mô phỏng sự sáng tạo và trí tưởng tượng của chúng ta." Ông nói thêm, "Thật dễ dàng để nhận ra cách AI dự đoán điều gì đó bằng cách xem qua dữ liệu có liên quan, nhưng hiểu cách nó có thể tạo ra các bản vẽ từ những thứ mà nó chưa từng nghe đến trước đây thì khó hơn".
Schwartz cẩn thận lưu ý rằng AI không tạo ra thông tin mà là lấy dữ liệu ngôn ngữ và chuyển nó thành hình ảnh.
"Sự sáng tạo ban đầu đến từ con người đã xây dựng nhiệm vụ," Schwartz nói. "Có một số sự sáng tạo trong phần AI, bởi vì nó thử nghiệm với nhiều kết hợp dữ liệu khác nhau và sau đó chọn từ một số đầu ra tiềm năng. Tuy nhiên, một con người đang kiểm tra kết quả đầu ra và dạy AI cách chọn từ nhiều tổ hợp."
Công việc của Thám tử Robot?
Một chiếc máy có thể thử nghiệm kết hợp dữ liệu và đối tượng này nhanh hơn nhiều so với một nghệ sĩ con người. Schwartz lưu ý rằng một ngày nào đó DALL-E có thể hợp tác với một thám tử đang cố gắng dựng lại hiện trường vụ án thông qua bản phác thảo, dựa trên lời khai của nhân chứng.
"Khi các nhân chứng cung cấp tuyên bố của họ, máy tính có thể lấy thông tin ngôn ngữ tự nhiên nói đó và tạo ra một bản vẽ hiện trường hoặc nhiều bản vẽ hiện trường," cô nói. "Những hình ảnh trực quan này sau đó có thể được tích hợp để tạo ra hình ảnh chính xác hơn về bằng chứng bị mất. Hình ảnh trực quan này có thể được làm phong phú hơn bằng cách tích hợp hình ảnh trước đó về vị trí trước khi gây án."
Một số chương trình khác do AI điều khiển có thể tạo ra nghệ thuật. Ví dụ, Ai-Da sử dụng hệ thống cánh tay robot và công nghệ nhận dạng khuôn mặt kết hợp với trí tuệ nhân tạo để tạo ra tác phẩm nghệ thuật. Hệ thống có thể phân tích hình ảnh đặt trước máy, hình ảnh này sẽ đưa vào một thuật toán để tạo ra các chuyển động của cánh tay robot.
Tuy nhiên, các nghệ sĩ con người không nên lo lắng rằng các chúa tể robot sẽ thay thế họ, Ahmed Elgammal, giám đốc Phòng thí nghiệm Nghệ thuật và Trí tuệ Nhân tạo tại Đại học Rutgers, lập luận trên tờ The New York Times vào năm ngoái.
"Trong khi định nghĩa về nghệ thuật ngày càng phát triển, thì cốt lõi của nó, nó là một hình thức giao tiếp giữa con người", anh viết. "Không có nghệ sĩ con người đứng sau cỗ máy, AI có thể làm được nhiều việc hơn là chơi với hình thức, cho dù điều đó có nghĩa là thao tác các pixel trên màn hình hoặc ghi chú trên sổ cái âm nhạc. Những hoạt động này có thể hấp dẫn và hấp dẫn về mặt tri giác, nhưng chúng thiếu ý nghĩa nếu không có sự tương tác giữa nghệ sĩ và khán giả."
Sau khi xem qua tác phẩm của DALL-E, tôi hiểu quan điểm của Elgammal rằng những hình ảnh do AI tạo ra không phải là nghệ thuật. Mặt khác, chúng tốt hơn bất kỳ tác phẩm nghệ thuật nào mà tôi có thể tạo ra. Vậy, thực sự, sự khác biệt là gì?