Ở thời điểm hiện tại, trí thông minh nhân tạo đang chứng tỏ rằng chúng vô cùng giỏi ở 2 lĩnh vực: đưa ra những quyết định mang tính logic và nhận diện mẫu. Nhờ có machine learning – thứ giúp AI tự dạy mình dựa trên các dữ liệu nhập có chọn lọc, giờ đây ta đã có các phần mềm dự đoán chính xác tính cách của một con người chỉ nhờ bằng chuyển động mắt của họ.
Chưa hết, chúng còn có thể viết được tiểu thuyết viễn tưởng, như tập mới của cậu bé phép thuật Harry Potter và Chân dung của Đống tro Khổng lồ.
Mới đây, một nhóm nghiên cứu đã chế tạo thành công một hệ thống cho phép biến đổi những dòng chữ nhập vào thành một chuỗi các hình ảnh. Mục đích của dự án này nghe rất sáng tạo và đột phá, thế nhưng kết quả thì … hơi rùng rợn.
Con hươu coa cổ này có màu xanh, hồng và đỏ, trên người nó có một triệu đốm nâu và nó thích ngắm hoàng hôn với bạn bè của mình
Bạn có thể tự mình thử nghiệm bằng cách nhấn vào đây . Đầu tiên, bạn sẽ phải nhập một số câu chữ miêu tả chủ thể, ví dụ như "một con thỏ có tai tím và bị chột mắt." Vừa gõ xong, AI này sẽ mường tượng ra thứ mà bạn đã viết ở trên. Kết quả thu được là một nhúm lông tạo thành hình một con thỏ nằm trong hố giun.
Trên thực tế, tất cả những lần thử đều nhận được lời đáp khá kỳ dị từ AI, những con vật trong hình đều có hình dạng rất quái lạ. "Một con mèo đeo bịt mắt và có cái miệng màu xanh," thì trí tuệ nhân tạo cho ra hình một cái móng vuốt mèo được hình thành bởi miệng mèo.
Con cá heo này đang lườm nguýt đối thủ truyền kiếp của mình
Hệ thống AI này đã được đăng tải lên web nhờ nhóm nhà nghiên cứu Cristobal Valenzuela của đại học New York – những người xây dựng các công cụ machine learning miễn phí cho cộng đồng. Phần mềm này thực chất được dựng nên bởi nhóm nhà khoa học ở địa học Lehigh.
Họ hy vọng có thể viết ra được những thuật toán nhằm cải thiện khả năng nhận diện và hiểu hình ảnh của các chương trình machine learning.
Loại trí thông minh nhân tạo này (được gọi là AttnGAN) đã đạt được kết quả khá ấn tượng. Với một câu nói dài, ví dụ như "con chim này có màu đỏ và trắng, mỏ của nó rất ngắn," nó có thể xuất ra được một chuỗi các hình ảnh tương ứng với mỗi phần của câu.
Nhánh cần tây đang bị đốt trên đống lửa
Thay vì chỉ có 1 mạng learning để nhận diện hoặc xuất hình ảnh, GAN sử dụng 2 mạng, một để tạo ra hình ảnh, hai là để điều chỉnh nó sao cho khớp với mô tả. Điều này cho phép cả hai hoạt động mượt mà, trơn tru hơn trong quá trình học, giúp đẩy nhanh tiến độ và tạo ra các tấm ảnh chính xác hơn.
Như chính tác giả đã đề cập tới, "việc tự động tạo ra các hình ảnh dựa trên ngôn ngữ miêu tả tự nhiên vốn là một vấn đề cơ bản." Họ giải thích rằng phương pháp thường dùng cho loại AI này là đánh giá cả câu hoặc file chữ để cố gắng tìm ra hình ảnh yêu cầu là gì. Kết quả của cách thức này là lúc được, lúc không.
Chuối và nho đang đánh nhau
Vì vậy, họ quyết định đi theo hướng đi mới, đó là phân tích ngay mỗi phần câu nói đang được nhập vào. Đây là một phương thức cực kỳ phức tạp bởi về cơ bản, máy móc phải bắt chước những gì mà trí óc con người sẽ thực hiện trong hoàn cảnh ấy nhờ vô vàn thuật toán khác nhau.
Đây không phải là một sản phẩm hoàn hảo, tuy nhiên nó là một bước tiến bộ đáng kể. Nhờ có kiến thức sâu rộng về toàn học mà phần mềm của AI này vượt trội hoàn toàn so với các trí tuệ tạo ảnh khác. Ý tưởng đằng sau dự án này là việc nhận ra các hình ảnh là một chuyện, còn việc tự kết xuất ra một hình từ trí óc của riêng bạn? Đó là một câu chuyện khác.
Theo IFLScience