Trí tuệ nhân tạo của Google "nhìn ảnh viết caption" chuẩn tới 94%

Kuroe |

Bằng thuật toán "Show and Tell", Google đã biến những dòng chú thích tự động có phần "ngây ngô" của các cỗ máy thành những dòng chú thích có độ chính xác cao.

Trí tuệ nhân tạo, từ xưa đến nay đã được ứng dụng thử nghiệm cho nhiều mục đích khác nhau, và một trong số đó là viết chú thích tự động cho các bức ảnh. 

Tất nhiên, máy móc, với sự "ngô nghê" của mình, đã từng khiến chúng ta phải ôm bụng cười bò trước rất nhiều kết quả có phần "dở khóc dở cười".

Thế nhưng, mới đây, thuật toán "Show and Tell" của Google đã thay đổi tất cả - đến mức gần như hoàn thiện khả năng viết chú thích cho các cỗ máy.

Theo lời đại diện Google, nhờ thuật toán này mà trí tuệ nhân tạo có thể viết được chú thích cho ảnh với mức độ chính xác lên tới 94%. Thậm chí, trong nhiều trường hợp, AI có thể hiểu được cả "ngữ cảnh", cũng như những "ẩn ý" ẩn phía sâu bên trong tấm hình.

Trí tuệ nhân tạo của Google nhìn ảnh viết caption chuẩn tới 94% - Ảnh 1.

AI sẽ tự động sử dụng chú thích đã được học cho những hình ảnh với nội dung tương tự

Mã nguồn mở của hệ thống viết chú thích tự động đã được Google công bố rộng rãi, qua đó cho phép các nhà phát triển cá nhân tham gia vào việc phát triển và hoàn thiện hệ thống này.

AI của hệ thống bắt đầu được "luyện viết chú thích" từ năm 2014, và cho đến nay đã đạt được nhiều tiến bộ vượt bậc.

Giờ đây, theo như các nhà nghiên cứu, thời gian "tập luyện" của AI đang ngày càng được rút ngắn, và có thể viết ra được những dòng chú thích cụ thể hơn, chính xác hơn.

Phiên bản mới nhất của hệ thống sử dụng mẫu phân loại hình ảnh Inception V3, sau đó sẽ được "huấn luyện" thêm về thư viện ngôn ngữ, thông qua những mẫu chú thích do con người viết ra.

Chính bởi vậy, giờ đây, AI có thể viết được những dòng chú thích diễn tả chính xác những gì diễn ra trong một bức ảnh, như "Một người đang thả diều trên bãi biển" hay "Một chiếc tàu hỏa màu xanh và vàng đang đi trên đường ray".

Và với việc hệ thống tự học thông qua một bộ các chú thích do con người viết ra, đôi khi, chúng sẽ sử dụng lại những "chú thích viết sẵn" đó cho những hình ảnh tương tự.

Cũng vì lý do này, mà nhiều người đặt câu hỏi về khả năng thực sự của hệ thống: "Có đúng là AI hiểu được nội dung, và từ đó viết ra được những dòng chú thích cho ảnh không? Hay chúng chỉ đang tái sử dụng những mẫu chú thích có sẵn trong hệ thống?"

"Thú vị thay, hệ thống của chúng tôi đã đạt được khả năng tạo ra những dòng chú thích mới khi được xem những hình ảnh mới, chưa thấy bao giờ - từ đó cho thấy rằng AI đã có khả năng hiểu sâu hơn nội dung của những bức ảnh" - Một nhà nghiên cứu cho hay.

Hệ thống này hoạt động ra sao?

Hệ thống chú thích tự động sử dụng mẫu phân loại hình ảnh Inception V3, với độ chính xác lên tới 93,9% để nhận biết các hình ảnh.

Nhờ vậy, AI có thể biết gần chính xác trong bức ảnh có những vật thể nào.

Sau đó, hệ thống sẽ được tinh chỉnh để cho chúng khả năng "mô tả hình ảnh", thay vì chỉ "nhận biết hình ảnh" một cách cơ bản.

Trí tuệ nhân tạo của Google nhìn ảnh viết caption chuẩn tới 94% - Ảnh 2.

Hệ thống có thể phân biệt các vật thể khác nhau trong ảnh

Chính bởi lý do này, hệ thống có thể nhận biết được cả màu sắc của các vật thể trong bức hình, cũng như mối liên hệ giữa các vật thể khác nhau trong ảnh.

Cuối cùng, hệ thống sẽ được "huẩn luyện" theo một thư viện chú thích do chính con người viết ra.

Một ví dụ được đưa ra, là việc AI sử dụng các thành phần ngôn ngữ khác nhau mà chúng học được qua các bức ảnh, và kết hợp chúng lại để tạo ra chú thích cho một tấm hình mới. 

Ba bức hình miêu tả những chú chó khác nhau trong các tình huống khác nhau, sẽ được sử dụng để tạo nên dòng chú thích "Một chú chó đang ngồi trên bãi biển, bên cạnh một chú chó khác".

Hơn nữa, theo lời những nhà nghiên cứu, "Hệ thống học được cách viết những dòng chú thích bằng ngôn ngữ hết sức tự nhiên, dù không được huấn luyện chuyên sâu về mặt ngôn ngữ, mà chỉ tự học thông qua những dòng chú thích có sẵn của con người".

Trí tuệ nhân tạo, và những dòng chú thích nhầm lẫn tai hại

Trên thực tế, đây không phải là lần đầu tiên AI được thử sức trong lĩnh vực viết chú thích hình ảnh. Trước đây, Microsoft đã từng giới thiệu CaptionBot - một hệ thống tự động chú thích thông qua việc phân tích những bức hình. 

Tuy nhiên, CaptionBot đã "gặp vấn đề" khi nhìn nhầm bà Michelle Obama thành một chiếc... điện thoại di động.

Trí tuệ nhân tạo của Google nhìn ảnh viết caption chuẩn tới 94% - Ảnh 3.

"Tôi không thấy cái điện thoại nào trong ảnh trên"

Hồi đầu năm nay, khi CaptionBot chính thức ra mắt người dùng, phần mềm này tỏ ra hoàn thiện khi viết chính xác chú thích cho hầu hết những bức ảnh được nhập vào.

Nhưng, gần đây, hệ thống đã nhầm lẫn khuỷu tay với một người phụ nữ đang đánh răng, và mắt người với một chiếc bánh Donut.

"Đây chỉ là giai đoạn đầu của hệ thống chú thích tự động" - Đại diện Microsoft cho biết. "Giống như bất kỳ hệ thống trí tuệ nhân tạo nào khác, chúng tôi cần phải sử dụng phản hồi từ phía người dùng để có thể cải thiện hệ thống một cách chính xác hơn".

Đường dây nóng: 0943 113 999

Soha
Báo lỗi cho Soha

*Vui lòng nhập đủ thông tin email hoặc số điện thoại