Trevor Rainbolt, 25 tuổi, là một chuyên gia nổi tiếng trong việc xác định địa điểm chụp ảnh, anh thường xuyên nhận được yêu cầu của cư dân mạng giúp tìm ra địa điểm chụp những bức ảnh cũ. Với khả năng phán đoán xuất sắc của mình, anh ấy đã giúp được rất nhiều người.
Rainbolt là một người chơi GeoGuessr chuyên nghiệp, một trò chơi đoán ảnh và sự nổi tiếng của anh đã khiến nhiều người biết đến trò chơi này. Kết quả xuất sắc này là do anh đã có quá trình rèn luyện lâu dài, anh ấy đã chơi trò chơi này hơn 10.000 giờ và có thể chơi bốn đến tám giờ một ngày.
Tuy nhiên, vào tháng 5 năm 2023, anh đã thua một AI được phát triển bởi ba sinh viên tốt nghiệp tại Đại học Stanford - AI này được phát triển trong khoảng hai tháng. Trong quá trình huấn luyện, nó đã đoán được quốc gia nơi bức ảnh được chụp với độ chính xác 92%. Điểm trung bình khi chơi GeoGuessr cao tới 4525 (trên 5000 điểm), đứng trong top 0,01% người chơi toàn cầu.
Giống như Rainbolt, ba nhà phát triển AI cũng là những người chơi GeoGuessr giàu kinh nghiệm. GeoGuessr là trò chơi đoán địa lý trực tuyến với khoảng 50 triệu người chơi, được phát triển vào năm 2013 bởi một kỹ sư phần mềm người Thụy Điển. Khi vào game, người chơi sẽ được đặt ngẫu nhiên ở một nơi nào đó trên Google Street View, sau đó đoán vị trí địa lý của mình dựa trên thông tin trên màn hình, cuối cùng người chơi cần đặt một chiếc đinh ghim ở một nơi nào đó trên bản đồ thế giới để đánh dấu vị trí mình đoán. Hầu hết các cầu thủ của trò chơi đều còn trẻ, một số game thủ xuất sắc nhất chỉ mới 14 tuổi.
Trên thực tế, vào năm 2022, một nhóm sinh viên 3 người đã tốt nghiệp tại Đại học Stanford đang theo học khóa học về trí tuệ nhân tạo "Deep Multitask and Meta Learning". Ba nhà phát triển này đều thích chơi GeoGuessr, vì vậy họ quyết định bắt đầu từ sở thích chung của mình và thử xem có có thể tạo ra một game thủ là trí tuệ nhân tạo tốt hơn con người hay không.
Tên dự án của họ là "Predicting Image Geolocations", viết tắt là PIGEON. Họ đã sử dụng mạng nơ-ron CLIP do OpenAI (cũng là nhà phát triển ChatGPT) sản xuất để hiểu và phân tích hình ảnh bằng cách đọc văn bản.
Sau đó, họ sử dụng hình ảnh của Google Street View để đào tạo hệ thống. Tập dữ liệu đào tạo chứa khoảng 500.000 hình ảnh của Google Street View. AI sẽ chia hình ảnh thành những ô vuông rất nhỏ để phân tích và rất giỏi trong việc chọn ra những ô vuông đặc biệt đó. Đối với AI, hình ảnh không chỉ là hình ảnh mà còn có thông tin văn bản tương ứng. Bằng cách tích hợp thông tin trực quan như tòa nhà, bố cục đường phố, thảm thực vật và địa danh vào hình ảnh cũng như các thông tin phụ trợ khác như điều kiện thời tiết, mùa và khí hậu, AI cũng có thể nhanh chóng dự đoán nơi ảnh sẽ được chụp, giống như người chơi là con người.
Mặc dù kích thước của tập dữ liệu tương đối nhỏ nhưng hệ thống AI cuối cùng hoạt động rất tốt, không chỉ có độ chính xác cao mà sai số cũng nhỏ hơn dự đoán của con người, có thể xác định vị trí trong phạm vi khoảng 40 km tính từ vị trí thực tế trong trận đấu với Renbolt.
Ở thời điểm hiện tại, các nhà phát triển đã tạo ra mô hình AI thứ hai có tên PIGEOTTO có thể dự đoán vị trí một bức ảnh được chụp chỉ bằng cách nhìn vào nó. PIGEOTTO được đào tạo về bộ dữ liệu gồm hơn 4 triệu bức ảnh từ Flickr và Wikipedia. Điều này cho phép nó học hỏi từ nhiều bối cảnh khác nhau trên toàn thế giới.
Đáng chú ý, PIGEOTTO là hệ thống đầu tiên có thể khái quát hóa tốt, nghĩa là nó có thể định vị những bức ảnh mới mà nó chưa được đào tạo trực tiếp.
Cả hai mô hình AI PIGEON và PIGEOTTO đều sử dụng một cách tiếp cận thông minh được gọi là học tập đa tác vụ. Điều này cho phép chúng học hỏi từ dữ liệu địa lý và chú thích ngoài ảnh.
Các thử nghiệm gàn đây cho thấy PIGEON tìm ra đúng vị trí trong phạm vi 25 km trong 40% thời gian khi phân tích cảnh ở Google Street View. Và PIGEOTTO đã đạt được kết quả kỷ lục trong các bài kiểm tra điểm chuẩn, giảm tới 50% sai số khoảng cách trung bình so với các hệ thống AI trước đây.
Mức độ chính xác này có thể mở ra những khả năng mới cho gắn thẻ địa lý hình ảnh, ứng dụng du lịch, phương tiện truyền thông xã hội, hệ thống định vị, v.v.
Nhưng với bất kỳ công nghệ mới nào cũng có khả năng bị lạm dụng. Các nhà nghiên cứu cảnh báo rằng các biện pháp bảo vệ cần được áp dụng để ngăn chặn việc sử dụng AI cho mục đích phi đạo đức. Tuy nhiên, nhìn chung, các hệ thống tiên tiến này chứng tỏ tiềm năng của AI trong việc xác định chính xác hình ảnh trên toàn cầu.