"Visual AI Any Door" của HKU-Alibaba có thể truyền các đối tượng đến hiện trường một cách liền mạch chỉ bằng một cú nhấp chuột

Nguồn: Qubit

Với hai lần nhấp chuột, đối tượng có thể được "truyền" liền mạch đến cảnh ảnh và góc ánh sáng và phối cảnh cũng có thể được điều chỉnh tự động.

Phiên bản AI của "Cổng bất kỳ" của Ali và HKU thực hiện nhúng hình ảnh không lấy mẫu.

Với nó, quần áo mua sắm trực tuyến cũng có thể trực tiếp nhìn thấy tác dụng của phần trên cơ thể.

Vì chức năng này rất giống với bất kỳ cánh cửa nào nên nhóm R&D đã đặt tên cho nó là AnyDoor.

AnyDoor có thể dịch chuyển nhiều đối tượng cùng một lúc.

Không chỉ vậy, nó còn có thể di chuyển các đối tượng hiện có trong ảnh.

Một số cư dân mạng ngưỡng mộ sau khi xem nó, có lẽ nó sẽ phát triển thành video (chuyển đồ vật vào) tiếp theo.

Hiệu ứng thực tế tạo mẫu bằng không

So với các mô hình tương tự hiện có, AnyDoor có khả năng vận hành mẫu bằng 0 và không cần điều chỉnh mô hình cho các mặt hàng cụ thể.

Ngoài các mô hình này yêu cầu điều chỉnh tham số, AnyDoor cũng chính xác hơn các mô hình Tham khảo khác.

Trên thực tế, các mô hình lớp Tham chiếu khác chỉ có thể duy trì tính nhất quán về ngữ nghĩa.

Theo thuật ngữ thông thường, nếu đối tượng được truyền là một con mèo, thì các mô hình khác chỉ có thể đảm bảo rằng cũng có một con mèo trong kết quả, nhưng không thể đảm bảo sự giống nhau.

Chúng ta cũng có thể phóng to tác dụng của AnyDoor, liệu chúng ta có thể không thấy bất kỳ sai sót nào không?

Kết quả đánh giá của người dùng cũng xác nhận rằng AnyDoor vượt trội so với các mô hình hiện có cả về chất lượng và độ chính xác (trong số 4 điểm).

Đối với chuyển động, chuyển vị và thậm chí thay đổi tư thế của các đối tượng trong hình ảnh hiện có, AnyDoor cũng có thể thực hiện tốt.

Vậy làm thế nào để AnyDoor đạt được các chức năng này?

nguyên tắc làm việc

Để thực hiện việc truyền một đối tượng, trước tiên nó phải được trích xuất.

Tuy nhiên, trước khi cung cấp hình ảnh có chứa đối tượng mục tiêu cho trình trích xuất, trước tiên AnyDoor sẽ thực hiện xóa nền trên đó.

Sau đó, AnyDoor sẽ thực hiện trích xuất đối tượng tự giám sát và chuyển đổi nó thành mã thông báo.

Bộ mã hóa sử dụng trong bước này được thiết kế dựa trên mô hình tự giám sát tốt nhất hiện nay DINO-V2.

Để thích ứng với những thay đổi về góc độ và ánh sáng, ngoài việc trích xuất các tính năng tổng thể của vật phẩm, cần phải trích xuất thêm thông tin chi tiết.

Trong bước này, để tránh các ràng buộc quá mức, nhóm đã thiết kế một cách để biểu diễn thông tin đối tượng địa lý bằng bản đồ tần suất cao.

Bằng cách kết hợp hình ảnh mục tiêu với bộ lọc thông cao, chẳng hạn như toán tử Sobel, có thể thu được hình ảnh có chi tiết tần số cao.

Đồng thời, AnyDoor sử dụng Hadamard để trích xuất thông tin màu RGB trong hình ảnh.

Kết hợp thông tin này với mặt nạ lọc thông tin cạnh tạo ra Bản đồ HF chỉ chứa các chi tiết tần số cao.

Bước cuối cùng là tiêm thông tin này.

Sử dụng mã thông báo thu được, AnyDoor sẽ tổng hợp hình ảnh thông qua mô hình đồ thị Vinsen.

Cụ thể, AnyDoor sử dụng Khuếch tán Ổn định với ControlNet.

Quy trình làm việc của AnyDoor đại khái như thế này. Về mặt huấn luyện, cũng có một số chiến lược đặc biệt.

###### Tập dữ liệu huấn luyện được AnyDoor sử dụng

Mặc dù AnyDoor nhắm mục tiêu đến hình ảnh tĩnh, một phần dữ liệu được sử dụng để đào tạo được trích xuất từ video.

Đối với cùng một đối tượng, hình ảnh chứa các nền khác nhau có thể được trích xuất từ video.

Dữ liệu đào tạo của AnyDoor được hình thành bằng cách tách đối tượng khỏi nền và đánh dấu cặp.

Tuy nhiên, trong khi dữ liệu video tốt cho việc học, vẫn có những vấn đề về chất lượng cần được giải quyết.

Vì vậy, nhóm đã thiết kế một chiến lược lấy mẫu theo bước thời gian thích ứng để thu thập thông tin chi tiết và thay đổi tại các thời điểm khác nhau.

Từ kết quả của các thí nghiệm cắt bỏ, có thể thấy rằng với việc bổ sung các chiến lược này, cả điểm CLIP và DINO đều tăng dần.

Hồ sơ nhóm

Tác giả đầu tiên của bài báo là Xi Chen, nghiên cứu sinh tiến sĩ tại Đại học Hong Kong, từng là kỹ sư thuật toán tại Tập đoàn Alibaba.

Người giám sát của Chen Xi, Hengshuang Zhao, là tác giả tương ứng của bài báo này. Các lĩnh vực nghiên cứu của ông bao gồm thị giác máy và học máy.

Ngoài ra, các nhà nghiên cứu từ Học viện DAMO của Alibaba và Tập đoàn Cainiao cũng tham gia vào dự án này.

Địa chỉ giấy tờ:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)