Двумя щелчками мыши объект можно плавно «перенести» на фотосцену, а также автоматически настроить угол освещения и перспективу.
AI-версия Any Gate от Ali и HKU реализует встраивание изображений с нулевой выборкой.
С его помощью интернет-магазины одежды также могут напрямую увидеть эффект верхней части тела.
Поскольку эта функция очень похожа на любую дверь, команда разработчиков назвала ее AnyDoor.
AnyDoor может телепортировать несколько объектов одновременно.
Мало того, он также может перемещать существующие объекты на изображении.
Некоторые пользователи сети восхищались этим после просмотра, возможно, в следующий раз оно эволюционирует (передача объектов в) в видео.
Реалистичный эффект генерации нулевого семпла
По сравнению с существующими аналогичными моделями AnyDoor имеет возможность работы с нулевой выборкой, и нет необходимости настраивать модель для конкретных элементов.
В дополнение к этим моделям, требующим настройки параметров, AnyDoor также более точен, чем другие эталонные модели.
На самом деле, другие модели эталонных классов могут поддерживать только семантическую согласованность.
С точки зрения непрофессионала, если передаваемый объект — кошка, другие модели могут только гарантировать, что в результате тоже есть кошка, но сходство не может быть гарантировано.
Мы могли бы также увеличить эффект AnyDoor, неужели мы не видим никаких недостатков?
Результаты отзывов пользователей также подтверждают, что AnyDoor превосходит существующие модели как по качеству, так и по точности (из 4 баллов).
Для перемещения, транспонирования и даже изменения положения объектов на существующих изображениях AnyDoor также может хорошо работать.
Итак, как же AnyDoor реализует эти функции?
Принцип работы
Для того, чтобы реализовать передачу объекта, его необходимо сначала извлечь.
Однако, прежде чем передать изображение, содержащее целевой объект, в экстрактор, AnyDoor сначала выполняет удаление фона на нем.
Затем AnyDoor выполнит самоконтролируемое извлечение объекта и преобразует его в токен.
Энкодер, используемый на этом этапе, разработан на основе современной лучшей модели с самоконтролем DINO-V2.
Чтобы адаптироваться к изменениям угла и освещения, в дополнение к извлечению общих характеристик предмета, необходимо извлечь дополнительную подробную информацию.
На этом этапе, чтобы избежать чрезмерных ограничений, команда разработала способ представления информации об объектах с помощью высокочастотных карт.
Путем свертки целевого изображения с помощью фильтра верхних частот, такого как оператор Собеля, можно получить изображение с высокочастотными деталями.
В то же время AnyDoor использует Адамара для извлечения цветовой информации RGB из изображения.
Объединение этой информации с маской, фильтрующей информацию о границах, дает HF-карту, содержащую только высокочастотные детали.
Последний шаг — ввести эту информацию.
Используя полученный токен, AnyDoor синтезирует изображение через графовую модель Винсена.
В частности, AnyDoor использует Stable Diffusion с ControlNet.
Рабочий процесс AnyDoor примерно такой. С точки зрения обучения, есть также некоторые специальные стратегии.
###### △Набор обучающих данных, используемый AnyDoor
Хотя AnyDoor ориентируется на неподвижные изображения, часть данных, используемых для обучения, извлекается из видео.
Для одного и того же объекта из видео могут быть извлечены изображения с разным фоном.
Обучающие данные AnyDoor формируются путем отделения объекта от фона и маркировки пары.
Но хотя видеоданные хороши для обучения, есть проблемы с качеством, которые необходимо решить.
Поэтому команда разработала стратегию адаптивной пошаговой выборки для сбора изменений и подробной информации в разное время.
Из результатов экспериментов по абляции видно, что с добавлением этих стратегий постепенно увеличивались показатели как CLIP, так и DINO.
Профиль команды
Первым автором статьи является Си Чен, докторант Гонконгского университета, который раньше работал инженером-алгоритмом в Alibaba Group.
Научный руководитель Чэнь Си, Хэншуан Чжао, является соответствующим автором этой статьи.Сферы его исследований включают машинное зрение и машинное обучение.
Кроме того, в этом проекте также участвовали исследователи из Alibaba DAMO Academy и Cainiao Group.
Адрес бумаги:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
«Visual AI Any Door» от HKU-Alibaba может легко передавать объекты на сцену одним щелчком мыши.
Источник: Кубит
Двумя щелчками мыши объект можно плавно «перенести» на фотосцену, а также автоматически настроить угол освещения и перспективу.
AI-версия Any Gate от Ali и HKU реализует встраивание изображений с нулевой выборкой.
С его помощью интернет-магазины одежды также могут напрямую увидеть эффект верхней части тела.
AnyDoor может телепортировать несколько объектов одновременно.
Реалистичный эффект генерации нулевого семпла
По сравнению с существующими аналогичными моделями AnyDoor имеет возможность работы с нулевой выборкой, и нет необходимости настраивать модель для конкретных элементов.
На самом деле, другие модели эталонных классов могут поддерживать только семантическую согласованность.
С точки зрения непрофессионала, если передаваемый объект — кошка, другие модели могут только гарантировать, что в результате тоже есть кошка, но сходство не может быть гарантировано.
Для перемещения, транспонирования и даже изменения положения объектов на существующих изображениях AnyDoor также может хорошо работать.
Принцип работы
Однако, прежде чем передать изображение, содержащее целевой объект, в экстрактор, AnyDoor сначала выполняет удаление фона на нем.
Затем AnyDoor выполнит самоконтролируемое извлечение объекта и преобразует его в токен.
Энкодер, используемый на этом этапе, разработан на основе современной лучшей модели с самоконтролем DINO-V2.
Чтобы адаптироваться к изменениям угла и освещения, в дополнение к извлечению общих характеристик предмета, необходимо извлечь дополнительную подробную информацию.
На этом этапе, чтобы избежать чрезмерных ограничений, команда разработала способ представления информации об объектах с помощью высокочастотных карт.
В то же время AnyDoor использует Адамара для извлечения цветовой информации RGB из изображения.
Объединение этой информации с маской, фильтрующей информацию о границах, дает HF-карту, содержащую только высокочастотные детали.
Используя полученный токен, AnyDoor синтезирует изображение через графовую модель Винсена.
В частности, AnyDoor использует Stable Diffusion с ControlNet.
Рабочий процесс AnyDoor примерно такой. С точки зрения обучения, есть также некоторые специальные стратегии.
Хотя AnyDoor ориентируется на неподвижные изображения, часть данных, используемых для обучения, извлекается из видео.
Обучающие данные AnyDoor формируются путем отделения объекта от фона и маркировки пары.
Но хотя видеоданные хороши для обучения, есть проблемы с качеством, которые необходимо решить.
Поэтому команда разработала стратегию адаптивной пошаговой выборки для сбора изменений и подробной информации в разное время.
Из результатов экспериментов по абляции видно, что с добавлением этих стратегий постепенно увеличивались показатели как CLIP, так и DINO.
Профиль команды
Первым автором статьи является Си Чен, докторант Гонконгского университета, который раньше работал инженером-алгоритмом в Alibaba Group.
Научный руководитель Чэнь Си, Хэншуан Чжао, является соответствующим автором этой статьи.Сферы его исследований включают машинное зрение и машинное обучение.
Кроме того, в этом проекте также участвовали исследователи из Alibaba DAMO Academy и Cainiao Group.
Адрес бумаги: