сквозная многомодальная обусловленная структура генерации человеческого видео под названием OmniHuman, которая может генерировать человеческие видео на основе одного человеческого изображения и сигналов движения (например, только аудио, только видео или комбинация аудио и видео). ByteDance показали свою новую модель для продвинутой генерации видео с людьми - OmniHuman-1
Потестировать ее пока нельзя и требования к железу тоже еще неизвестны, но видео настолько впечатляющие, что не могла не поделиться 👽
Это уже не привычные нам пластиковые дипфейки с заменой лиц и лип-синком. OmniHuman умеет генерировать людей в полный рост; создавать по-настоящему реалистичные жесты и мимику, блестяще справляется с физикой и симуляциями, при этом может работать как с фото, так и с артами/аниме.
Генерация в этой модели происходит всего по одному фото и аудио-файлу с речью или пением.