Оживить фото нейросетью: лучшие ИИ-модели для анимации в 2026
Как работает оживление фото нейросетью в 2026 году
Технология называется image-to-video: на вход модель получает фотографию и текстовый промпт, на выходе отдаёт короткое видео — 5, 8 или 10 секунд в зависимости от модели. Внутри это диффузионная модель, обученная на миллионах пар «кадр — следующий кадр». Она анализирует исходник, понимает, что на нём изображено, прогнозирует физически правдоподобное продолжение и генерирует промежуточные кадры с частотой 24–30 fps.
В 2024 году модели умели делать только субтитульные движения — лёгкое моргание, ветер в волосах, медленное приближение камеры. В 2026 году ситуация изменилась радикально:
- Сохранение черт лица — теперь модели опираются на face embedding исходного фото и удерживают лицо без «плавления» все 10 секунд.
- Контроль камеры — можно задать pan, dolly-in, orbit, tilt отдельно от движения объектов.
- Multi-shot последовательности — Kling 3.0 умеет менять ракурсы, удерживая того же персонажа.
- Нативное аудио — Veo 3.1 синхронно генерирует звук дыхания, шагов, окружения и даже речи.
- Reference images — Runway Gen-4.5 принимает 2–4 опорных изображения для контроля стиля и персонажа.
Главное ограничение того же класса: модель не «понимает» физику в строгом смысле. Если на фото человек держит чашку, через 5 секунд чашка может исчезнуть, переместиться в другую руку или превратиться в стакан. Поэтому крупные планы лица оживают намного лучше, чем сложные сцены с предметами и взаимодействиями.
Сравнение моделей image-to-video в 2026
Свели в одну таблицу актуальные характеристики шести лидирующих моделей. Цены за секунду рассчитаны по тарифам разработчика на май 2026 года; в агрегаторах и подписочных сервисах конечная цена может быть ниже.
| Модель | Макс. длина | Разрешение | Аудио | Цена за сек | Из РФ | Сильная сторона |
|---|---|---|---|---|---|---|
| Kling 2.6 / 3.0 | 10 сек | 1080p | Нет | ~$0.10 | Через агрегатор | Лица, lip-sync, цена |
| Google Veo 3.1 | 8 сек | 4K | Да | $0.20 | Через агрегатор | Кинематограф, звук |
| Veo 3.1 Light | 8 сек | 1080p | Да | $0.05 | Через агрегатор | Дешевле всех с аудио |
| Runway Gen-4.5 | 10 сек | 1080p | Нет (отдельно) | ~$0.16 | Через агрегатор | Reference images, гибкость |
| Luma Ray 2 | 9 сек | 1080p | Нет | ~$0.12 | Через агрегатор | Плавность движений |
| Hailuo 2.3 | 6 сек | 1080p | Нет | ~$0.07 | Через агрегатор | Скорость, групповые фото |
| Seedance 2.0 | 5 сек | 1080p | Нет | ~$0.08 | Через агрегатор | Реалистичная мимика |
Прямого доступа к этим моделям из России нет ни у одной — все блокируют российские IP и не принимают карты. Поэтому в столбце «Из РФ» стоит «через агрегатор»: имеется в виду подписочный сервис, который оплачивает API за пользователя. О конкретных способах — в разделе про инструкцию.
Какую модель выбрать под задачу
| Задача | Лучшая модель | Альтернатива |
|---|---|---|
| Оживить портрет человека | Kling 2.6 | Seedance 2.0 |
| Старая или чёрно-белая фотография | Kling 2.6 | Runway Gen-4.5 |
| Пейзаж с движением природы | Luma Ray 2 | Veo 3.1 |
| Сцена с речью и звуком | Veo 3.1 | Veo 3.1 Light |
| Анимация животного, питомца | Seedance 2.0 | Kling 2.6 |
| Группа из 3+ человек | Hailuo 2.3 | Runway Gen-4.5 |
| Контроль камеры (orbit, dolly) | Runway Gen-4.5 | Veo 3.1 |
| Минимальный бюджет | Veo 3.1 Light | Hailuo 2.3 |
Kling 2.6 — флагман по балансу цены и качества
Kling — флагманская модель китайской Kuaishou, и в 2026 году она остаётся главным «рабочим конём» для оживления фото. Февраль 2026 принёс Kling 3.0 с поддержкой multi-shot последовательностей: можно задать сцену, и модель сама построит её с трёх ракурсов, не теряя персонажа. Для базового оживления одного фото обычно используют Kling 2.6 — она дешевле и стабильнее.
Что делает Kling сильной для оживления людей:
- Face reference — отдельная подсистема, которая удерживает черты лица все 10 секунд видео без морфинга.
- Lip-sync — встроенная синхронизация движения губ с аудиодорожкой, если её отдельно подгружают.
- 3D-реконструкция мимики — модель строит внутреннее представление лица в 3D, поэтому повороты головы выглядят естественно.
- Длина 10 секунд — больше, чем у Hailuo и Seedance, что важно для развёрнутой анимации.
Слабые стороны: нет нативного аудио, разрешение ограничено 1080p (Veo 3.1 даёт 4K), сложные сцены с несколькими взаимодействующими объектами получаются хуже, чем у Runway. Для фотографий с одним героем — лучший выбор по соотношению цена/качество в 2026.
Цена: от $8 в месяц за Pro-тариф с 3000 кредитов (этого хватит на ~30 пятисекундных роликов в 1080p) или ~$0.10 за секунду в API. В российских агрегаторах конечная цена 5-секундного ролика — 30–60 ₽.
Google Veo 3.1 — премиум-видео с нативным звуком
Veo 3.1 от Google DeepMind — самая «киношная» модель 2026 года. Она единственная из лидеров умеет одновременно генерировать видео и синхронный звук: дыхание, шаги, ветер, окружение и даже речь персонажа. Для рекламных роликов и сторис из одного фото это то, что выбирают профессионалы.
Сильные стороны Veo 3.1:
- 4K разрешение — единственная в обзоре модель, рендерящая в 3840×2160.
- Нативное аудио — звук генерируется не отдельной моделью, а в одной диффузии с картинкой, поэтому он синхронен.
- Кинематографические камера-движения — orbit, parallax, push-in выглядят как снятые на стедикам.
- Точное следование промпту — Veo лидирует по prompt adherence среди всех моделей 2026.
Слабая сторона у Veo одна, но крупная — цена. $0.20 за секунду в полной версии — это $1.60 за 8-секундный ролик. Версия Veo 3.1 Light закрывает этот разрыв: те же 1080p и нативное аудио всего за $0.05 за секунду — в 4 раза дешевле полной модели и дешевле всех конкурентов с аудио.
Кому подойдёт: рекламщикам, контент-продюсерам, авторам, которым важен звук и финальное качество для соцсетей. Для домашнего «оживить фото с бабушкой» — избыточно дорого, лучше Kling.
Runway Gen-4.5 — гибкость и контроль персонажа
Runway — старожил рынка и до сих пор самый функциональный комбайн. Gen-4.5 Image-to-Video в 2026 году — главный выбор для случаев, когда нужно нечто большее, чем просто «оживить фото»: применить стиль другого изображения, сохранить персонажа между разными генерациями, точно управлять камерой.
Что выделяет Runway:
- Reference images — можно загрузить 2–4 опорных изображения, и модель будет учитывать их стиль или персонажа в видео.
- Character consistency — один и тот же персонаж сохраняется между несколькими роликами, что критично для длинных проектов.
- 30+ встроенных инструментов — frame interpolation, удаление фона, replace, zoom, rotoscoping. Это полноценная видеостудия в браузере.
- Интеграция Veo 3 и 3.1 — внутри Runway можно переключаться на модели Google по той же подписке.
Слабая сторона: нет встроенного аудио (можно подключить Veo 3.1 за доплату), и за гибкость приходится платить — кривая обучения у Runway круче, чем у Kling. Если задача «оживить одно фото за минуту», Runway — overkill.
Цена: Standard $12 в месяц (625 кредитов, ~10 пятисекундных роликов в Gen-4.5), Pro $28 в месяц (2 250 кредитов, голосовая клонизация). В пересчёте на секунду — около $0.16.
Luma Ray 2, Hailuo 2.3 и Seedance 2.0 — кому подойдёт остальные
Эти три модели не претендуют на звание лидера, но в своих нишах работают лучше топ-3.
Luma Ray 2
Сильна в плавности движений и физически правдоподобных сценах с природой: ветер в листве, рябь на воде, движение облаков. Если оживляете пейзаж или фото с водой — берите Ray 2. Для портретов хуже Kling. Цена ~$0.12 за секунду, длина до 9 секунд.
Hailuo 2.3
Главный плюс — скорость генерации (1.5–2 минуты против 4–6 у других) и хорошая работа с групповыми фото. Если на снимке трое и больше людей, Hailuo меньше «плавит» лица на втором плане. Минус — длина всего 6 секунд и менее реалистичная мимика крупного плана. Стоит около $0.07 за секунду.
Seedance 2.0
Лучшая мимика у небольших животных и крупных планов лица в обзоре. Если оживляете фото питомца, ребёнка с эмоцией или хотите субтитульную игру лица — Seedance. Минус — короткий ролик (5 сек) и ограниченный контроль камеры. Цена ~$0.08 за секунду.
Что случилось с Sora и почему её больше нет в обзоре
Если вы читали гайды 2024–2025 года, в каждом втором было «Sora — главная модель для оживления фото». В 2026 году ситуация изменилась: OpenAI объявила о закрытии Sora. Web и мобильные приложения отключены 26 апреля 2026 года, API будет работать до 24 сентября 2026 года, после чего модель полностью уйдёт с рынка.
Причина — экономическая: Sora требовала колоссальных ресурсов на инференс, при этом качество image-to-video отставало от Kling 2.6 и Veo 3.1, а доходы от пользовательских подписок не покрывали стоимости генерации. OpenAI сосредоточилась на ChatGPT Image 2.0 и видеогенерации внутри основного продукта.
Что делать, если вы пользовались Sora:
- До 24 сентября 2026 — экспортируйте все важные генерации, после этой даты они станут недоступны.
- Замена для портретов — Kling 2.6.
- Замена для сцен с речью и аудио — Veo 3.1 или Veo 3.1 Light.
- Замена для гибких сценариев с reference — Runway Gen-4.5.
Поэтому в нашем обзоре Sora отсутствует — рекомендовать модель, которая закроется через 4 месяца, не имеет смысла. Все статьи в интернете, где Sora всё ещё «топ» — это просто устаревший контент.
Как оживить фото нейросетью пошагово — с готовыми промптами
Принцип одинаковый во всех моделях. Меняются только интерфейсы и поля.
- Подготовьте исходное фото. Чем выше разрешение и резче лицо/объект, тем меньше артефактов в видео. Минимум 1024×1024, лучше 2K. Если фото старое или размытое — сначала прогоните через инструмент улучшения резкости.
- Загрузите фото в выбранную модель. Это поле обычно называется image, source image или reference.
- Напишите промпт о движении. Не описывайте то, что уже есть на фото — модель это и так видит. Описывайте только динамику: что должно двигаться, как и насколько.
- Выберите длительность и разрешение. Для соцсетей 5 секунд достаточно. Для презентаций берите 8–10. 4K в Veo 3.1 нужен только для профессионального видео — для Instagram хватит 1080p.
- Задайте seed (опционально). Если результат понравился, но хочется его «переснять» в другом ракурсе — фиксируйте seed, чтобы модель сохранила базу.
- Дождитесь генерации. 1.5–6 минут в зависимости от модели и нагрузки. Скачайте результат.
Промпты по типам фото
Портрет человека (микро-мимика):
«subtle smile, natural blinking, slight head turn to the right, soft breathing, gentle gaze, cinematic lighting, preserve facial features, no morphing»
Старая или чёрно-белая фотография:
«barely noticeable smile, slow gentle blink, subtle head tilt, soft natural movement, vintage atmosphere preserved, do not change face structure, no modern details»
Пейзаж с природой:
«gentle wind through leaves, slow drifting clouds, subtle water ripples, soft golden hour light shifting, slow camera dolly forward, no abrupt motion»
Питомец (кошка, собака):
«slow blink, subtle head turn toward camera, gentle tail movement, soft breathing, fur ruffled by light breeze, preserve face and markings»
Архитектура и интерьер:
«slow cinematic dolly-in, parallax effect on foreground, soft moving shadows, dust particles in light beams, no element replacement, no morphing»
Группа из нескольких человек:
«gentle natural movement, slight breathing, subtle gaze shifts, no morphing of secondary faces, group cohesion preserved, slow background drift»
Лайфхаки, типичные ошибки и работа со старыми фото
За год работы с image-to-video моделями набралось несколько правил, которые экономят кредиты и нервы.
1. Меньше — лучше
Перегруженный промпт даёт хаос. Один тип движения за один прогон: либо мимика, либо камера, либо ветер. Не всё сразу.
2. Всегда указывайте «no morphing»
Эта фраза в негативном промпте сокращает «плавление» лиц на 60%. Работает во всех моделях, включая Kling и Runway.
3. Старые фото — сначала ремастер
Прогоните чёрно-белое фото через апскейлер или инструмент восстановления. Это не обязательно, но качество видео вырастет в 2 раза.
4. Используйте слова subtle, slow, gentle
Резкие движения в image-to-video выглядят неестественно. Мягкие и медленные — значительно правдоподобнее, особенно для исторических фото.
5. Фиксируйте seed для серий
Если делаете несколько роликов одного героя — зафиксируйте seed. Без этого модель каждый раз слегка меняет лицо.
6. Срез вертикально, рендер горизонтально
Для сторис снимайте видео в горизонтали 16:9 и кропайте под 9:16. У моделей вертикальное соотношение пока хуже работает с лицами.
7. 5 секунд достаточно для 80% задач
Не платите за 10 сек, если хватит 5. Длинные ролики чаще морфят и стоят в 2 раза дороже.
8. Несколько прогонов с разным seed
Один и тот же промпт с разным seed даёт разные дубли. Для важных задач делайте 3–5 прогонов и выбирайте лучший.
Типичные ошибки
- Описывают фото, а не движение. Промпт «портрет девушки в красном платье» бесполезен — модель и так это видит. Нужно «slow head turn, gentle smile».
- Используют размытое исходное фото. Все артефакты видео — это в первую очередь артефакты исходника, умноженные на диффузию. Берите чёткое.
- Просят слишком сложное движение. «Человек встаёт, идёт к окну и открывает его» — этого не сделает ни одна модель в 2026. Максимум 5 секунд связного движения одного типа.
- Игнорируют негативный промпт. Без него вылезают шестипалые руки, морфинг лица и фантомные объекты.
- Не пробуют разные модели. Одна и та же фотография в Kling и Runway может дать кардинально разный результат — иногда стоит сравнить два прогона.
Готовы оживить своё фото?
В НейроЧате собраны Kling 2.6, Veo 3.1, Runway Gen-4.5, Luma Ray 2, Hailuo и Seedance — все топ-модели в одной подписке. Без VPN, оплата российскими картами, единый интерфейс на русском.
▶ Попробовать бесплатноЧасто задаваемые вопросы
Да, но сначала улучшите снимок: повысьте резкость, уберите шум и при желании раскрасьте. Чем чище исходник, тем меньше артефактов в видео. Для старых фото пишите в промпте subtle smile, slight head turn, gentle blink — мягкие движения выглядят правдоподобнее, чем резкие.
В 2026 году цена за секунду готового ролика стартует с $0.05 у Veo 3.1 Light и доходит до $0.20 у Veo 3.1 c аудио. Kling 3.0 — около $0.10/сек, Runway Gen-4.5 — от $12 в месяц за 625 кредитов. Один пятисекундный ролик в среднем стоит 30–80 рублей в российских агрегаторах.
Для портретов с сохранением лица номер один — Kling 2.6: у неё специальная face-reference система и lip-sync. Если нужна реалистичная мимика и эмоции — Seedance 2.0. Для премиум-качества с речью и движением губ — Google Veo 3.1, но она дороже.
Прямого доступа к Kling, Runway и Veo из РФ нет — они блокируют российские IP и не принимают карты. Решения два: VPN с зарубежной картой или агрегатор, который оплачивает API за вас. В НейроЧате доступны Kling, Runway, Veo и другие модели по подписке без VPN, оплата российскими картами.
В 90% случаев да, если соблюдать три правила: исходное фото в высоком разрешении, лицо чёткое и в фокусе, в промпте указано preserve facial features, no morphing. Хуже всего модели справляются с боковыми ракурсами и групповыми фото — там стоит ожидать лёгкого «плавления» лиц на втором плане.