veo3

Google навчив свій AI відеогенератор створювати звук. Але замість соусу – хрускіт. Що сталося з Veo 3, чому всі згадали Вілла Сміта і чим це все загрожує культурі майбутнього — розбираємось.


📽️ Вступ: не просто картинка

2025 рік увійде в історію штучного інтелекту як час, коли відео перестало бути німим. У травні Google презентував Veo 3 — нову модель генерації відео, яка вже встигла здійняти хвилю обговорень. І хоч найбільше шуму зробив «спагетний скандал», за цим смішним мемом ховається серйозний технологічний прорив — і не менш серйозні питання.

Давайте поговоримо не лише про те, що сталося, а й чому це важливо.


🔍 Що таке Veo 3?

Veo 3 — це третє покоління генеративної моделі від Google DeepMind, здатне створювати 8-секундні відеофрагменти з візуалом у HD та синхронізованим звуком. Це перша така публічно доступна модель, що об’єднує рух, міміку, діалог, звукові ефекти та музику в одне ціле.

До цього моменту штучний інтелект створював або короткі німі відео (як у Runway чи Pika Labs), або ж окремо — музику чи голос. Тепер ці компоненти поєднуються в одній системі, а отже, відкривають двері до абсолютно нових форматів медіа.


🍝 Чому знову про «Вілла Сміта і спагеті»?

Якщо ви ще не чули про це — ласкаво просимо до дивного світу AI-мемів.

У березні 2023 року мережею поширилось відео, створене на open-source моделі ModelScope, де Вілл Сміт жує спагеті, але виглядає це, м’яко кажучи, крипово: гримаса перекошена, паста — дивна, і звуку немає. Це відео стало символом «дитинства» AI-відеогенерації — смішне, кострубате, але миле у своїй недосконалості.

Тепер, коли Google випустив Veo 3, хтось (а саме розробник Javi Lopez) вирішив повторити цей запит: “Will Smith eating spaghetti”. І… отримав новаціюзвук хрускоту, ніби Сміт гризе сухі макарони.

Цей хрускіт став мемом №2. Але він відкрив важливу правду: AI поки що не завжди розуміє, як має звучати реальний світ.


🔈 Як працює звук у Veo 3?

Генерація аудіо у відео — це не просто “додати шум”. Veo 3 створює звук на основі того, що бачить у кадрі, комбінуючи патерни з мільйонів відео і фільмів, якими його “годували” під час навчання.

І тут криється проблема: якщо в базі даних було багато сцен, де людина їсть щось хрумке (чіпси, яблука, сухарі), то AI переносить цей патерн на будь-яку сцену з пережовуванням — навіть якщо це має бути спагеті.

Veo 3 просто не відчуває текстур їжі, він лише відтворює ймовірність того, як це може звучати. І тому ми чуємо «суху локшину», навіть якщо бачимо соковиту пасту з томатним соусом.


⛔️ Чому заблокували Вілла Сміта?

Google обережно ставиться до зображень публічних осіб. У Veo 3 діє фільтр на створення образів знаменитостей, щоб уникнути deepfake-скандалів. Тому якщо ви введете запит “Will Smith”, система його заблокує.

Але — і це цікаво — обхід можливий. Користувачі ввели більш абстрактний запит на кшталт “a Black man eating spaghetti” — і отримали той самий ефект з хрускотом. Це не порушення фільтрів, а радше їх межа — і вона розмита.


🎭 Сцена, опера, акула-репер: як далеко зайшов ШІ?

Якщо спагеті вам не до смаку, спробуйте інші експерименти. Ars Technica протестувала такі запити:

  • “A man singing a comedy opera in English about spaghetti while eating it” — і AI виконав завдання: герой співає, їсть, міміку синхронізовано.
  • “A man in a shark costume rapping on stage about Ars Technica” — і це відео теж виглядає реалістично.

Ці приклади доводять: Veo 3 вже зараз здатен створювати короткі музичні кліпи, скетчі, трейлери, а згодом, можливо, — навіть короткометражні фільми.


🧠 Але чи це ще реальність?

З розвитком таких моделей стирається межа між реальною зйомкою та вигадкою. Ми наближаємось до культурної сингулярності, коли ШІ зможе створювати фільми, в яких будуть умовні Тарантіно, Сміт, Тейлор Свіфт і Брюс Вілліс — навіть якщо самі вони не братимуть у цьому участь.

І тут виникає запитання: хто володіє цією реальністю? Чи може алгоритм створити «вас», без вашого дозволу? І як тоді розрізнити правду від фейку?


💬 Підсумки: час варити спагеті самостійно

Veo 3 — це прорив. Це демонстрація того, наскільки далеко ми зайшли за останні 2 роки. Але це також дзвіночок, який сигналізує: технологія вже попереду етики.

Поки що ми сміємось над хрумким макароном і цифровим Смітом. Але завтра ці інструменти використовуватимуть у політиці, маркетингу, війнах і судових справах.

Тому, можливо, найважливіше зараз — не те, як Вілл Сміт їсть спагеті, а те, як ми сприймаємо те, що бачимо на екрані.

Від Parampamka

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *