QuickVid використовує штучний інтелект для створення коротких відеороликів із закадровим голосом • TechCrunch

Наближається генеративний ШІ для відео. Новий веб-сайт QuickVid об’єднує кілька генеративних систем ШІ в єдиний інструмент для автоматичного створення коротких відео YouTube, Instagram TikTok і Snapchat. Враховуючи лише одне слово, QuickVid вибирає фонове відео з бібліотеки, пише сценарій і ключові слова, накладає зображення, згенеровані DALL-E 2, і додає синтетичну озвучку та фонову музику з безоплатної музичної бібліотеки YouTube.

Творець QuickVid, Даніель Хабіб, каже, що він створює службу, щоб допомогти творцям задовольнити «постійно зростаючий» попит з боку своїх шанувальників.

«Надаючи творцям інструменти для швидкого та легкого створення якісного контенту, QuickVid допомагає творцям збільшити випуск контенту, зменшуючи ризик вигорання», — сказав Хабіб TechCrunch в електронному інтерв’ю. «Наша мета — дати можливість вашим улюбленим творцям відповідати вимогам їхньої аудиторії, використовуючи досягнення ШІ».

Але залежно від того, як вони використовуються, такі інструменти, як QuickVid, загрожують заповнити і без того переповнені канали спамом і дублюючим вмістом. Вони також стикаються з потенційною негативною реакцією з боку творців, які вирішили не використовувати інструменти через вартість (10 доларів на місяць) чи принципово, але, можливо, їм доведеться конкурувати з безліччю нових відео, створених ШІ.

Йду за відео

QuickVid, який Хабіб, розробник-самоучка, який раніше працював у Meta над інфраструктурою Facebook Live та відео, створив за кілька тижнів, запустив 27 грудня. Наразі це відносно голі кістки — Хабіб каже, що більше можливостей персоналізації з’явиться в Січень, але QuickVid може об’єднати компоненти, які складають типове інформаційне відео YouTube Short або TikTok, включаючи підписи та навіть аватари.

Він простий у використанні. Спочатку користувач вводить підказку з описом теми відео, яке він хоче створити. QuickVid використовує підказку для створення сценарію, використовуючи можливості створення тексту GPT-3. З ключових слів, витягнутих зі сценарію автоматично або введених вручну, QuickVid вибирає фонове відео з безкоштовної медіа-бібліотеки Pexels і генерує накладені зображення за допомогою DALL-E 2. Потім він виводить голос за кадром через API перетворення тексту в мовлення Google Cloud. — Хабіб каже, що незабаром користувачі зможуть клонувати свій голос — перед тим, як об’єднати всі ці елементи у відео.

Кредити зображення: QuickVid

Подивіться це відео, створене за допомогою підказки «Коти»:

Або цей:

QuickVid, звичайно, не розширює межі того, що можливо за допомогою генеративного штучного інтелекту. І Meta, і Google продемонстрували системи штучного інтелекту, які можуть створювати повністю оригінальні кліпи за текстовою підказкою. Але QuickVid об’єднує існуючий штучний інтелект, щоб використовувати повторюваний шаблонний формат короткоформатних відеороликів із великою кількістю роликів, усуваючи проблему необхідності генерувати відеоматеріал самостійно.

«Успішні творці мають надзвичайно високу планку якості, і вони не зацікавлені у розміщенні контенту, який, на їхню думку, не відповідає їхньому власному голосу», — сказав Хабіб. «Це той варіант використання, на якому ми зосереджені».

З точки зору якості, відео QuickVid загалом неоднозначні. Фонові відео, як правило, дещо випадкові або лише побічно пов’язані з темою, що не дивно, враховуючи, що QuickVid зараз обмежено каталогом Pexels. Тим часом зображення, згенеровані DALL-E 2, демонструють обмеження сучасної технології перетворення тексту в зображення, як-от спотворений текст і порушення пропорцій.

У відповідь на мій відгук Хабіб сказав, що QuickVid «тестується та змінюється щодня».

Проблеми з авторським правом

За словами Хабіба, користувачі QuickVid зберігають право використовувати створений ними контент у комерційних цілях і мають дозвіл монетизувати його на таких платформах, як YouTube. Але статус авторського права на контент, створений штучним інтелектом, є… туманним, принаймні зараз. Управління патентів і торгових марок США (USPTO) нещодавно скасувало захист авторських прав на комікс, створений штучним інтелектом, наприклад, заявивши, що твори, що захищаються авторським правом, вимагають авторства людини.

На запитання про те, як рішення USPTO може вплинути на QuickVid, Хабіб сказав, що він вважає, що воно стосується лише «патентоспроможності» створених штучним інтелектом продуктів, а не прав творців на використання та монетизацію свого вмісту. Творці, зазначив він, не часто подають патенти на відео та зазвичай покладаються на економіку творців, дозволяючи іншим творцям змінювати призначення своїх кліпів, щоб збільшити власне охоплення.

«Творці піклуються про створення високоякісного контенту, який допоможе розвивати їхній канал», — сказав Хабіб.

Ще один юридичний виклик на горизонті може вплинути на інтеграцію QuickVid з DALL-E 2 — і, відповідно, на здатність сайту створювати накладення зображень. На Microsoft, GitHub і OpenAI подано колективний позов, який звинувачує їх у порушенні закону про авторські права, дозволивши Copilot, системі генерації коду, повторювати розділи ліцензійного коду без надання авторства. (Copilot спільно розробили OpenAI та GitHub, якими володіє Microsoft.) Цей випадок має наслідки для генеративного мистецтва ШІ, як-от DALL-E 2, який аналогічно копіював і вставляв із наборів даних, на яких їх навчали (тобто зображення).

Хабіб не занепокоєний, стверджуючи, що генеративний ШІ-джин вийшов з пляшки. «Якщо з’явиться ще один позов і OpenAI зникне завтра, є кілька альтернатив, які могли б запустити QuickVid», — сказав він, маючи на увазі систему Stable Diffusion з відкритим вихідним кодом, схожу на DALL-E 2. QuickVid вже тестує Stable Diffusion для створення зображень аватарів.

Модерація та спам

Крім юридичних дилем, у QuickVid незабаром можуть виникнути проблеми з модерацією. У той час як OpenAI реалізував фільтри та методи для їх запобігання, генеративний ШІ має добре відомі проблеми з токсичністю та фактичною точністю. GPT-3 поширює дезінформацію, зокрема про останні події, яка виходить за межі його бази знань. І ChatGPT, добре налаштований нащадок GPT-3, як було показано, використовує сексистську та расистську мову.

Це викликає занепокоєння, особливо для людей, які використовують QuickVid для створення інформаційних відео. У швидкому тесті мій партнер — який набагато креативніший за мене, особливо в цій сфері — ввів кілька образливих підказок, щоб побачити, що згенерує QuickVid. До честі QuickVid, очевидно проблематичні підказки на кшталт «Єврейський новий світовий порядок» і «Теорія змови 11 вересня» не дали токсичних сценаріїв. Але для «Критичної расової теорії, яка навчає студентів» QuickVid згенерував відео, в якому натякає, що критичну расову теорію можна використовувати для промивання мізків школярам.

Подивитися:

QuickVid

Хабіб каже, що він покладається на фільтри OpenAI для виконання більшої частини модерації, і стверджує, що користувачі зобов’язані вручну переглядати кожне відео, створене QuickVid, щоб переконатися, що «все в межах закону».

«Як правило, я вважаю, що люди повинні мати можливість виражати себе та створювати будь-який контент, який вони хочуть», — сказав Хабіб.

Це, очевидно, включає вміст спаму. Хабіб стверджує, що алгоритми відеоплатформ, а не QuickVid, найкраще підходять для визначення якості відео, і що люди, які створюють низькоякісний контент, «лише шкодять власній репутації». За його словами, репутаційна шкода, природно, перешкоджатиме людям створювати масові спам-кампанії за допомогою QuickVid.

«Якщо люди не хочуть дивитися ваше відео, ви не отримаєте поширення на таких платформах, як YouTube», — додав він. «Виробництво низькоякісного контенту також змусить людей дивитися на ваш канал у негативному світлі».

Але цікаво поглянути на рекламні агентства, такі як Fractl, які в 2019 році використовували систему штучного інтелекту під назвою Grover, щоб створити цілий сайт маркетингових матеріалів — нехай буде репутація. В інтерв’ю The Verge партнер Fractl Крістін Тинскі сказала, що вона передбачила, що генеративний штучний інтелект забезпечить «велике цунамі комп’ютерно-генерованого контенту в кожній ніші, яку тільки можна уявити».

У будь-якому випадку, платформам для обміну відео, таким як TikTok і YouTube, не доводилося масово боротися з модерацією створеного ШІ контенту. Deepfakes — синтетичні відео, які замінюють існуючу людину на чужу подобу — почали заповнювати такі платформи, як YouTube, кілька років тому завдяки інструментам, які спрощували виробництво deepfakes. Але на відміну навіть від найпереконливіших дипфейків сучасності, типи відео, які створює QuickVid, очевидно, жодним чином не створюються ШІ.

Політика Пошуку Google щодо тексту, створеного штучним інтелектом, може бути попереднім переглядом того, що буде у сфері відео. Google не обробляє синтетичний текст інакше, ніж текст, написаний людиною, коли це стосується рейтингу пошуку, але вживає заходів щодо вмісту, який «має на меті маніпулювати рейтингом пошуку, а не допомагати користувачам». Це включає вміст, з’єднаний або об’єднаний з різних веб-сторінок, які «[doesn’t] додати достатню цінність», а також вміст, створений за допомогою суто автоматизованих процесів, обидва з яких можуть застосовуватися до QuickVid.

Іншими словами, створені штучним інтелектом відео не можуть бути заборонені на платформах відразу, якщо вони набудуть значного поширення, а просто стануть витратами на ведення бізнесу. Це навряд чи розвіє побоювання експертів, які вважають, що такі платформи, як TikTok, стають новим домом для оманливих відео, але, як сказав Хабіб під час інтерв’ю, «генеративну революцію штучного інтелекту неможливо зупинити».

Leave a Comment