Тимур Казанцев "Chat GPT и Революция Искусственного Интеллекта, стр. 3"

Читать Тимур Казанцев "Chat GPT и Революция Искусственного Интеллекта
Отзывы на книгу Тимур Казанцев "Chat GPT и Революция Искусственного Интеллекта

Все эти ограничения текущей версии ChatGPT говорят лишь о том, что он еще находится в своем начальном состоянии, и конечно же будут новые версии и поколения этой модели ИИ. Дайте ей пару лет, и я уверен, она будет выглядеть совсем по-другому. Вспомните первую версию IPhone и посмотрите на последнюю версию, которая доступна сегодня – разница колоссальна. То же самое будет и с 10-й и 100-й версией ChatGPT – он будет намного более мощен, производителен и функционален, чем сейчас. Не забывайте, что чередование поколений в машинах и компьютерах происходит намного быстрее, чем смена поколений у людей.

Экономические ограничения

Возникает резонный вопрос: «Раз ChatGPT такой умный и эффективный, почему он не установлен на всех наших смартфонах?»

И ответ, возможно, кроется в себестоимости.

Согласно некоторым подсчетам, такие масштабные языковые модели в современном их состоянии требуют огромных вычислительных мощностей. Они могут работать на относительно небольших масштабах – несколько миллионов пользователей. Но масштабировать эти модели до объема в несколько миллиардов запросов ежедневно пока еще не имеет экономической и пользовательской целесообразности: серверы станут слишком дорогими, а латентность (время ожидания или время, которое необходимо устройству, чтобы обеспечить выходную реакцию после события на входе. Латентность можно измерить, используя команду ping) станет достаточно высокой.

На данный момент один ответ ИИ стоит примерно от 10 до 100 обычных поисковых запросов в интернете. Согласно Сэму Альтману, CEO OpenAI, стоимость единичного ответа колеблется в одноразрядных цифрах (единицах, т. е. центах)[3 - https://alltechmagazine.com/chatgpt-hits-one-million-users/ (https://alltechmagazine.com/chatgpt-hits-one-million-users/)]. Если предположим, что это 5 центов, а Google обрабатывает 8.5 миллиардов запросов в день, то это будет означать 425 миллионов долларов в день на обработку Искусственным интеллектом запросов в таком же масштабе, как делает это Google сегодня.

Именно по этим соображения, скорее всего, встраивание поиска с помощью ИИ на каждый смартфон пока не является экономически целесообразным для компаний, их разрабатывающих.

Однако, мы знаем на что способен Искусственный интеллект, и думаю, что в скором времени он сам сможет найти способы как оптимизировать эти массивные языковые модели, чтобы они стали еще более эффективными и экономически выгодными.

Кроме того, мы уже говорили, что OpenAI планируют выкатить более профессиональную платную версию ChatGPT, которая сможет покрывать расходы компании и сделать ее прибыльной. Бесплатная версия, возможно, будет инкорпорированной в поисковой сервис от Microsoft – Bing, и есть вероятность появления ChatGPT в виде мобильного приложения.

DALL-E, Stable Diffusion, Midjourney и другие генераторы изображений и видео на основе ИИ

Еще одной важной вехой в развитии ИИ стало появление в последние годы систем генерации изображений на основе текстовых данных. Среди таких можно, в первую очередь, выделить: DALL-E 2, Midjourney и Stable Diffusion.

Эти генераторы изображений используют алгоритмы машинного обучения и архитектуры нейронных сетей, чтобы научиться создавать реалистичные изображения, соответствующие входным данным, которые они получают от пользователя.

DALL-E 2 – это вариант оригинального генератора изображений DALL-E, который был разработан OpenAI в 2021 году. Это крупномасштабная языковая модель, которая обучается на массивном наборе данных изображений и текста и способна генерировать большое разнообразие изображений на основе заданной текстовой подсказки. Например, если написать запрос «жираф, играющий на пианино», DALL-E 2 может сгенерировать изображение жирафа, сидящего за пианино и положившего передние лапы на клавиши.

Кроме создания новых изображений с нуля, DALL-E может также вносить изменения в существующее изображение на основе вашего текстового пояснения, и создавать вариации существующего изображения.

Вновь созданные изображения могут иметь размеры 256х256, 512х512 или 1024х1024 пикселей. Чем меньше размер, тем быстрее создать новое изображение.

Например, при запросе «белый сиамский кот» выдает следующее изображение кота[4 - https://beta.openai.com/docs/guides/images/usage (https://beta.openai.com/docs/guides/images/usage)]:

Midjourney – аналогичный генератор изображений с искусственным интеллектом, который также был разработан OpenAI в 2021 году. Он обучается на наборе данных изображений и текста и способен генерировать широкий спектр изображений на основе входного текста. Он назван в честь идеи о том, что это «промежуточный этап» (с англ. midjourney) между оригинальными моделями DALL-E и GPT-3, поскольку он сочетает в себе элементы обоих.

Stable Diffusion – это еще один генератор изображений с искусственным интеллектом, разработанный исследователями Калифорнийского университета в Беркли в 2021 году. Он обучается на наборе данных изображений и текста и предназначен для создания широкого спектра изображений на основе входного текста. Он назван в честь идеи о том, что он способен «распространять» (от англ. diffuse) информацию о содержании изображения через свою сеть, что позволяет создавать более связные и реалистичные изображения.

Эти генераторы изображений с искусственным интеллектом могут революционизировать то, как мы создаем и потребляем изображения, поскольку они могут генерировать оригинальные изображения по запросу на основе вводимого текста. Это может иметь широкий спектр применений в таких областях, как реклама, искусство и дизайн, а также более практические приложения, такие как создание макетов продуктов или визуализация данных.

Использование генераторов изображений ИИ также может иметь экономические последствия, поскольку может изменить способ создания и потребления изображений. Например, если генераторы изображений ИИ получат широкое распространение, это может снизить спрос на традиционные методы создания изображений, такие как фотография или иллюстрация, что может повлиять на рынок труда в этих областях. Уже сейчас многие компании, дизайнеры и предприниматели вместо того, чтобы заказывать дизайн изображений, логотипов, визуализацию у профессиональных иллюстраторов и платить им за это десятки, сотни, а иногда и тысячи долларов, просто используют указанные модели на основе нейронных сетей и получают достаточно хорошие по качеству изображения бесплатно либо по намного сниженной цене.

В целом, появление генераторов изображений с искусственным интеллектом, таких как DALL-E 2, Midjourney и Stable Diffusion, представляет собой захватывающее развитие в области искусственного интеллекта и может изменить то, как мы создаем и потребляем изображения. Вполне вероятно, что эти технологии продолжат развиваться и совершенствоваться в ближайшие годы, и будет интересно посмотреть, как они определят будущее ИИ и экономики.

Кстати, уже начали появляться платформы, которые позволяют генерировать не только изображения, но и полноценные видео из текста. Это может быть видео говорящих людей или движущихся животных или автомобилей или чего угодно.

Видео, которые показывают как тот или иной аватар говорит по предоставленному вами скрипту, достаточно высокого качества. Например, сервисы Elai.io, интегрированный с GPT-3 от OpenAI, или Synthesia.io, в которых можно выбрать аватар того или иного человека или даже создать свой собственный аватар с помощью смартфона, который потом будет говорить по вашему тексту. Платформа поддерживает несколько десятков языков. Представьте как это упростит работу и сэкономит бюджет для компаний, предпринимателей, креаторов и блогеров, которые постоянно производят и постят новые видео или делают презентации своей компании или продукта.

По сути генерация видео не сильно отличается от генерации изображений, ведь видео это просто несколько кадров изображений в секунду, которые наш мозг воспринимает как динамичное видео. И поэтому если генераторы изображений могут создать качественные изображения, то мы можем попросить их создать несколько тысяч таких изображений с небольшими изменениями, чтобы из этого получилось полноценное видео. Это может сэкономить миллионы долларов для производителей видеоконтента, компьютерных игр и киностудий. А если это соединить с возможностью ChatGPT создавать полноценные сценарии, о которых мы уже упоминали ранее, и с искусственными синтезаторами голоса, то получается, что в скором времени мы можем попросить ИИ что-то наподобие следующего: «Создай мне 25-минутный фильм в жанре фэнтези с неожиданной концовкой» и через пару минут или даже раньше у нас будет готовый новый фильм, который еще никто не видел.

VALL-E и другие модели синтеза голоса на основе ИИ

Технология синтеза голоса предполагает, что компьютер умеет произносить речь как человек. Данная технология и рынок вокруг нее развиваются достаточно быстро: если в 2021 году объем рынка оценивался примерно в 7,5 млрд долларов, то прогнозируется, что к 2030 году он достигнет 60 млрд долларов, при ежегодном росте на 23 %[5 - https://www.globenewswire.com/en/news-release/2022/09/06/2510621/0/en/Speech-and-Voice-Recognition-Market-size-worth-59-6-Billion-Globally-by-2030-at-22-57-CAGR-Verified-Market-Research.html (https://www.globenewswire.com/en/news-release/2022/09/06/2510621/0/en/Speech-and-Voice-Recognition-Market-size-worth-59-6-Billion-Globally-by-2030-at-22-57-CAGR-Verified-Market-Research.html)].

Из крупных игроков на рынке можно выделить крупных игроков, таких как Google, IBM, Amazon, Microsoft, Сбер, Яндекс, VK, так и небольшие компании, как например Descript, Veritone, Respeecher и др.

Где могут применяться технология синтеза речи? Конечно же в голосовых помощниках, говорящих роботах, и ботах, звонящих клиентам по телефону. Кроме этого, эту технологию уже начинают использовать в озвучивании книг, фильмов, видеоигр, объявлений и рекламы, радио и новостных программ, а также для восстановления голоса умерших людей или людей, лишившихся способности говорить.

Технология синтеза или клонирования речи существовала уже несколько десятилетий, но примерно до начала 2010-х годов все такие компьютерные голоса звучали откровенно механически и было понятно, что разговаривает компьютер. Но за последние годы алгоритмы искусственного интеллекта стали учитывать еще больше параметров и характеристики человеческого голоса (звуки, тембр, интонация, акценты и пр), и в итоге смогли очень близко приблизиться к тому, чтобы синтезированный голос звучал достаточно правдоподобно и по-человечески.

При клонировании голоса живого человека берут записи его речи (чем больше объема и разновидностей текстов, тем лучше), и далее нейронная сеть строит модель, на основе которой будет синтезирован искусственный голос, максимально похожий на оригинальный человеческий. Далее, этим голосом можно будет произнести любой текст, который будет подан в программу.

Как уже было сказано, данная технология может использоваться и для людей, утративших способность говорить. Наример, известный актер Вэл Килмер практически лишился голоса после того, как у него был обнаружен рак горла и была проведена химиотерапия и другие виды лечения. Компания Sonantic «воссоздала» голос актера на основе ИИ, а в 2022 году Spotify заявила о том, что выкупает всю компанию Sonantic[6 - https://techcrunch.com/2022/06/13/spotify-is-acquiring-sonantic-the-ai-voice-platform-used-to-simulate-val-kilmers-voice-in-top-gun-maverick/ (https://techcrunch.com/2022/06/13/spotify-is-acquiring-sonantic-the-ai-voice-platform-used-to-simulate-val-kilmers-voice-in-top-gun-maverick/)].

Технология синтеза голоса поможет сократить расходы и в киноиндустрии при озвучивании фильмов и мультфильмов. Есть прогнозы, что может появиться целая новая отрасль по «аренде голосов», когда известные люди смогут сдавать свои голоса в аренду для рекламных кампаний или озвучивания того или иного контента (голосовых помощников или озвучивания аудиокниг), за что они будут получать соответствующие роялти.

На данный момент уже возможно при воссоздании голосов придавать им тот или иной эмоциональный окрас (бодрый, грустный, серьезный), возможно скоро появится возможность учить их петь.

Компания Microsoft в начале 2023 года презентовала очередную модель искусственного интеллекта для синтеза голоса под названием VALL-E. Особенностью данной модели является то, что образцом для преобразования текста в речь с точной имитацией голоса человека, может служить аудиозапись с продолжительностью всего лишь в три секунды. Создатели системы заявляют, что модель не только придает голосу эмоциональные оттенки, но также имитирует акустическое окружение, т. е. если исходная запись была сделана на основе разговора по телефону, то и речь в модели будет также напоминать телефонный разговор. Из-за риска того, что этой технологией могут воспользоваться злоумышленники, Microsoft, однако, не стала публиковать оригинальный код в открытый доступ.

Случаи использования клонированных дипфейковых голосов для кражи крупных сумм денег уже фиксировались. Так, например, в 2019 году мошенники скопировали голос генерального директора энергетической компании, базирующейся в Великобритании. Был осуществлен перевод более 200 тысяч фунтов, по-видимому, по приказу генерального директора, чей голос был подлинным как по акценту, так и по тону. Этот инцидент стал первым известным киберпреступлением в Европе, в котором напрямую использовался ИИ.

Другой случай произошел в начале 2020 года, когда менеджеру банка в Гонконге позвонил человек, чей голос он узнал, – это был директор компании – клиента банка. Директор сообщил о хороших новостях: его компания собиралась совершить приобретение другой компании, поэтому он попросил, чтобы банк санкционировал переводы на сумму 35 миллионов долларов. Менеджер банка мог видеть в своем почтовом ящике электронные письма от директора, подтверждающие, какие деньги нужны для перемещения и на какой счет. Менеджер банка, полагая, что все выглядит законно, начал делать переводы. Чего он не знал, так это того, что его обманули в рамках тщательно продуманной аферы, в которой мошенники использовали технологию синтеза голоса для клонирования речи директора[7 - https://www.forbes.com/sites/thomasbrewster/2021/10/14/huge-bank-fraud-uses-deep-fake-voice-tech-to-steal-millions/ (https://www.forbes.com/sites/thomasbrewster/2021/10/14/huge-bank-fraud-uses-deep-fake-voice-tech-to-steal-millions/?sh=7de24ce75591)].

Помимо того, что телефонные аферы для кражи денег становятся все более изощренными с появлением этой технологии, существует также опасность использования дипфейковой технологии для влияния на социальные, правовые и политические дискурсы. Многие из нас, вероятно, сталкивались с чем-то подобным в социальных сетях, что потом оказывалось дипфейком.

В ответ на частые появления дипфейков в конце 2022 года правительство Китая запретило использование сгенерированных искусственным интеллектом цифровых продуктов «глубокого синтеза» (текста, изображений, голоса) без специальных водяных знаков. Все, кто захотят произвести с помощью ИИ текста, изображения или любой другой сгенерированный компьютером продукт, должны будут сначала получить разрешение от правительства. Те, кто используют ИИ, должны будут привязать свои персональные данные к используемому ими аккаунту, и весь контент, созданный ИИ, должен будет специально промаркирован[8 - https://www.tadviser.ru/index.php/%D0%A1%D1%82%D0%B0%D1%82%D1%8C%D1%8F:%D0%98%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82_(%D1%80%D1%8B%D0%BD%D0%BE%D0%BA_%D0%9A%D0%B8%D1%82%D0%B0%D1%8F) (https://www.tadviser.ru/index.php/%D0%A1%D1%82%D0%B0%D1%82%D1%8C%D1%8F:%D0%98%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82_(%D1%80%D1%8B%D0%BD%D0%BE%D0%BA_%D0%9A%D0%B8%D1%82%D0%B0%D1%8F))].

ИИ для каждого

Почему то, что происходит сейчас в сфере Искусственного интеллекта, можно назвать настоящей демократизацией ИИ?

Потому что сегодня способность создавать различные продукты и инструменты, программы и платформы становится доступным для все более широкого количества людей, а не только узкому кругу лиц с техническим и инженерным образованием.

Во-первых, есть много книг и онлайн-курсов, где любой может научиться основам ИИ, машинного и глубокого обучения, научиться строить собственные модели МО и нейронных сетей.

Во-вторых, имеется много бесплатных программных библиотек машинного обучения и платформ с открытым кодом: от простых программных пакетов на основе алгоритмов ИИ/МО, до полнофункциональных фреймворков или платформ для машинного обучения. ПО с открытым кодом доступно каждому, и пользователи могут изменять исходный код и добавлять его в свои проекты. Наличие масштабных библиотек в таких платформах позволяет ускорять создание и развертывание моделей машинного обучения. Такие проекты с открытым кодом включают: TensorFlow, PyTorch, H2O.ai, Scikit-learn, Anaconda и другие.

В-третьих, скоро не придется даже уметь программировать, чтобы создать тот или иной продукт или программу. ChatGPT и подобные проекты плавно подвели нас к новой эпохе, когда для того, чтобы написать код для продукта или создать новое изображение, достаточно просто написать или сказать на родном языке, что вы хотите получить на выходе, и вот программный код или изображение уже перед вами. Недаром, Андрей Карпаты, бывший директор по ИИ в Тесле, недавно сказал, что «теперь самым популярным языком программирования становится английский».

Конец ознакомительного фрагмента.

Текст предоставлен ООО «ЛитРес».

Прочитайте эту книгу целиком, купив полную легальную версию (https://www.litres.ru/pages/biblio_book/?art=68840337&lfrom=174836202) на ЛитРес.

Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

notes

Примечания

Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

https://canadatoday.news/ca/exclusive-chatgpt-owner-openai-predicts-1-billion-in-revenue-by-2024-sources-188974/ (https://canadatoday.news/ca/exclusive-chatgpt-owner-openai-predicts-1-billion-in-revenue-by-2024-sources-188974/)

https://alltechmagazine.com/chatgpt-hits-one-million-users/ (https://alltechmagazine.com/chatgpt-hits-one-million-users/)

https://beta.openai.com/docs/guides/images/usage (https://beta.openai.com/docs/guides/images/usage)

https://www.globenewswire.com/en/news-release/2022/09/06/2510621/0/en/Speech-and-Voice-Recognition-Market-size-worth-59-6-Billion-Globally-by-2030-at-22-57-CAGR-Verified-Market-Research.html (https://www.globenewswire.com/en/news-release/2022/09/06/2510621/0/en/Speech-and-Voice-Recognition-Market-size-worth-59-6-Billion-Globally-by-2030-at-22-57-CAGR-Verified-Market-Research.html)

https://techcrunch.com/2022/06/13/spotify-is-acquiring-sonantic-the-ai-voice-platform-used-to-simulate-val-kilmers-voice-in-top-gun-maverick/ (https://techcrunch.com/2022/06/13/spotify-is-acquiring-sonantic-the-ai-voice-platform-used-to-simulate-val-kilmers-voice-in-top-gun-maverick/)

https://www.forbes.com/sites/thomasbrewster/2021/10/14/huge-bank-fraud-uses-deep-fake-voice-tech-to-steal-millions/ (https://www.forbes.com/sites/thomasbrewster/2021/10/14/huge-bank-fraud-uses-deep-fake-voice-tech-to-steal-millions/?sh=7de24ce75591)

https://www.tadviser.ru/index.php/%D0%A1%D1%82%D0%B0%D1%82%D1%8C%D1%8F:%D0%98%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82_(%D1%80%D1%8B%D0%BD%D0%BE%D0%BA_%D0%9A%D0%B8%D1%82%D0%B0%D1%8F) (https://www.tadviser.ru/index.php/%D0%A1%D1%82%D0%B0%D1%82%D1%8C%D1%8F:%D0%98%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82_(%D1%80%D1%8B%D0%BD%D0%BE%D0%BA_%D0%9A%D0%B8%D1%82%D0%B0%D1%8F))