Подпольная гонка крупных технологических компаний по покупке данных для обучения ИИ, - Reuters

Tazabek — НЬЮ-ЙОРК, 5 апреля («Рейтер») – На пике своего развития в начале 2000-х годов Photobucket был ведущим в мире сайтом по размещению изображений. Медийная основа некогда популярных сервисов, таких как Myspace и Friendster, имела 70 миллионов пользователей и занимала почти половину рынка онлайн-фотографий США.

По данным аналитического трекера Likeweb, сегодня только 2 миллиона человек по-прежнему используют Photobucket. Но революция генеративного искусственного интеллекта может дать ему новую жизнь.

Генеральный директор Тед Леонард, управляющий компанией из 40 сотрудников из Эдвардса, штат Колорадо, сообщил Reuters, что ведет переговоры с несколькими технологическими компаниями о лицензировании 13 миллиардов фотографий и видео Photobucket, которые будут использоваться для обучения генеративных моделей искусственного интеллекта, которые могут в ответ создавать новый контент. к текстовым подсказкам.

По его словам, он обсуждал ставки от 5 центов до 1 доллара за фотографию и более 1 доллара за видео, причем цены сильно различаются как в зависимости от покупателя, так и в зависимости от типа искомых изображений.

«Мы говорили с компаниями, которые говорили: «Нам нужно гораздо больше», — добавил Леонард, а один покупатель сказал ему, что им нужно более миллиарда видео, больше, чем есть на его платформе.

«Ты чешешь голову и говоришь: откуда ты это взял?»

Photobucket отказалась назвать своих потенциальных покупателей, сославшись на коммерческую тайну. Продолжающиеся переговоры, о которых ранее не сообщалось, предполагают, что компания может получить контент на миллиарды долларов и дать представление о оживленном рынке данных, который возникает в стремлении к доминированию в технологиях генеративного искусственного интеллекта.

Технологические гиганты, такие как Google (GOOGL.O), открывает новую вкладку, Мета (МЕТА.О), открывает новую вкладкуи при поддержке Microsoft (MSFT.O), открывает новую вкладкуПервоначально OpenAI использовала массивы данных, бесплатно взятых из Интернета, для обучения генеративных моделей искусственного интеллекта, таких как ChatGPT, которые могут имитировать человеческое творчество. Они заявили, что это и законно, и этично, хотя им грозят судебные иски со стороны ряда правообладателей по поводу этой практики.

В то же время эти технологические компании также незаметно платят за контент, заблокированный за платным доступом и экранами входа в систему, что приводит к скрытой торговле всем, от журналов чатов до давно забытых личных фотографий из устаревших приложений социальных сетей.

«Сейчас наблюдается спешка обратиться к правообладателям, у которых есть частные коллекции материалов, которые нельзя очистить», — сказал Эдвард Кларис из юридической фирмы Klaris Law, которая утверждает, что консультирует владельцев контента по сделкам на десятки миллионов долларов. за штуку, чтобы лицензировать архивы фотографий, фильмов и книг для обучения ИИ.

Reuters поговорило с более чем 30 людьми, знакомыми со сделками с данными ИИ, в том числе с нынешними и бывшими руководителями вовлеченных компаний, юристами и консультантами, чтобы провести первое углубленное исследование этого молодого рынка — с подробным описанием типов покупаемого контента, цен. материализуются, а также возникают опасения по поводу риска попадания личных данных в модели ИИ без ведома или явного согласия людей.

OpenAI, Google, Meta, Microsoft, Apple и Amazon отказались комментировать конкретные сделки с данными и обсуждения для этой статьи, хотя Microsoft и Google рекомендовали Reuters ознакомиться с кодексами поведения поставщиков, которые включают положения о конфиденциальности данных.

Google добавила, что «примет немедленные меры, вплоть до расторжения» соглашения с поставщиком, если обнаружит нарушение.

Многие крупные фирмы, занимающиеся исследованием рынка, заявляют, что они даже не начали оценивать размер непрозрачного рынка данных ИИ, на котором компании часто не раскрывают соглашения. Те исследователи, которые это делают, такие как Business Research Insights, оценивают рынок сейчас примерно в 2,5 миллиарда долларов и прогнозируют, что в течение десятилетия он может вырасти почти до 30 миллиардов долларов.

ГЕНЕРАТИВНЫЕ ДАННЫЕ ЗОЛОТАЯ ЛИШКА

Захват данных происходит в то время, когда создатели крупных генеративных «основных» моделей ИИ сталкиваются с растущим давлением необходимости учитывать огромные объемы контента, которые они загружают в свои системы, процесс, известный как «обучение», который требует интенсивных вычислительных мощностей и часто занимает месяцы. .

Технологические компании заявляют, что эта технология была бы непомерно дорогой, если бы они не могли использовать обширные архивы данных бесплатных веб-страниц, например, предоставленные некоммерческим репозиторием Common Crawl, который они называют «общедоступным».

Тем не менее их подход вызвал волну судебных исков по поводу авторских прав и нормативных требований , одновременно побуждая издателей добавлять на свои веб-сайты код, чтобы заблокировать парсинг.

В ответ создатели моделей ИИ начали хеджировать риски и обеспечивать безопасность цепочек поставок данных, как посредством сделок с владельцами контента, так и через растущую индустрию брокеров данных, которая появилась для удовлетворения спроса.

Например, через несколько месяцев после дебюта ChatGPT в конце 2022 года такие компании, как Meta, Google, Amazon и Apple, заключили соглашения с поставщиком стоковых изображений Shutterstock на использование сотен миллионов изображений, видео и музыкальных файлов в своей библиотеке для обучения, согласно данным человек, знакомый с механизмами.

Сделки с крупными технологическими фирмами первоначально варьировались от $25 до $50 млн каждая, хотя позже большинство из них были расширены, сообщил агентству Reuters финансовый директор Shutterstock Джаррод Яхес. Его примеру последовали более мелкие технологические игроки, что вызвало новый «шквал активности» за последние два месяца, добавил он.

Яхес отказался комментировать отдельные контракты. Соглашение с Apple и размер других сделок ранее не разглашались.

Конкурент Shutterstock, компания Freepik, сообщила Reuters, что заключила соглашения с двумя крупными технологическими компаниями о лицензировании большей части своего архива из 200 миллионов изображений по цене от 2 до 4 центов за изображение. В стадии разработки находятся еще пять подобных сделок, сообщил генеральный директор Хоакин Куэнка Абела, отказавшись назвать покупателей.

OpenAI, один из первых клиентов Shutterstock, также подписала лицензионные соглашения как минимум с четырьмя новостными организациями, включая Associated Press., открывает новую вкладкуи Аксель Спрингер, открывает новую вкладку. Компания Thomson Reuters, владелец Reuters News, отдельно заявила, что заключила сделки по лицензированию новостного контента, чтобы помочь в обучении больших языковых моделей ИИ, но не раскрыла подробностей.

СОДЕРЖАНИЕ «ЭТИЧЕСКОГО» ИСТОЧНИКА

Также развивается индустрия специализированных фирм, занимающихся данными в области искусственного интеллекта, которые обеспечивают права на реальный контент, такой как подкасты, короткие видеоролики и взаимодействие с цифровыми помощниками, а также создают сети работников по краткосрочным контрактам для создания пользовательских визуальных эффектов и образцов голоса с нуля. , что-то вроде Uber-экономики данных.

Базирующаяся в Сиэтле компания Defined.ai лицензирует данные ряду компаний, включая Google, Meta, Apple, Amazon и Microsoft, сообщила Reuters генеральный директор Даниэла Брага.

Ставки варьируются в зависимости от покупателя и типа контента, но, по словам Браги, компании обычно готовы платить от 1 до 2 долларов за изображение, от 2 до 4 долларов за короткометражное видео и от 100 до 300 долларов за час более длинных фильмов. Рыночная ставка текста составляет 0,001 доллара за слово, добавила она.

По ее словам, изображения обнаженной натуры, требующие самого деликатного обращения, стоят от 5 до 7 долларов.

По словам Браги, Defined.ai делит эти доходы с контент-провайдерами. Она позиционирует свои наборы данных как «этически полученные», поскольку получает согласие от людей, чьи данные использует, и удаляет личную информацию, добавила она.

Один из поставщиков фирмы, предприниматель из Бразилии, заявил, что платит владельцам фотографий, подкастов и медицинских данных, которые он получает, от 20% до 30% от общей суммы сделки.

Самые дорогие изображения в его портфолио — те, которые используются для обучения систем искусственного интеллекта, которые блокируют контент, например изображения насилия, запрещенные технологическими компаниями, сказал поставщик, который говорил при условии, что его компания не будет идентифицирована, сославшись на коммерческую конфиденциальность.

Чтобы выполнить эти запросы, он получает изображения мест преступлений, конфликтов и операций – в основном от полиции, фотожурналистов-фрилансеров и студентов-медиков соответственно – часто в местах Южной Америки и Африки, где распространение графических изображений более распространено, сказал он.

Он сказал, что получал изображения от фотографов-фрилансеров в секторе Газа с начала войны там в октябре, а также некоторые изображения из Израиля в начале боевых действий.

Его компания нанимает медсестер, привыкших видеть насильственные травмы, для анонимизации и аннотирования изображений, которые раздражают неподготовленный глаз, добавил он.

«МНЕ БЫЛО ЭТО РИСКОВАННО»

Хотя лицензирование может решить некоторые юридические и этические проблемы, возрождение архивов старых интернет-имен, таких как Photobucket, в качестве топлива для новейших моделей искусственного интеллекта поднимает другие, особенно связанные с конфиденциальностью пользователей, по мнению многих опрошенных игроков отрасли.

Системы искусственного интеллекта были пойманы на том, что они извергают точные копии своих обучающих данных, выплевывая, например, водяной знак Getty Images , дословные абзацы статей New York Times и изображения реальных людей., открывает новую вкладку. Это означает, что личные фотографии или интимные мысли человека, опубликованные десятилетия назад, потенциально могут оказаться в генеративных результатах ИИ без предварительного уведомления или явного согласия.

Генеральный директор Photobucket Леонард говорит, что у него есть прочная правовая основа, ссылаясь на обновление условий обслуживания компании в октябре, которое предоставляет ей «неограниченное право» продавать любой загруженный контент с целью обучения систем искусственного интеллекта. Он рассматривает данные о лицензировании как альтернативу продаже рекламы.

«Нам нужно оплачивать наши счета, и это может дать нам возможность продолжать поддерживать бесплатные аккаунты», — сказал он.

Брага из Defined.ai заявила, что избегает приобретения контента от «платформенных» компаний, таких как Photobucket, и предпочитает получать фотографии в социальных сетях от влиятельных лиц, которые их создают, которые, по ее словам, имеют более четкие права на лицензионные права.

«Я считаю это очень рискованным», — сказал Брага о контенте платформы. «Если существует какой-то ИИ, который генерирует что-то, напоминающее изображение человека, который никогда этого не одобрял, это проблема».

Photobucket — не единственная платформа, которая использует лицензирование. Материнская компания Tumblr Automattic заявила в прошлом месяце, что делится контентом с «избранными компаниями, занимающимися искусственным интеллектом». В феврале агентство Reuters сообщило, что Reddit заключил сделку с Google , чтобы сделать ее контент доступным для обучения моделей искусственного интеллекта последней.

В преддверии первичного публичного размещения акций в марте Reddit сообщил, открывает новую вкладку что ее бизнес по лицензированию данных является предметом расследования Федеральной торговой комиссии США, и признала, что может не соответствовать развивающимся правилам конфиденциальности и интеллектуальной собственности.

Федеральная торговая комиссия предупредила бизнес, открывает новую вкладку в феврале против ретроспективного изменения условий использования ИИ, отказался комментировать запрос Reddit и сообщить, изучает ли он другие сделки с обучающими данными.

За последними событиями следите в Телеграм-канале @tazabek_official

По сообщению сайта Tazabek

Подпольная гонка крупных технологических компаний по покупке данных для обучения ИИ, — Reuters

Дата: 08 апреля 2024 в 20:14 Категория: Новости высоких технологий