The Atlantic нашёл миллионы треков в датасетах, доступных разработчикам музыкального ИИ

The Atlantic опубликовал расследование о крупных музыкальных наборах данных, которые распространяются в среде разработчиков генеративного ИИ. В каталогах обнаружены миллионы записей, включая коммерчески защищённые треки, что усиливает спор между ИИ-сервисами и музыкальной индустрией о правомерности обучения на таких данных.

Американский журнал The Atlantic опубликовал расследование журналиста Алекса Рейснера о музыкальных датасетах, доступных разработчикам генеративного ИИ. Автор нашёл четыре крупных каталога: два содержат около 12 млн и 9 млн треков, ещё два — более чем по 100 тыс. записей; среди них есть музыка известных и менее известных исполнителей разных жанров.

Публикация не утверждает, что все эти наборы использовались каждой коммерческой системой. The Atlantic указывает, что часть данных уже фигурировала в исследовательских работах Google и Stability AI, а использование других найденных каталогов остаётся непрозрачным. При этом Suno, сервис генерации музыки по текстовым запросам, в судебном ответе по иску лейблов писала, что её модель обучалась на десятках миллионов записей и фактически на всех доступных в открытом интернете аудиофайлах подходящего качества.

Спор вокруг музыкальных генераторов ИИ остаётся юридически неразрешённым. Крупнейшие звукозаписывающие компании подали иски против Suno и Udio, разработчика другого сервиса генерации музыки, тогда как ИИ-компании ссылаются на доктрину fair use и утверждают, что обучение моделей анализирует закономерности музыки, а не создаёт библиотеку готовых фрагментов.

Источник: theatlantic.com

Связь с редакцией