18.06.2026
The Atlantic опубликовал расследование о крупных музыкальных наборах данных, которые распространяются в среде разработчиков генеративного ИИ. В каталогах обнаружены миллионы записей, включая коммерчески защищённые треки, что усиливает спор между ИИ-сервисами и музыкальной индустрией о правомерности обучения на таких данных.
Американский журнал The Atlantic опубликовал расследование журналиста Алекса Рейснера о музыкальных датасетах, доступных разработчикам генеративного ИИ. Автор нашёл четыре крупных каталога: два содержат около 12 млн и 9 млн треков, ещё два — более чем по 100 тыс. записей; среди них есть музыка известных и менее известных исполнителей разных жанров.
Публикация не утверждает, что все эти наборы использовались каждой коммерческой системой. The Atlantic указывает, что часть данных уже фигурировала в исследовательских работах Google и Stability AI, а использование других найденных каталогов остаётся непрозрачным. При этом Suno, сервис генерации музыки по текстовым запросам, в судебном ответе по иску лейблов писала, что её модель обучалась на десятках миллионов записей и фактически на всех доступных в открытом интернете аудиофайлах подходящего качества.
Спор вокруг музыкальных генераторов ИИ остаётся юридически неразрешённым. Крупнейшие звукозаписывающие компании подали иски против Suno и Udio, разработчика другого сервиса генерации музыки, тогда как ИИ-компании ссылаются на доктрину fair use и утверждают, что обучение моделей анализирует закономерности музыки, а не создаёт библиотеку готовых фрагментов.
Источник: theatlantic.com