Музыкальные архивы оказались слишком удобной добычей для чужих алгоритмов.
Музыкальные архивы, которые выглядят открытыми, не всегда дают право учить на них коммерческие ИИ-модели , и The Atlantic показал масштаб такой серой зоны через новую поисковую базу треков, попавших в обучающие наборы.
Журналист Алекс Райснер обнаружил четыре датасета с музыкой , которые используют для обучения ИИ, и сделал их доступными для поиска. Два набора оказались особенно крупными: один содержит 12 млн треков, второй включает 9 млн. Ещё два — поменьше, но тоже ощутимы по объёму, поскольку в каждом собрано более 100 тысяч песен.
По данным Райснера, эти наборы скачивали тысячи раз. Точно установить всех пользователей невозможно, но Google и Stability подтверждали работу с такими данными в научных публикациях. Часть источников, включая Free Music Archive, разрешает бесплатно слушать музыку для личных целей, но требует отдельной лицензии для коммерческого применения.
Главная проблема связана не только с наличием треков в интернете, но и со способом получения аудио. Три найденных датасета распространяются не как готовые музыкальные архивы, а как списки ссылок на песни в YouTube и Spotify . Затем разработчики ИИ используют автоматические инструменты, которые скачивают звук и в отдельных случаях обходят вход в аккаунт, рекламу и механизмы, через которые авторы могли бы получать деньги или аудиторию. Такой подход нарушает правила этих платформ.
В базе встречаются как массовые исполнители, так и музыканты из более нишевых сцен. Среди найденных имён указаны Lady Gaga, Fred Again.., Radiohead, Aphex Twin, Wu-Tang Clan, Bruce Springsteen и композитор Hainbach. На сайте AI Watchdog у The Atlantic можно искать не только песни, но и книги, а также другие медиа, которые использовались при обучении ИИ-моделей.
Музыкальные архивы, которые выглядят открытыми, не всегда дают право учить на них коммерческие ИИ-модели , и The Atlantic показал масштаб такой серой зоны через новую поисковую базу треков, попавших в обучающие наборы.
Журналист Алекс Райснер обнаружил четыре датасета с музыкой , которые используют для обучения ИИ, и сделал их доступными для поиска. Два набора оказались особенно крупными: один содержит 12 млн треков, второй включает 9 млн. Ещё два — поменьше, но тоже ощутимы по объёму, поскольку в каждом собрано более 100 тысяч песен.
По данным Райснера, эти наборы скачивали тысячи раз. Точно установить всех пользователей невозможно, но Google и Stability подтверждали работу с такими данными в научных публикациях. Часть источников, включая Free Music Archive, разрешает бесплатно слушать музыку для личных целей, но требует отдельной лицензии для коммерческого применения.
Главная проблема связана не только с наличием треков в интернете, но и со способом получения аудио. Три найденных датасета распространяются не как готовые музыкальные архивы, а как списки ссылок на песни в YouTube и Spotify . Затем разработчики ИИ используют автоматические инструменты, которые скачивают звук и в отдельных случаях обходят вход в аккаунт, рекламу и механизмы, через которые авторы могли бы получать деньги или аудиторию. Такой подход нарушает правила этих платформ.
В базе встречаются как массовые исполнители, так и музыканты из более нишевых сцен. Среди найденных имён указаны Lady Gaga, Fred Again.., Radiohead, Aphex Twin, Wu-Tang Clan, Bruce Springsteen и композитор Hainbach. На сайте AI Watchdog у The Atlantic можно искать не только песни, но и книги, а также другие медиа, которые использовались при обучении ИИ-моделей.
- Источник новости
- www.securitylab.ru