Всем здравствуйте! Меня зовут Антон Лебедев, я адвокат LebEdEV & barristers. В этой статье я рассматриваю сбор данных из интернета для различных задач с точки зрения российского законодательства.
Терминология
В первую очередь разберемся в терминах.
Парсинг (англ. parsing — анализ) — в сфере IT это процесс нормализации и анализа имеющихся данных. Обычно парсингом занимаются во фреймворках вроде Numpy и Pandas.
Скрэпинг (англ. scraping — соскабливание) — сбор из интернета публично доступных данных.
Получается, что сбор данных — это скорее скрэпинг, однако в России этот процесс привыкли называть парсингом. В этой статье я буду использовать слово «парсинг» в кавычках.
Этика
В общем случае сбор данных из интернета не наказуем. Публичные материалы размещаются именно для их использования. Основной вопрос, который стоит рассматривать с этической точки зрения, — как именно используются собранные данные.
Сами по себе данные и цели их сбора могут быть разными. Например, статистику погоды за большой период собирают, чтобы определить влияние погодных условий на посещаемость уже прошедших мероприятий и рассчитать число людей, которые придут на будущие.
Другой пример: комментарии в интернете после разметки могут быть использованы для обучения ИИ на определение негативных и положительных отзывов о товаре или услуге на сайте. Если при этом собранные комментарии обезличиваются и информация о написавших их людях нигде не публикуется, можно считать «парсинг» этичным.
В приведенных выше примерах собранная информация перерабатывается, что позволяет получить из нее новые данные. А вот простой сбор данных и размещение их в неизменном виде на своем сайте, конечно, неэтично.
Законодательство
Отдельно тема «парсинга» в российском законодательстве не рассматривается. Сбор данных из закрытых источников является уголовно наказуемым, поскольку для такого сканирования необходимо получить неправомерный доступ к данным. Чаще всего это касается конфиденциальной информации, которую по закону должен защищать тот, кто ее хранит. Если какая-либо компания выложила конфиденциальные данные в интернет, то это в любом случае незаконно, поэтому копирование и воспроизведение этих данных тоже будут неправомерными.
К сожалению, даже банковские базы можно встретить в Сети, но вряд ли их именно «парсили».
Сканирование открытых источников само по себе не запрещено. Однако в России достаточно хорошо отрегулированы вопросы авторства. Таким образом, это больше вопрос авторских прав, а не самого «парсинга».
В силу законодательства Российской Федерации любая запись, сделанная человеком в интернете, имеет авторство и подлежит защите, поэтому копирование чужих произведений является плагиатом. Однако, если копирование производится для обучения моделей нейросетей, такое копирование, на мой взгляд, допустимо.
В западной цивилистике давно идет спор о допустимости использования чужих произведений для обучения нейросетей. Например, недавно отгремела забастовка сценаристов, которые были против использования их авторских произведений для генерации продолжения историй нейронными сетями. Забастовка закончилась перемирием на два года, а за это время нейросети существенно продвинутся вперед, и спор вспыхнет с новой силой.
Интересен также недавний скандал с Midjourney, которая выдала кадр из фильма «Дюна» на запрос пользователя. Видимо, разработчики уже обучают сеть не на отдельных картинках, а на целых фильмах. Произведение этой нейронной сети победило на конкурсе художников с денежным призом, что также вызвало большие споры.
При этом, если говорить об обучении нейронных сетей, очень сложно установить, какие данные использовались для обучения нейронной сети, не имея доступа к обучающей выборке. Именно поэтому, как говорится, «парсите» на здоровье, но думайте, когда выкладываете.
Еще один момент, о котором надо помнить, чисто технический. Массовые запросы, которые возникают при «парсинге», создают нагрузку на сервер, откуда нужно забрать данные. Чрезмерная нагрузка может привести к «падению» сервера, особенно если он не очень надежный. Вывод сервера из строя массовыми запросами — это, по сути, DoS-атака, то есть, занимаясь «парсингом», вы можете ненароком стать хакером и получить обвинение в атаке на ИТ-инфраструктуру какой-нибудь компании. Ситуация это маловероятная, так как обычно владельцы сайтов ограничивают количество запросов, поступающих с одного IP-адреса, но забывать о ней всё-таки не стоит.
Заключение
В моей практике пока не встречались дела, связанные с датасетами или «парсингом», но я с удовольствием принял бы участие в таком споре.
Думаю, тема искусственного интеллекта неизбежно подвинет права авторов в сторону их ущемления, ведь без нейронных сетей невозможно развитие современных технологий, а нейронные сети нуждаются в больших данных для обучения.