12.07.2020

Искусственный интеллект и авторское право. Часть 5

Оригинал здесь

Ни для кого не секрет, что закон о защите авторских прав и интеллектуальной собственности защищает в первую очередь создателей продукта. Так вот, третьим способом содействия крупным игрокам рынка  является: 

3. Препятствование конкуренции с целью конвертации клиентов

Не случайно то, что доминирующие создатели ИИ имеют не только статус глобальных технологических компаний и, как следствие, отсутствие разнообразия, но и нечто иное: они являются мастерами крупномасштабного сбора данных. Получение защищенных авторским правом произведений для использования в качестве обучающих данных для систем искусственного интеллекта может быть чрезмерно ресурсоемким, но есть два способа приобрести эти произведения, не беспокоясь об угрозе нарушения авторских прав: создатели ИИ могут создать систему для получения этих произведений или купить их у кого-либо.

Facebook освоил модель «build-it», накапливая учебные данные от пользователей в обмен на услугу, которую хотят пользователи, – подход, который профессор Кэти Страндбург называет «приобретением, как побочный продукт другой деятельности». Facebook предлагает свою социальную сеть для почти 2 миллиардов пользователей, которые постоянно создают и загружают огромное количество сообщений и селфи, которые Facebook использует для обучения своих систем ИИ. Facebook использует данные своих пользователей для калибровки новостных лент, создания альтернативного текста для слабовидящих пользователей и создания алгоритмов распознавания лиц, которые почти так же точны, как человеческое восприятие. Неизбежно то, что Facebook и другие системы ИИ, основанные на моделях build-it, будут отражать предвзятость базы пользователей этих систем. Например, хотя почти 80% американских интернет-пользователей также используют Facebook, эта служба заметно меньше представлена на рынке Ближнего Востока и в Африки, что затрудняет создание систем искусственного интеллекта, которые адекватно отражают опыт данных пользователей. 

IBM, с другой стороны, преуспела в модели «купи это» (buy-it), получая работы для использования в качестве данных для обучения ИИ посредством партнерских отношений и приобретений.

Например, IBM Watson for Oncology совместно с Мемориальным онкологическим центром SloanKettering (MSK) получили доступ к более чем 12 миллионам страниц медицинской литературы, «кураторской литературы и научным обоснованиям» MSK и историям болезни пациентов, многие из которых могут быть защищены авторским правом. Финансовые условия партнерства не были обнародованы, но еще одно партнерство IBM в области онкологии обошлось в 50 миллионов долларов.

Аналогичным образом IBM приобрела множество небольших компаний вместе с ценными данными этих компаний. Например, недавно IBM приобрела компанию AlchemyAPI, специализирующуюся на технологиях обработка естественного языка и компьютерного зрения. AlchemyAPI сделала себе имя довольно быстро. API обработка естественного языка компании обработал 500 000 транзакций в течение первого месяца.

Представьте себе, что журналисту удается перепроектировать алгоритмы распознавания лиц, созданные доминирующими игроками ИИ, с использованием моделей build-it или buy-it, обнаруживает, что системы ИИ постоянно пытаются обнаружить лица азиатских женщин, и публикует подробный отчет на эти системы и их предубеждения как средство алгоритмической ответственности. Новичок может быть мотивирован на создание системы ИИ без расы и гендерной предвзятости систем от действующих создателей ИИ. Также маловероятно, что новичок может заключить лицензионную сделку, сравнимую с соглашением Google с глобальными информационными агентствами или партнерством, эквивалентным модели «купи это» IBM. Без ресурсов, позволяющих легко собирать огромные объемы данных основными игроками ИИ, значимой конкуренции практически не существует. В самом деле, даже небольшая компания, которой удастся преуспеть в области ИИ, вряд ли будет долгое время конкурировать с ней, более вероятно, что компания будет поглощена одним из доминирующих создателей ИИ, а не будет конкурировать с ними. 

Закон об авторском праве отдает предпочтение создателям ИИ, чьи системы полагаются на модели сборки или покупки с высоким коэффициентом получения обучающих данных. При этом нормы закона об авторском праве создают трудности для новичков, конкурирующих за конвертацию клиентов. Тем не менее, существует и другой подход к получению данных об обучении искусственного интеллекта — новичок может использовать BLFD.

 Привилегированное использование предвзятых данных с низким сопротивлением

Учитывая, что закон об авторском праве из-за разногласий приводит к доступу к определенным произведениям, многие создатели ИИ обращаются к легкодоступным, юридически малоопасным работам в качестве обучающих данных для систем ИИ. Данные, полученные из этих работ, часто демонстрируют предвзятость – автор называет их предвзятыми данными с низким коэффициентом сопротивления (BLFD).

Это не означает, что приобретение BLFD легкодоступно, это скорее отражает то, что закон об авторском праве позволяет сделать эти данные настолько доступными, что их использование в качестве обучающих практически неизбежно. Наиболее существенный пример BLFD – это знакомый ученым компьютер: электронные письма Enron. «Электронные письма Enron» относятся к 1,6 миллионам электронных писем, отправленных сотрудниками Enron, загруженными Федеральной комиссией по регулированию энергетики (FERC) в 2003 году. Эти электронные письма остаются одними из единственного большого набора электронных писем, которыми обмениваются реальные люди в мире. Электронные письма Enron часто в разговорной речи называют «общественным достоянием», но это является юридическим искажением. Хотя электронные письма Enron доступны в Интернете публично, они больше похожи на бесхозные произведения: использование произведений по-прежнему сопряжено с определенным риском, так как получить разрешение от каждого из авторов крайне маловероятно, но сравнительная вероятность судебного иска о нарушении авторских прав, возможно, еще более маловероятна. В результате электронные письма Enron воспринимаются как представляющие бесконечно малый юридический риск, поскольку, хотя некоторые электронные письма Enron защищены в соответствии с законом об авторском праве, практическая вероятность того, что бывшие сотрудники Enron будут предъявлять иск за нарушение авторских прав, чрезвычайно мала. Электронные письма Enron и полученные из них учебные материалы свободно доступны онлайн в машиночитаемых форматах.

Электронные письма Enron, с точки зрения создателей ИИ, имеют настолько низкие показатели защиты, насколько это возможно. Электронные письма Enron идеально подходят для обучения некоторым видам искусственного интеллекта, таким как фильтры нежелательной почты и системы папок, но стоит напомнить себе, почему электронные письма Enron были выпущены с самого начала. Электронные письма Enron просто не репрезентативны – ни географически, ни социально-экономически, даже с точки зрения расы или пола. Действительно, исследователи использовали электронные письма Enron специально для анализа гендерной предвзятости и динамики власти. И все же электронные письма Enron остаются актуальным набором данных для обучения систем искусственного интеллекта. Правила закона об авторском праве, которые признают BLFD, как данные обучения искусственного интеллекта, также имеют значение для конфиденциальности. Множество личной информации, используемой в моделях build-it и buy-it, создало то, что профессор Джули Коэн называет «биополитическим общественным достоянием: хранилище материалов, которые можно взять и которые созданы в качестве входных данных для определенных типов продуктивной деятельности». Закон о правонарушениях уже давно сталкивается с тем, как обращаться с частной информацией, которая публикуется без согласия. 

В последние годы закон об авторском праве также боролся с разграничением частной и публичной информации. Тем не менее, мы только начинаем бороться с конфликтом между тем, что законно, а что этично, когда речь идет обучение систем ИИ. Присвоение онлайн профилей и взломанные письма иллюстрируют этические вопросы, возникающие при обработке этих данных, как BLFD. Например, в 2016 году исследователь опубликовал набор данных, состоящий из информации, извлеченной из профилей 70 000 пользователей сайта онлайн-знакомств OKCupid. 

В том же году WikiLeaks опубликовал более 20 000 взломанных личных писем от менеджера кампании Хиллари Клинтон, а также бывшего главы аппарата Белого дома Джона Подеста. WikiLeaks сделал каждую электронное письмо Подеста доступным для поиска в машиночитаемом формате и включила необработанные электронные письма в загружаемый набор данных. 

Один комментарий к “Искусственный интеллект и авторское право. Часть 5

  1. Заключительная часть информативной и увлекательной статьи!Если Вас интересует вопрос взаимодействия авторского права и искусственного интеллекта, советую прочесть!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *