30.09.2020

Хотите улучшить применение ИИ в праве? Давайте поговорим о публичных данных и сотрудничестве.

Оригинал здесь.
Когда специалисты по данным хотят знать, может ли их программное обеспечение искусственного интеллекта распознавать рукописные цифры, они должны провести тестирование. В большинстве случаев это означает, что нужно взять набор черно-белых рукописных символов и пропустить его через программу.
MNIST – один из самых старых и известных наборов данных, используемых для этой задачи. Это обучающий набор данных, на котором программа обучается распознавать шаблоны, чтобы впоследствии они могли применять эти шаблоны для анализа новых образцов почерка.
MNIST настолько популярен, что он стал эталоном, который люди могут использовать для сравнения точности своего программного обеспечения. Набор данных, как ипподром, позволяет разработчикам посоревноваться за лучший результат. Это один из способов улучшения искусственного интеллекта и машинного обучения.
С расширенными применениями машинного обучения в области права пришло время разрабатывать MNIST-подобные наборы данных для приложений правовой системы.
Создание надежных, общедоступных учебных данных по различным юридическим темам повысит точность и степень принятия при одновременном снижении стоимости, что приведет к увеличению числа людей, экспериментирующих и исследующих приложения для машинного обучения в области права.
«Самая сложная часть создания нового решения или продукта ИИ – это не ИИ или алгоритмы, а сбор и разметка данных», – пишет Люк де Оливерия, соучредитель Vai Technologies, компании по разработке программного обеспечения для ИИ.
Но пока что когда речь идет о правовых приложениях, данные не всегда есть.
«Это упущение», – говорит Дэвид Коларуссо, директор Лаборатории правовых инноваций и технологий Юридической школы Университета Саффолка в Бостоне. “Вы не можете найти наборы данных, потому что люди, которые выполнили эту работу, считают ее проприетарной или говорят о привилегии адвоката-клиента”.
Коларуссо говорит, что недостаток данных ограничивает возможности разработчиков и исследователей использовать машинное обучение для решения юридических вопросов, таких как проблема доступа к правосудию. Это связано с тем, что сбор и разметка этих данных, необходимых шагов при разработке набора данных для обучения, является трудной и зачастую дорогостоящей.
Предпринимаются попытки предоставить доступ к правовым данным. Проект Free Law создал RECAP для создания бесплатной версии PACER. Работа Карла Маламуда по предоставлению публичных правовых данных на уровне штатов и на федеральном уровне хорошо документирована. Компания LexPredict профессора Чикагско-Кентского юридического колледжа Дэна Каца недавно выпустила платформу для создания наборов данных из базы данных EDGAR Комиссии по ценным бумагам и биржам. А Measures for Justice, некоммерческая организация, путешествует по стране, собирая данные уголовного правосудия, чтобы помочь анализу отношений между юрисдикциями.
Эти проекты имели различный успех, и они часто не собирают полные наборы данных, которые они ищут. Это не из-за недостатка попыток, это явный признак того, что добиться доступа к данным правовой системы трудно. (В случае проекта LexPredict мы не знаем его потенциала, потому что он был запущен в этом месяце.)
Сбор этих данных – это только один шаг к созданию набора обучающих данных.
LIT Lab объединилась с Stanford Legal Design Lab, возглавляемой Маргарет Хаган, для создания таксономии правовых вопросов, задаваемых непрофессионалами, которые можно использовать для маркировки наборов данных, на которых можно обучать модели машинного обучения.
Коларуссо объясняет, что этот проект необходим, потому что существует «проблема с поиском партнеров», когда речь идет о веб-сайтах, предоставляющих юридическую информацию.
Приняв более 75 000 вопросов, охватывающих несколько десятков разделов права, Коларуссо говорит, что проект направлен на создание учебного набора данных, который может помочь в создании «алгоритмически управляемого определения проблем», чтобы помочь онлайновым порталам юридической помощи более точно соединять информацию и ресурсы с пользователями и уменьшать доступ к ним. В настоящее время проект обращается за помощью к адвокатам-добровольцам.
Коларуссо и его партнеры – это небольшая группа людей, стремящихся удовлетворить эту потребность в данных по обучению правовой системе. А тем временем, что количество правовых приложений AI растет. Согласно обзору контрактов компании LawGeex, в 2018 году по сравнению с 2017 количество компаний, занимающихся правовыми технологиями AI, увеличилось с 40 до 66, или на 65 процентов. Аналогичным образом, за последнее десятилетие алгоритмические инструменты оценки риска освобождения под залог стали более популярными и используемыми заинтересованными сторонами системы уголовного правосудия.
Создание надежных, общедоступных обучающих наборов данных для права имеет несколько потенциальных преимуществ.
Во-первых, большие, доступные наборы данных, такие как созданный Саффолком и Стэнфордом, снизят стоимость входа для новых компаний и исследователей в этой области и позволят исследовать эти важные проблемы. Эти наборы данных создадут волновой эффект благодаря профессии, которую не создает единый проприетарный набор данных.
Во-вторых, эти наборы данных могут предоставить информацию для потребителей, сталкивающихся с инструментами машинного обучения в суде или на рынке.
Если, например, существует большой, размеченный, общедоступный набор данных по спорам о контрактах между предприятиями из судов федеральных округов, то на нем можно протестировать каждую платформу, которая претендует на прогнозирование таких случаев, что проиллюстрирует относительную точность каждого инструмента.
Не снимая завесу с частных наборов данных, потребители могли бы провести сравнительный анализ, чтобы основывать свои решения о покупке помимо маркетинговых материалов и онлайн-обзоров.
Тем не менее, Коларуссо отмечает: «Чтобы достичь стадии сравнительного анализа, необходимо, чтобы сообщество согласилось с тем, что набор данных является золотым стандартом». Это потребует сотрудничества между компаниями, юридическими фирмами и исследователями в этой области.
Это не недостижимая цель, и, к счастью, есть пример, который стоит повторить.
В период с 2006 по 2011 год Национальный институт стандартов и технологий провел конкурс под названием «Задача по интерактивному отслеживанию права» на конференции Text REtrieval для оценки автоматизированного анализа документов.
Благодаря этому мероприятию миллионы конкурирующих компаний и исследователей получили доступ к наборам данных из миллионов документов, чтобы оценить три области компетенции и затем оценить их по шкале от 0 до 100 баллов.
«Не все процессы на основе машинного обучения являются очень эффективными в рецензировании документов. Фактически доказано, что немногие работают так же хорошо или лучше, чем люди, почти у всех возникают трудности с адекватной оценкой их собственной эффективности [точности]», – говорит Николас Эконому, генеральный директор фирмы H5. Он утверждает, что TREC допускает научно строгое сравнение, редко встречающееся в этой области. H5 принимал участие в мероприятии дважды.
Этот тип кроссплатформенного сравнения может быть полезен для фирм и внутренних консультантов. При наличии правильных наборов данных этот же подход может быть применен к оценкам риска залога, моделям прогнозирования исхода дела и платформам анализа контрактов.
По словам Эконому, помимо узаконивания этой технологии для потребителя, «эти исследования отчасти привели к большему признанию машинного обучения в области открытий».
Поддерживая этот вывод, он указывает на заказ 2012 года от тогдашнего Мирового судьи Эндрю Пека, который признал, что «проверка с помощью компьютера является приемлемым способом поиска соответствующей информации ESI в соответствующих случаях». В качестве доказательства этого вывода в качестве мнения приводятся работы, подготовленные TREC.
«На мой взгляд, эти исследования служат ярким (и на сегодняшний день уникальным) примером того, как независимые государственные измерительные лаборатории могут предоставлять инструменты и протоколы, которые могут помочь в безопасном развертывании ИИ», – говорит Эконому об исследованиях NIST.
Эта работа не обязательно должна выполняться государственным учреждением, что иллюстрируется примерами из отрасли, такими как MLPerf. Однако, для того чтобы повысить эффективность машинного обучения и улучшать его восприятие публикой технологическим компаниям, юридическим фирмам, исследователям и университетам придется активизировать свою работу и работать вместе.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *