28.10.2020

Классификация данных при вводе в юридический реестр: где спотыкается машинное обучение.

Оригинал здесь.
Авторы: Ramesh Nallapati, Christopher D. Manning
Авторы исследуют задачу бинарной классификации применительно к данным, вводимым в юридический реестр. Представлен образец задачи, в которой такая методика машинного обучения (ML), как метод опорных векторов (SVM), оказывается неприменимой. Исследование авторами причин неудачи программы-классификатора раскрывает два типа явных ошибок, которые авторы назвали конъюнктивными и дизъюнктивными. Основываясь на догадках, возникших во время исследования, авторы разработали программу-классификатор на основе простой логики высказываний с использованием отобранных вручную признаков, которая справляется с обеими типами ошибок одновременно. Показано что этот новый, но простой подход превосходит по производительности все существующие модели машинного обучения.
В любом окружном суде США информация о событиях в деле обычно вносится в хронологическом порядке в документ “журнал дела”. Каждая запись в журнале содержит перечень событий, которые произошли в определенную дату, например, ходатайство, апелляция, постановление, суд присяжных, решение и т. д. Записи представляют собой краткое описание событий на естественном языке. Иногда одна запись в журнале может содержать несколько событий, которые происходят в один и тот же день.
Выявление различных событий в судебном списке дела является важным первым шагом к автоматическому пониманию хода дела, а также к сбору совокупной статистики судебных дел для дальнейшего анализа. Хотя некоторые события, такие как «Жалоба», можно легко идентифицировать с помощью регулярных выражений, другие являются гораздо более сложными и могут потребовать сложного моделирования.
На первый взгляд кажется, что стандартный классификатор может хорошо работать с этими данными, поскольку классификация, по-видимому, зависит в основном от определенных ключевых слов, таких как «предоставление», «отказ», «спорный вопрос» и т. д. Поэтому в качестве первого шага авторы попытались использовать стандартный SVM-классификатор (методом опорных векторов).
Авторы собрали 5595 записей в журналах дел и вручную поделили их на категории OSJ (Office of Supervisory Jurisdiction, высшая инстанция) или не OSJ. 1848 из этих записей в реестре попадают в категорию OSJ.
Во всех экспериментах авторы разбивали все данные случайным образом на 20 непересекающихся подмножеств, где каждый набор имеет такое же соотношение положительных и отрицательных примеров, что и исходный полный набор. Для всех классификаторов, которые авторы использовали в этой работе, они провели 20-кратную перекрестную проверку. Вычислены баллы F1 по сохраненным данным каждого прогона и общий F1 балл как единичный показатель производительности. Также проведены тесты статистической значимости, используя результаты 20 перекрестных проверок.
Применение стандартного линейного SVM метода дало F1 оценку модели 79,44%. Как выяснилось, SVM придает слишком большой вес паразитным признакам, у которых высокая корреляция с классом.
Авторы отобрали 100 лучших признаков и вновь применили SVM для сокращенного набора признаков. Результат улучшился до 83,08%, но это все еще далеко от нормальных 90%. Авторы заподозрили, что не хватает данных для обучения, но проверка показала, что это не так: кривая обучения достигла “плато”.
Для дальнейшего улучшения авторы использовали ручной отбор классифицирующих признаков. Они попросили аннотаторов идентифицировать минимальный, но исчерпывающий список отличительных признаков для помеченных данных. Результат улучшился до 86,77%, что все еще не достаточно.
Изучив ошибки, допущенные SVM, авторы поделили их на два класса: конънктивные и дизъюнктивные. Первый класс ошибок – это когда, например, в одной записи встречаются два слова, одно из которых в пользу отнесения записи к одной категории, а другое в пользу другой, и перевешивает не то, что нужно. Второй, дизъюнктивный класс ошибок, возникает когда SVM не может правильно взвесить значение предложений, например если в одном предложении содержится OSJ-положительный признак, а в двух других – OSJ отрицательные.
Далее авторы применили такое эвристическое правило: если в одном предложении встречается два различных признака, то они объединяются в биграмму и рассматриваются как единое целое. Это привело к статистически значимому улучшению результата.
Для существенного улучшения результата авторы применили новую простую методику. Сначала выявлялись и взвешивались признаки в рамках каждого отдельного предложения. Далее программа-классификатор проводила дизъюнкцию результатов всех предложений в деле и получала итоговый вывод. Модель “конъюнкция внутри каждого предложения, дизъюнкция для всех предложений” позволила достичь точности 95%.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *