Поиск юридической информации
Поиск юридической информации — это наука о поиске информации, применяемая к юридическим текстам, включая законодательство , прецедентное право и научные работы. [1] Точный поиск юридической информации важен для обеспечения доступа к закону непрофессионалам и юристам. Его важность возросла из-за огромного и быстро растущего количества юридических документов, доступных через электронные средства. [2] Поиск юридической информации является частью развивающейся области юридической информатики .
В юридических целях часто бывает важно получить всю информацию, связанную с конкретным запросом. Однако было показано, что обычно используемые логические методы поиска (точные совпадения указанных терминов) в полнотекстовых юридических документах имеют средний уровень запоминаемости всего 20 процентов. [3] это означает, что фактически извлекается только 1 из 5 соответствующих документов. В этом случае исследователи полагали, что им удалось получить более 75% соответствующих документов. [3] Это может привести к невозможности получить важные или прецедентные случаи. В некоторых юрисдикциях это может быть особенно проблематично, поскольку юристы этически обязаны быть достаточно информированными о соответствующих юридических документах. [4]
Поиск юридической информации пытается повысить эффективность юридического поиска за счет увеличения количества соответствующих документов (обеспечивая высокий уровень отзыва ) и сокращения количества нерелевантных документов (высокий уровень точности ). Это непростая задача, так как правовое поле склонно к жаргонизму . [5] многозначности [6] (слова, которые имеют разные значения при использовании в юридическом контексте) и постоянные изменения.
Методы, используемые для достижения этих целей, обычно делятся на три категории: логический поиск, ручная классификация юридического текста и обработка юридического текста на естественном языке.
Проблемы [ править ]
Применение стандартных методов поиска информации к юридическому тексту может быть более сложным, чем их применение в других предметах. Одна из ключевых проблем заключается в том, что закон редко имеет присущую ему таксономию . [7] Вместо этого закон, как правило, наполнен открытыми условиями, которые могут меняться со временем. [7] Это может быть особенно актуально в странах общего права , где каждое решенное дело может слегка изменить значение определенного слова или фразы. [8]
Системы правовой информации также должны быть запрограммированы на работу со словами и фразами, специфичными для закона. Хотя это менее проблематично в контексте слов, которые существуют исключительно в законе, юридические тексты также часто используют многозначные слова, слова могут иметь разные значения при использовании в юридической или обычной речи, возможно, и то, и другое в одном и том же документе. Юридические значения могут зависеть от области права, в которой он применяется. Например, в контексте законодательства Европейского Союза термин «работник» имеет четыре разных значения: [9]
- Любой работник, как это определено в статье 3(а) Директивы 89/391/EEC, который обычно использует экранное оборудование в качестве значительной части своей обычной работы.
- Любое лицо, нанятое работодателем, включая стажеров и учеников, за исключением домашней прислуги;
- Любое лицо, выполняющее работу на борту судна, включая стажеров и учеников, за исключением портовых лоцманов и берегового персонала, выполняющего работу на борту судна у причала;
- Любое лицо, которое в соответствующем государстве-члене ЕС защищено как работник в соответствии с национальным трудовым законодательством и в соответствии с национальной практикой;
Оно также имеет общее значение:
- Человек, занимающийся определенной профессией. [9]
Хотя термины могут быть схожими, правильный поиск информации должен различать предполагаемое использование и нерелевантное использование, чтобы вернуть правильные результаты.
Даже если система преодолевает языковые проблемы, присущие праву, она все равно должна определять релевантность каждого результата. В контексте судебных решений это требует определения прецедентного значения дела. [10] высшей или Решения по делам судов высшей инстанции могут быть более актуальными, чем решения судов низшей инстанции , даже если решение суда низшей инстанции содержит больше обсуждения соответствующих фактов. [10] Однако может быть и обратное, если высший суд проводит лишь незначительное обсуждение темы (например, если это второстепенное рассмотрение дела). [10] Система поиска информации также должна учитывать полномочия юрисдикции. Дело от обязательного органа, скорее всего, имеет большую ценность, чем дело от необязывающего органа.
Кроме того, намерения пользователя могут определять, какие дела он считает ценными. Например, когда профессиональный юрист пытается аргументировать конкретную интерпретацию закона, он может счесть решение второстепенного суда, поддерживающее его позицию, более ценным, чем позиция старшего суда, которая этого не делает. [10] Он также может ценить схожие позиции из разных областей права, разных юрисдикций или особые мнения. [10]
Преодоление этих проблем может быть затруднено из-за большого количества доступных дел. Количество судебных дел, доступных в электронном виде, постоянно увеличивается (в 2003 году апелляционные суды США выносили около 500 новых дел в день). [2] ), что означает, что точная система поиска юридической информации должна включать методы как сортировки прошлых данных, так и управления новыми данными. [2] [11]
Техники [ править ]
Логический поиск [ править ]
Логический поиск , когда пользователь может указать такие термины, как использование определенных слов или решений конкретного суда, является наиболее распространенным типом поиска, доступным через системы поиска юридической информации. Они широко применяются, но решают лишь некоторые из проблем, обсуждавшихся выше.
Уровень полноты и точности этих поисков варьируется в зависимости от реализации и анализируемых поисков. базового логического поиска Одно исследование показало, что уровень запоминаемости составляет примерно 20%, а уровень точности — примерно 79%. [3] Другое исследование реализовало общий поиск (то есть не предназначенный для использования в юридических целях) и обнаружило, что уровень запоминания составляет 56%, а уровень точности — 72% среди юристов. Оба показателя увеличились, когда поиск проводился неюристами, до уровня запоминаемости 68% и точности 77%. Вероятно, это объясняется использованием юристами сложных юридических терминов. [12]
Ручная классификация
Чтобы преодолеть ограничения базового логического поиска, информационные системы попытались классифицировать прецедентное право и законодательные акты в более удобные для компьютера структуры. Обычно это приводит к созданию онтологии для классификации текстов на основе того, как о них думает юрист. [13] Они пытаются связать тексты на основе их типа, ценности и/или тематических областей. Большинство крупных поставщиков юридического поиска теперь реализуют своего рода классификационный поиск, например, Westlaw . «Естественный язык» компании [14] или LexisNexis ' Заголовок [15] поиски. Кроме того, обе эти службы позволяют просматривать их классификации через West Key Numbers от Westlaw. [14] или заметки Lexis. [15] Хотя эти два поисковых алгоритма являются запатентованными и секретными, известно, что они используют ручную классификацию текста (хотя это может быть и с помощью компьютера). [13]
Эти системы могут помочь преодолеть большинство проблем, присущих системам поиска юридической информации, поскольку ручная классификация имеет наибольшие шансы выявить знаковые случаи и понять проблемы, возникающие в тексте. [16] В одном исследовании онтологический поиск показал точность 82% и уровень отзыва 97% среди юристов. [17] Однако включенные в него юридические тексты тщательно контролировались лишь с учетом нескольких областей права конкретной юрисдикции. [18]
Основным недостатком этого подхода является необходимость привлечения высококвалифицированных юристов и большого количества времени для классификации текстов. [16] [19] Поскольку объем доступного текста продолжает увеличиваться, некоторые заявили, что считают, что ручная классификация нежизнеспособна. [20]
Обработка естественного языка [ править ]
Чтобы уменьшить зависимость от юристов и количество необходимого времени, были предприняты усилия по созданию системы автоматической классификации юридического текста и запросов. [2] [21] [22] Адекватный перевод того и другого позволит получить точную информацию без затрат на ее классификацию, выполняемую человеком. Эти автоматические системы обычно используют методы обработки естественного языка (NLP), которые адаптированы к юридической сфере, а также требуют создания юридической онтологии . Хотя было постулировано несколько систем, [2] [21] [22] лишь немногие сообщили о результатах. Одна система, «SMILE», которая попыталась автоматически извлечь классификации из текстов случаев, привела к получению f-меры (которая представляет собой расчет как скорости запоминания, так и точности) ниже 0,3 (по сравнению с идеальной f-мерой, равной 1,0). [23] Вероятно, это намного ниже приемлемой скорости для общего использования. [23] [24]
Несмотря на ограниченные результаты, многие теоретики предсказывают, что эволюция таких систем в конечном итоге заменит системы ручной классификации. [25] [26]
Рейтинг цитирования на основе
В середине 90-х годов проект по поиску прецедентного права Room 5 использовал интеллектуальный анализ цитирования для сводок и ранжировал результаты поиска на основе типа и количества цитирований. Это немного предшествовало алгоритму Page Rank в Стэнфорде, который также представлял собой ранжирование на основе цитирования. Ранжирование результатов основывалось как на юрисдикции, так и на количестве ссылок. [27]
Примечания [ править ]
- ^ Максвелл, К.Т., и Шафер, Б. 2009, стр. 1
- ^ Jump up to: а б с д и Джексон и др., с. 60
- ^ Jump up to: а б с Блэр, округ Колумбия, и Марон, штат Мэн, 1985, стр. 293.
- ^ Американская ассоциация адвокатов, Типовые правила профессионального поведения, правило 1.1, http://www.abanet.org/cpr/mrpc/rule_1_1.html.
- ^ Питерс, В. и др. 2007, с. 118
- ^ Питерс, В. и др. 2007, с. 130
- ^ Jump up to: а б Питерс, В. и др. 2007, с. 120
- ^ Сараванан, М. и др. 2009, с. 101
- ^ Jump up to: а б Питерс, В. и др. 2007, с. 131
- ^ Jump up to: а б с д и Максвелл, К.Т., и Шафер, Б. 2008, с. 8
- ^ Максвелл, К.Т., и Шафер, Б. 2007, стр.1.
- ^ Сараванан М. и др. 2009, с. 116
- ^ Jump up to: а б Максвелл К.Т. и Шафер Б. 2008 г., с. 2
- ^ Jump up to: а б Вестлоу Исследования, http://www.westlaw.com
- ^ Jump up to: а б Исследования лексики, http://www.lexisnexis.com
- ^ Jump up to: а б Максвелл, К.Т., и Шафер, Б. 2008, с. 3
- ^ Сараванан, М. и др. 2009, с. 116
- ^ Сараванан, М. и др. 2009, с. 103
- ^ Швайгофер, Э. и Либвальд, Д. 2008, стр. 108
- ^ Максвелл, К.Т., и Шафер, Б. 2008, с. 4
- ^ Jump up to: а б Эшли, К.Д. и Брюнингхаус, С. 2009, с. 125
- ^ Jump up to: а б Гелбарт Д. и Смит Дж. К. 1993, с. 142
- ^ Jump up to: а б Эшли, К.Д. и Брюнингхаус, С. 2009, с. 159
- ^ Максвелл, К.Т., и Шафер, Б. 2009, стр. 3
- ^ Максвелл, К.Т., и Шафер, Б. 2009, стр. 9
- ^ Эшли, К.Д. и Брюнингхаус, С. 2009, с. 126
- ^ Луи Р.П., Норман Дж., Альтепетер Дж., Пинкард Д., Крэйвен Д., Линсдей Дж. и Фольц М. (1997, июнь). Прогресс в комнате 5: испытательный стенд для публичной интерактивной полуформальной юридической аргументации. В материалах 6-й международной конференции «Искусственный интеллект и право» (стр. 207-214). АКМ.
Ссылки [ править ]
- Максвелл, Коннектикут; Шафер, Б. (2008). «Понятие и контекст поиска юридической информации» . Границы искусственного интеллекта и приложений . 189 : 63–72 . Проверено 7 ноября 2009 г.
- Джексон, П.; и др. (1998). «Извлечение информации из прецедентного права и извлечение предыдущих дел путем частичного анализа и генерации запросов» . Материалы седьмой международной конференции по управлению информацией и знаниями . Цикм '98. АКМ. стр. 60–67 . дои : 10.1145/288627.288642 . ISBN 978-1581130614 . S2CID 1268465 . Проверено 7 ноября 2009 г.
- Блэр, округ Колумбия; Марон, Мэн (1985). «Оценка эффективности поиска для полнотекстового поиска документов». Коммуникации АКМ . 28 (3): 289–299. дои : 10.1145/3166.3197 . hdl : 2027.42/35415 . S2CID 5144091 .
- Питерс, В.; и др. (2007). «Структурирование юридических знаний в ЛОИС». Искусственный интеллект и право . 15 (2): 117–135. CiteSeerX 10.1.1.104.7469 . дои : 10.1007/s10506-007-9034-4 . S2CID 2355864 .
- Сараванан, М.; и др. (2007). «Улучшение поиска юридической информации с использованием онтологической структуры». Искусственный интеллект и право . 17 (2): 101–124. дои : 10.1007/s10506-009-9075-y . S2CID 8853001 .
- Швайгофер, Э.; Либвальд, Д. (2007). «Продвинутые лексические онтологии и гибридные системы, основанные на знаниях: первые шаги к динамичному юридическому электронному комментарию». Искусственный интеллект и право . 15 (2): 103–115. дои : 10.1007/s10506-007-9029-1 . S2CID 80124 .
- Гелбарт, Д.; Смит, Дж. К. (1993). «Флексикон». Материалы четвертой международной конференции по искусственному интеллекту и праву - ICAIL'93 . АКМ. стр. 142–151. дои : 10.1145/158976.158994 . ISBN 978-0897916066 . S2CID 18952317 .
- Эшли, К.Д.; Брюнингхаус, С. (2009). «Автоматическая классификация текстов дел и прогнозирование результатов». Искусственный интеллект и право . 17 (2): 125–165. дои : 10.1007/s10506-009-9077-9 . S2CID 31791294 .