Корпус лингвистической приемлемости

Корпус лингвистической приемлемости (CoLA) — это набор данных, основная цель которого — служить эталоном для оценки способности искусственных нейронных сетей, включая большие языковые модели , оценивать грамматическую правильность предложений. Он состоит из 10 657 английских предложений из опубликованной лингвистической литературы, которые были вручную помечены как грамматические или неграмматические. ^[1]

Публичная версия

Общедоступная версия CoLA содержит 9594 предложения, которые относятся к наборам обучения и развития. Из него исключены 1063 предложения, зарезервированные для отложенного тестового набора.

Внешние ссылки

Варштадт, Алекс. «CoLA - Корпус лингвистической приемлемости» .

Ссылки

^ Варштадт, Алекс; Сингх, Аманприт; Боуман, Сэмюэл Р. (2019). «Оценки приемлемости нейронной сети» . Труды Ассоциации компьютерной лингвистики . 7 (4): 625–641. arXiv : 1805.12471 . дои : 10.1162/tacl_a_00290 .

[1] Варштадт, Алекс; Сингх, Аманприт; Боуман, Сэмюэл Р. (2019). «Оценки приемлемости нейронной сети» . Труды Ассоциации компьютерной лингвистики . 7 (4): 625–641. arXiv : 1805.12471 . дои : 10.1162/tacl_a_00290 .

[1]