Корпус лингвистической приемлемости
Корпус лингвистической приемлемости (CoLA) — это набор данных, основная цель которого — служить эталоном для оценки способности искусственных нейронных сетей, включая большие языковые модели , оценивать грамматическую правильность предложений. Он состоит из 10 657 английских предложений из опубликованной лингвистической литературы, которые были вручную помечены как грамматические или неграмматические. [1]
Публичная версия
[ редактировать ]Общедоступная версия CoLA содержит 9594 предложения, которые относятся к наборам обучения и развития. Из него исключены 1063 предложения, зарезервированные для отложенного тестового набора.
Внешние ссылки
[ редактировать ]- Варштадт, Алекс. «CoLA - Корпус лингвистической приемлемости» .
Ссылки
[ редактировать ]- ^ Варштадт, Алекс; Сингх, Аманприт; Боуман, Сэмюэл Р. (2019). «Оценки приемлемости нейронной сети» . Труды Ассоциации компьютерной лингвистики . 7 (4): 625–641. arXiv : 1805.12471 . дои : 10.1162/tacl_a_00290 .