Недостоверный текст
Неаутентичный текст — это созданный компьютером пояснительный документ, который должен выглядеть как подлинный, но на самом деле бессмыслен. Часто они создаются для того, чтобы смешиваться с подлинными документами и таким образом манипулировать результатами поисковых систем, как в случае со спам-блогами . Они также передаются по электронной почте, чтобы обмануть спам-фильтры , придавая спаму поверхностные характеристики законного текста.
Иногда бессмысленные документы создаются с помощью компьютера для юмористического эффекта, как в случае с Dissociated press или поэзией Flarf . Их также использовали, чтобы оспорить достоверность публикации: студенты Массачусетского технологического института статьи, созданные с помощью компьютерной программы SCIgen представили на конференцию , где они изначально были приняты. Это заставило студентов утверждать, что планка для подачи заявок слишком низкая.
Поскольку объем текста, сгенерированного компьютером, превышает возможности людей его курировать, необходимы какие-то средства, позволяющие различать эти два понятия. Однако автоматизированные подходы к абсолютному определению того, является ли текст аутентичным или нет, сталкиваются с внутренними проблемами семантики. Ноам Хомский придумал фразу « Бесцветные зеленые идеи яростно спят », приведя пример грамматически правильного, но семантически бессвязного предложения; некоторые укажут, что в определенных контекстах этому предложению (или любой фразе) можно придать значение.
Первую группу, которая использовала это выражение в этом отношении, можно найти ниже из Университета Индианы . Их работа подробно объясняет попытку обнаружить недостоверные тексты и выявить пагубные проблемы, связанные с недостоверными текстами в киберпространстве. На сайте есть средства отправки текста, которые на основе контролируемого обучения оценивают, является ли корпус недостоверным или нет. Многие пользователи предоставили неверные типы данных и соответствующим образом прокомментировали оценки. Это приложение предназначено для определенного типа данных; следовательно, отправка, скажем, электронного письма не принесет значимого результата.
См. также
[ редактировать ]Внешние ссылки
[ редактировать ]- Неаутентичный детектор бумаги от Университета Индианы Школы информатики