Проблема Сканторпа
Проблема Сканторпа заключается в непреднамеренной блокировке онлайн-контента спам-фильтром или поисковой системой , поскольку их текст содержит строку (или подстроку ) букв, которые имеют непристойное или иное неприемлемое значение. Имена, сокращения и технические термины чаще всего упоминаются как затронутые проблемой.
Проблема возникает, поскольку компьютеры могут легко идентифицировать строки текста внутри документа, но интерпретация слов такого рода требует значительных способностей интерпретировать широкий спектр контекстов , возможно, во многих культурах , что является чрезвычайно сложной задачей. В результате широкие правила блокировки могут привести к ложным срабатываниям, затрагивающим многие невинные фразы.
Этимология и происхождение
[ редактировать ]Проблема была названа в честь инцидента, произошедшего в 1996 году, когда фильтр ненормативной лексики AOL не позволил жителям города Сканторп , Северный Линкольншир , Англия, создавать учетные записи в AOL, поскольку название города содержит подстроку « cunt ». [ 1 ] В начале 2000-х годов Google включенные в фильтры безопасного поиска допустили ту же ошибку: местные службы и предприятия включали Сканторп в свои названия или URL-адреса в число тех, которые по ошибке были исключены из результатов поиска. [ 2 ]
Обходные пути
[ редактировать ]Проблему Сканторпа сложно полностью решить из-за сложности создания фильтра, способного понимать слова в контексте. [ 3 ] [ 4 ]
Одним из решений является создание белого списка известных ложных срабатываний. Любое слово, появляющееся в белом списке, может быть проигнорировано фильтром, даже если оно содержит текст, который в противном случае был бы запрещен. [ 5 ]
Другие примеры
[ редактировать ]К ошибочным решениям фильтров непристойности относятся:
Отказ в регистрации доменных имен и учетных записей
[ редактировать ]- В апреле 1998 года Джефф Голд попытался зарегистрировать доменное имя Shitakemushrooms.com, но из-за подстроки Shit он был заблокирован фильтром InterNIC, запрещающим « семь грязных слов ». [ 6 ] ( Шиитаке , также обычно пишется ситаке , — японское название съедобного гриба Lentinula edodes .)
- В 2000 году в репортаже канадского телевидения о программном обеспечении веб-фильтрации было обнаружено, что веб-сайт Городского сообщества Монреаля ( Communauté Urbaine de Montréal , на французском языке) был полностью заблокирован, поскольку его доменное имя представляло собой французскую аббревиатуру CUM (www.cum.qc.ca ). ); [ 7 ] « сперма » (среди других значений) — это вульгарный жаргонный термин в английском языке, обозначающий сперму .
- В феврале 2004 года в Шотландии Крейг Кокберн сообщил, что он не может использовать свою фамилию (произносится «Коберн», IPA : / ˈkoʊbərn / ) с Hotmail , поскольку она содержит подстроку « cock » , сленговое слово, обозначающее пенис . Кроме того, у него были проблемы с электронной почтой на рабочем месте, поскольку его должность «специалист по программному обеспечению » содержала подстроку «Сиалис» , — лекарство от эректильной дисфункции обычно упоминаемое в спам -сообщениях. Первоначально Hotmail посоветовал ему написать свое имя C0ckburn (с нулем вместо буквы «о»), но позже отменил запрет. [ 8 ] В 2010 году у него возникла аналогичная проблема при регистрации на сайте BBC, где первые четыре символа его фамилии снова вызвали проблему с фильтром контента. [ 9 ]
- В феврале 2006 года Линде Каллахан первоначально не разрешили зарегистрировать свое имя на Yahoo! как адрес электронной почты, поскольку он содержал подстроку «Allah» . Yahoo! позже отменил запрет. [ 10 ]
- В июле 2008 года Герман И. Либшиц не смог зарегистрировать адрес электронной почты, содержащий его имя, в Verizon, поскольку его фамилия содержала подстроку «shit» , и Verizon первоначально отклонил его запрос на исключение. В последующем заявлении представительница Verizon извинилась за то, что не утвердила желаемый адрес электронной почты. [ 11 ]
Заблокированный поиск в Интернете
[ редактировать ]- В месяцы, предшествовавшие январю 1996 года, некоторые поисковые запросы по Суперкубку XXX в Интернете фильтровались, поскольку римская цифра , обозначающая игру и сайт (XXX), также использовалась для идентификации порнографии . [ 12 ]
- Гарет Рулофс, веб-дизайнер RomansInSussex.co.uk , отметил в 2004 году: «Мы обнаружили, что многие библиотечные сетевые станции, школьные сети и интернет-кафе блокируют сайты со словом «секс» в доменном имени. Это было проблемой для RomansInSussex. co.uk, потому что его целевая аудитория — школьники». [ 2 ]
- В 2008 году фильтр бесплатной беспроводной связи города Факатане в Новой Зеландии заблокировал поисковые запросы, включающие собственное название города, поскольку фонетический анализ фильтра посчитал, что слово «вхак» звучит как черт ; Название города написано на языке маори, а на языке маори «wh» чаще всего произносится / f / . фильтра Впоследствии город внес название города в белый список . [ 13 ]
- В июле 2011 года поиск в Интернете по имени Цзян был заблокирован после того, как на сайте микроблогов Weibo бывшего генерального секретаря Коммунистической партии Китая (КПК) Цзян Цзэминь появились сообщения о смерти . Поскольку слово «Цзян», означающее «река», написано тем же китайским иероглифом ( 江 ), поисковые запросы, связанные с реками, включая Янцзы ( Чан Цзян ), выдали сообщение: «Согласно соответствующим законам, постановлениям и политике, результаты этот поиск не может быть отображен». [ 14 ]
- В феврале 2018 года веб-поиск на торговой платформе Google был заблокирован по таким товарам, как клеевые пистолеты , Guns N' Roses и бургундское вино , после того как Google поспешно исправил свою поисковую систему, которая отображала результаты для оружия и аксессуаров, нарушающих заявленную политику Google. [ 15 ]
Заблокированные электронные письма
[ редактировать ]- В 2001 году Yahoo! Mail представил фильтр электронной почты , который автоматически заменял строки, связанные с JavaScript , альтернативными версиями, чтобы предотвратить возможность создания межсайтовых сценариев в электронной почте в формате HTML . Фильтр переносит термины «JavaScript», « JScript », « VBScript » и « LiveScript »; и заменил слова « eval », «mocha» и « expression » похожими, но не совсем синонимичными терминами «обзор», «эспрессо» и «заявление» соответственно. При написании фильтров использовались допущения: не было предпринято никаких попыток ограничить эти замены строк разделами и атрибутами сценария или соблюдать границы слов, на случай, если это оставит некоторые лазейки открытыми. Это привело к таким ошибкам, как medireview вместо средневекового . [ 16 ] [ 17 ] [ 18 ]
- В феврале 2003 года члены парламента Британской палаты общин обнаружили, что новый спам-фильтр блокирует электронные письма, содержащие ссылки на законопроект о сексуальных преступлениях, который тогда обсуждался, а также некоторые сообщения, относящиеся к консультативному документу либерал-демократов о цензуре. [ 19 ] Он также заблокировал электронные письма, отправленные на валлийском языке, поскольку не распознавал этот язык. [ 20 ]
- В октябре 2004 года сообщалось, что Музей Хорнимана в Лондоне не получал часть своей электронной почты, поскольку фильтры ошибочно интерпретировали его название как версию слова « возбужденный мужчина » . [ 21 ]
Заблокировано для слов с несколькими значениями
[ редактировать ]- В октябре 2004 года электронные письма с рекламой пантомимы «Дик Уиттингтон» , отправленные в школы Великобритании, были заблокированы школьными компьютерами из-за использования имени «Дик» , которое иногда использовалось как сленговое обозначение « пенис» . [ 22 ]
- В мае 2006 года мужчина из Манчестера в Великобритании обнаружил, что электронные письма, которые он написал в местный совет с жалобой на заявку на планирование, были заблокированы, поскольку в них содержалось слово «эрекция» при упоминании конструкции. [ 23 ]
- Заблокированные электронные письма и поиск в Интернете, касающиеся The Beaver журнала , базирующегося в Виннипеге , заставили издателя изменить свое название на Canada's History в 2010 году, после 89 лет публикации. [ 24 ] [ 25 ] Издатель Дебора Моррисон прокомментировала: «Еще в 1920 году «Бобер » было совершенно подходящим именем. И хотя в другом его значении [ вульва ] нет ничего нового, с развитием Интернета его двусмысленность стала представлять собой совершенно новую проблему. препятствие нашему росту». [ 26 ]
- В июне 2010 года Twitter заблокировал пользователя из Люксембурга через 29 минут после того, как он открыл свою учетную запись и опубликовал свой первый твит. Твит гласил: «Наконец-то! Пара отличных синиц ( Parus major ) переехала в мой скворечник!» Несмотря на использование латинского названия, чтобы указать на то, что твит был о птицах, любые попытки разблокировать аккаунт оказались тщетными. [ 27 ]
- В 2011 году член совета в Дадли обнаружил электронное письмо, помеченное программным обеспечением безопасности его совета как ненормативную лексику после упоминания «Черная страна» блюда фрикаделек разновидность ( , но также уничижительный термин для геев ). [ 28 ]
- Жителям Пенистоуна в Южном Йоркшире заблокировали электронную почту, поскольку в названии города есть подстрока penis . [ 29 ]
- Жители Клитеро ( Ланкашир , Англия) неоднократно испытывали неудобства из-за того, что в названии их города есть подстрока clit , что является сокращением от « клитор ». [ 30 ]
- Резюме, содержащие ссылки на получение диплома с отличием на латыни , например, cum laude , magna cum laude и summa cum laude , были заблокированы спам-фильтрами из-за включения слова cum , которое на латыни означает с (в данном случае), но иногда используется. как сленговое обозначение спермы или эякуляции в английском языке. [ 31 ]
Новостные статьи
[ редактировать ]- В июне 2008 года новостной сайт, управляемый против ЛГБТ лоббистской группой , Американская семейная ассоциация, отфильтровал статью Associated Press о спринтере Тайсоне Гее , заменив слова «гей» на « гомосексуалист », таким образом превратив его имя в «Тайсон-гомосексуалист». [ 32 ] [ 33 ] Эта же функция ранее изменила имя баскетболиста Руди Гэя на «Руди Гомосексуалист». [ 34 ]
- Слово или строку «ass» можно заменить на «butt», в результате чего получится «clbuttic» для «классического», «buttignment» для «назначения» и «buttbuttinate» для «убийства». [ 35 ]
Видеоигры
[ редактировать ]- В 2008 году Microsoft подтвердила, что ее политика по предотвращению использования слов, касающихся сексуальной ориентации, привела к тому, что имя Ричарда Гейвуда было сочтено оскорбительным и не могло использоваться в его «теге игрока» или в поле «Настоящее имя» его биографии. [ 36 ]
- В 2011 году в выпуске Pokémon Black and White был представлен Cofagrigus , которым нельзя было обмениваться онлайн с другими игроками без ника, поскольку его видовое название содержало подстроку fag . С тех пор система была обновлена, чтобы позволить игрокам торговать ею без псевдонимов. Та же проблема возникла с Nosepass , Probopass и Froslass из-за включения в них подстроки ass . [ 37 ]
- Сообщается, что в январе 2014 года файлы, используемые в онлайн-игре League of Legends, были заблокированы фильтрами некоторых британских интернет-провайдеров из-за имен «VarusExpirationTimer .luaobj » и «XerathMageChainsExtended.luaobj», которые содержат подстроку sex . Позже это было исправлено. [ 38 ]
- В августе 2024 года обновление фильтра ненормативной лексики в No Man's Sky запретило игрокам загружать базы, расположенные в Галактике 18. Название галактики, Rerasmutul , содержит подстроку smut , слово, которое может относиться к явно выраженным сексуальным выражениям или материалам. Другой игровой контент также вёл себя неожиданно, возможно, из-за неспособности игры правильно обработать название галактики. [ 39 ]
Другой
[ редактировать ]- В 2013 году передача файлов, названная в честь шведского города Фалунь, привела к сбоям в подключении к Интернету у компании Diakrit, базирующейся в Китае. Диакрит решил проблему, переименовав файлы. Фредрик Бергман из Diakrit считает, что названия файлов спровоцировали действия цензоров Великого файрвола , которые блокировали обсуждение Фалуньгун , запрещенного религиозного движения, основанного в Китае. [ 40 ]
- В ноябре 2013 года Facebook временно заблокировал британских пользователей за использование слова «педик» в отношении одноименного традиционного блюда . [ 41 ]
- В мае 2018 года на сайте продуктового магазина Publix не разрешали заказать торт, содержащий латинскую фразу summa cum laude . Клиент попытался решить проблему, включив специальные инструкции, но в итоге получил торт с надписью «Summa --- Laude». [ 42 ] [ 43 ]
- В мае 2020 года, несмотря на пристальное внимание СМИ, некоторые хэштеги, напрямую относящиеся к британскому политическому советнику Доминику Каммингсу, не смогли стать трендами в Твиттере, поскольку подстрока «сперма» активировала антипорнофильтр. [ 44 ]
- В октябре 2020 года платформа виртуальных встреч палеонтологической конференции заблокировала различные слова, включая «кость», « лобковый » и «поток». [ 45 ]
- В январе 2021 года Facebook извинился за отключение звука и блокировку пользователей после того, как ошибочно пометил достопримечательность Девона Plymouth Hoe как женоненавистническую. [ 46 ]
- В апреле 2021 года официальная страница Французской коммуны Битче в Facebook была закрыта. В ответ власти коммуны создали новую страницу со ссылкой на почтовый индекс Mairie 57230 . Позже Facebook извинился и восстановил исходную страницу. В качестве меры предосторожности руководство Рорбах-ле-Битш переименовало свою страницу в Facebook в Ville de Rohrbach . [ 47 ] [ 48 ]
См. также
[ редактировать ]- Цензура Google
- Эффект Купертино – программная ошибка в программе проверки орфографии.
- Ложное срабатывание — типы ошибок в двоичной классификации.
- Предиктивный ввод текста – технология ввода для клавиатур мобильных телефонов
- Ребрекетинг - Процесс в исторической лингвистике
- Обнаружение спама — методы предотвращения спама в электронной почте.
- Wordfilter – скрипт, используемый для цензуры слов или фраз в Интернете.
Ссылки
[ редактировать ]- ^ Клайв Физер (25 апреля 1996 г.). Питер Г. Нойман (ред.). «AOL подвергает цензуре название британского города!» . Дайджест рисков . 18 (7).
- ^ Перейти обратно: а б МакКаллах, Деклан (23 апреля 2004 г.). «Пояс верности Google слишком туго затянут» . CNET . Архивировано из оригинала 16 июня 2011 года.
- ^ Оберхаус, Дэниел (29 августа 2018 г.). «Жизнь в Интернете трудна, когда твоя фамилия «Баттс» » . Порок . Проверено 31 июля 2022 г.
- ^ Джеллис, Кэти (31 августа 2018 г.). «Проблема Сканторпа и почему ИИ не является серебряной пулей для масштабной модерации контента платформы» . Техдирт . Проверено 31 июля 2022 г.
- ^ Вил, Тони (2021). Ваше остроумие — моя команда: создание ИИ с чувством юмора . МТИ Пресс. п. 231. ИСБН 978-0-262-04599-5 . OCLC 1221016857 .
- ^ Феста, Пол (27 апреля 1998 г.). «Продовольственная сфера признана «непристойной» » . Новости.com . Архивировано из оригинала 10 мая 2020 года.
- ^ «Фуар дополнительных вопросов» . радио-канада.ca. Архивировано из оригинала 21 октября 2012 года . Проверено 24 февраля 2011 г.
- ^ Баркер, Гарри (26 февраля 2004 г.). «Как мистер Кокберн боролся со спамом» . Сидней Морнинг Геральд . Архивировано из оригинала 3 сентября 2009 года.
- ^ Кокберн, Крейг (9 марта 2010 г.). «Би-би-си не удалась – мое правильное имя не разрешено» . blog.siliconglen.com . Архивировано из оригинала 30 сентября 2020 года.
- ^ «Является ли Yahoo запрещающим Аллаха?» . Место Каллахара. Архивировано из оригинала 14 января 2016 года . Проверено 24 февраля 2011 г.
- ^ Рубин, Дэниел. «Когда твое имя обернется против тебя» . Филадельфийский исследователь . Архивировано из оригинала 5 августа 2008 года . Проверено 3 августа 2008 г.
- ^ «Электронная ставка и фильтрация: обзор Закона о защите детей в Интернете» . Слушания в Конгрессе. Общий. Энергетика и торговля, Подкомитет по телекоммуникациям и Интернету. 4 апреля 2001 г.
- ^ «Название города F-Word подвергается цензуре интернет-фильтром» . Архивировано из оригинала 1 декабря 2008 года . Проверено 27 июля 2011 г.
{{cite news}}
: CS1 maint: bot: исходный статус URL неизвестен ( ссылка ) - ^ Чин, Джош (6 июля 2011 г.). «После слухов о смерти Цзяна в Китае пропадают реки» . Уолл Стрит Джорнал . Архивировано из оригинала 13 августа 2011 года.
- ^ Моллой, Марк (27 февраля 2018 г.). «Любители вина не могут купить бургундский напиток в Google, поскольку интернет-гигант ужесточает поиск по запросу «оружие» . Телеграф . Архивировано из оригинала 2 марта 2018 года . Проверено 27 февраля 2018 г.
- ^ «Yahoo признает, что искажал электронную почту» . Новости Би-би-си . 19 июля 2002 г. Архивировано из оригинала 26 января 2021 г. Проверено 21 июня 2013 г.
- ^ «Тяжелые новости» . Нужно знать 12 июля 2002 г. 12 июля 2002 года . Проверено 21 июня 2013 г.
- ^ Найт, Уилл (15 июля 2002 г.). «Фильтр безопасности электронной почты порождает новые слова» . Новый учёный . Архивировано из оригинала 24 сентября 2020 года . Проверено 21 июня 2013 г.
- ^ «Проверка электронной почты блокирует дебаты депутатов о сексе» . Новости Би-би-си . 4 февраля 2003 г. Архивировано из оригинала 4 февраля 2021 г.
- ^ «Программное обеспечение блокирует валлийскую электронную почту депутатов» . Новости Би-би-си . 5 февраля 2003 г. Архивировано из оригинала 4 февраля 2021 г.
- ^ Квинтнер, Адриан (5 октября 2004 г.). «Название музея путают с порно» . Новости Покупатель .
- ^ Джонс, Сэм (13 октября 2004 г.). «Электронная почта Panto не попадает в фильтр грязи» . Хранитель . Архивировано из оригинала 4 февраля 2021 года.
- ^ «Фильтр электронной почты блокирует «эрекцию» » . 30 мая 2006 г. Архивировано из оригинала 4 февраля 2021 г.
- ^ «Журнал Beaver переименован, чтобы положить конец путанице с порно» . Сидней Морнинг Геральд . Агентство Франс-Пресс . 13 января 2010 г. Архивировано из оригинала 9 ноября 2020 г. . Проверено 24 февраля 2021 г.
- ^ Остин, Ян (24 января 2010 г.). «Веб-фильтры вызывают изменение названия журнала» . Нью-Йорк Таймс . Архивировано из оригинала 9 ноября 2020 года . Проверено 24 февраля 2021 г.
- ^ Ширин, Джуд (29 марта 2010 г.). «Как спам-фильтры определили судьбу канадского журнала» . Новости Би-би-си . Архивировано из оригинала 16 января 2021 года.
- ^ «Новый пользователь Twitter из Люксембурга заблокирован через 29 минут» [новый пользователь Twitter из Люксембурга заблокирован через 29 минут]. Тагеблатт (на немецком языке). 22 июня 2010 г. Проверено 12 июня 2010 г. [ мертвая ссылка ]
- ^ «Черный сельский советник попал в фарс с пидорами» . Бирмингемская почта . 24 февраля 2011 г.
- ^ Том Чатфилд (17 апреля 2013 г.). «10 лучших слов, которые Интернет дал английскому языку» . Хранитель .
- ^ Киз, Ральф (2010). Неупомянутое: от семейных драгоценностей к дружественному огню – что мы говорим, а не то, что имеем в виду . Джон Мюррей. ISBN 978-1-84854-456-7 .
- ^ Махер, Крис. «Не позволяйте спам-фильтрам украсть ваше резюме» . Карьерный журнал . Архивировано из оригинала 23 октября 2006 года . Проверено 11 февраля 2008 г.
- ^ Фрауэнфельдер, Марк (30 июня 2008 г.). «Гомофобский новостной сайт меняет спортсмена Тайсона Гея на Тайсона-гомосексуалиста» . Боинг-Боинг . Архивировано из оригинала 4 февраля 2021 года.
- ^ Артур, Чарльз (30 июня 2008 г.). «Компьютер автоматически исправляет фамилию «гей» на… нет, кажется» . Хранитель . Архивировано из оригинала 13 ноября 2020 года.
- ^ Мантила, Кайл (30 июня 2008 г.). «Опасности автозамены» . Правый Дозор . Люди за американский путь . Архивировано из оригинала 25 октября 2020 года . Проверено 24 февраля 2021 г.
- ^ Мур, Мэтью (2 сентября 2008 г.). «Классическая ошибка: когда фильтры непристойности идут не так» . Телеграф . Архивировано из оригинала 23 февраля 2020 года.
- ^ «Microsoft подтверждает, что «Гейвуд» — оскорбительная фамилия, отвечает г-н Гейвуд» . Май 2008 г. Архивировано из оригинала 9 ноября 2012 г.
- ^ Китинг, Лорен (17 февраля 2016 г.). «Эти слова цензоры Nintendo не должны появляться на 3DS» . Тех Таймс . Проверено 14 ноября 2023 г.
- ^ Гиббс, Сэмюэл (21 января 2014 г.). «Британский порнофильтр блокирует обновление игры, содержащее слово «секс» » . Хранитель . Лондон. Архивировано из оригинала 11 ноября 2020 года.
- ^ «Имя Галактики 18 Рерасмутул отклонено фильтром ненормативной лексики» . Реддит . Август 2024.
- ^ Мозур, Пол; Техада, Карлос (13 февраля 2013 г.). «Китайская стена ударила по бизнесу» . Уолл Стрит Джорнал . Архивировано из оригинала 10 сентября 2013 года . Проверено 25 мая 2013 г.
- ^ «Фиготы и горох недовольны цензорами Facebook» . Экспресс и Стар . Ноябрь 2013 г. Архивировано из оригинала 10 мая 2020 г.
- ^ Фергюсон, Эмбер (22 мая 2018 г.). «Гордая мама заказывает торт «Summa Cum Laude» онлайн. Publix его цензурирует: Summa… Laude» . Вашингтон Пост . Архивировано из оригинала 22 мая 2018 года . Проверено 22 мая 2018 г.
{{cite news}}
: CS1 maint: bot: исходный статус URL неизвестен ( ссылка ) - ^ Аматулли, Дженна (22 мая 2018 г.). «Выпускной торт для подростков Publix Censors «Summa Cum Laude»» . Хаффингтон Пост . Архивировано из оригинала 5 сентября 2018 года.
- ^ Херн, Алекс (27 мая 2020 г.). «Антипорнофильтры мешают Доминику Каммингсу стать трендом в Твиттере» . Хранитель . Архивировано из оригинала 20 февраля 2021 года.
- ^ Феррейра, Бекки (15 октября 2020 г.). «Фильтр ненормативной лексики запретил слово «кость» на палеонтологической конференции» . Материнская плата . Архивировано из оригинала 23 февраля 2021 года.
- ^ Моррис, Стивен (27 января 2021 г.). «Facebook приносит извинения за то, что назвал «Плимут Хоу» оскорбительным термином» . Хранитель . Архивировано из оригинала 29 января 2021 года.
- ^ Кемпф, Седрик (12 апреля 2021 г.). «Необычно: Сука подвергается цензуре в Facebook» . Радио Мелоди (на французском языке).
- ^ Дарманен, Жюль (13 апреля 2021 г.). «Facebook удалил официальную страницу французского города Битче » ПОЛИТИКА . Проверено 3 июля 2021 г.