Jump to content

Структурный майнинг

(Перенаправлено с Graph Mining )

Интеллектуальный анализ структур или интеллектуальный анализ структурированных данных — это процесс поиска и извлечения полезной информации из полуструктурированных наборов данных. Анализ графов, последовательный анализ шаблонов и анализ молекул являются особыми случаями интеллектуального анализа структурированных данных. [ нужна ссылка ] .

Описание

[ редактировать ]

Рост использования полуструктурированных данных создал новые возможности для интеллектуального анализа данных, который традиционно был связан с наборами табличных данных, что отражает тесную связь между интеллектуальным анализом данных и реляционными базами данных . Большую часть интересных и пригодных для анализа данных в мире нелегко перенести в реляционные базы данных, хотя поколение инженеров-программистов было обучено верить, что это единственный способ обработки данных, а алгоритмы интеллектуального анализа данных обычно разрабатываются только для работы с табличными данными. .

XML , являющийся наиболее распространенным способом представления полуструктурированных данных, способен представлять как табличные данные, так и произвольные деревья. Любое конкретное представление данных, которыми должны обмениваться два приложения в XML, обычно описывается схемой, часто написанной в XSD . Практические примеры таких схем, например NewsML , обычно очень сложны и содержат несколько необязательных поддеревьев, используемых для представления данных особого случая. Часто около 90% схемы посвящено определению этих дополнительных элементов данных и поддеревьев.

Таким образом, сообщения и данные, которые передаются или кодируются с использованием XML и соответствуют одной и той же схеме, могут содержать очень разные данные в зависимости от того, что передается.

Такие данные представляют собой большие проблемы для обычного интеллектуального анализа данных. Два сообщения, соответствующие одной и той же схеме, могут иметь мало общих данных. Построение обучающего набора на основе таких данных означает, что если попытаться отформатировать его как табличные данные для обычного интеллектуального анализа данных, большие разделы таблиц были бы или могли бы оказаться пустыми.

При разработке большинства алгоритмов интеллектуального анализа данных делается негласное предположение, что представленные данные будут полными. Другая необходимость заключается в том, что используемые алгоритмы майнинга, контролируемые или неконтролируемые, должны быть способны обрабатывать разреженные данные. А именно, алгоритмы машинного обучения плохо работают с неполными наборами данных, в которые предоставляется только часть информации. Например, методы, основанные на нейронных сетях . [ нужна ссылка ] или Росса Куинлана алгоритм ID3 . [ нужна ссылка ] очень точны при работе с хорошими и репрезентативными выборками задачи, но плохо работают с предвзятыми данными. В большинстве случаев достаточно лучшего представления модели с более тщательным и беспристрастным представлением входных и выходных данных. Особенно актуальной областью, где ключевым вопросом является поиск подходящей структуры и модели, является интеллектуальный анализ текста .

XPath — это стандартный механизм, используемый для обращения к узлам и элементам данных в XML. Он имеет сходство со стандартными методами навигации по иерархии каталогов, используемыми в пользовательских интерфейсах операционных систем. Для анализа и структурирования XML-данных любой формы требуется как минимум два расширения для обычного интеллектуального анализа данных. Это возможность связать оператор XPath с любым шаблоном данных и подинструкциями с каждым узлом данных в шаблоне данных, а также возможность определить наличие и количество любого узла или набора узлов в документе.

Например, если бы кто-то представлял генеалогическое древо в XML, используя эти расширения, можно было бы создать набор данных, содержащий все отдельные узлы в дереве, такие элементы данных, как имя и возраст на момент смерти, а также количество связанных узлов, таких как как количество детей. Более сложные поиски могут помочь получить такие данные, как продолжительность жизни бабушек и дедушек и т. д.

Добавление этих типов данных, связанных со структурой документа или сообщения, облегчает анализ структуры.

См. также

[ редактировать ]
  • Эндрю Н. Эдмондс, О древовидной структуре данных в XML , Конференция по интеллектуальному анализу данных в Великобритании, Ноттингемский университет, август 2003 г.
  • Гасфилд Д., Алгоритмы для строк, деревьев и последовательностей: информатика и вычислительная биология , Cambridge University Press, 1997 . ISBN   0-521-58519-8
  • Р.О. Дуда, П.Е. Харт, Д.Г. Сторк, Классификация моделей , John Wiley & Sons, 2001 . ISBN   0-471-05669-3
  • Ф. Хаджик, Х. Тан, Т. С. Диллон, Анализ данных со сложными структурами, Springer, 2010 . ISBN   978-3-642-17556-5
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: fb40f8d4cdf5f4cfbed58afec9fc1796__1713642600
URL1:https://arc.ask3.ru/arc/aa/fb/96/fb40f8d4cdf5f4cfbed58afec9fc1796.html
Заголовок, (Title) документа по адресу, URL1:
Structure mining - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)