Jump to content

Формат Ньюика

Формат Ньюика
Расширения имен файлов .tree
Тип интернет-СМИ text/x-nh
Первоначальный выпуск 24 июня 1986 г. (38 лет назад) ( 1986-06-24 )
Тип формата деревья теории графов
Открытый формат ? Да

В математике и формат филогенетике дерева Ньюика (или нотация Ньюика или формат дерева Нью-Гэмпшира ) — это способ представления теоретико-графовых деревьев с длинами ребер с использованием круглых скобок и запятых. Его приняли Джеймс Арчи, Уильям Х.Э. Дэй, Джозеф Фельзенштейн , Уэйн Мэддисон , Кристофер Мичем, Ф. Джеймс Рольф и Дэвид Суоффорд на двух встречах в 1986 году, вторая из которых состоялась в ресторане Ньюика. [1] в Дувре , Нью-Гэмпшир, США. Принятый формат является обобщением формата, разработанного Мичемом в 1984 году для первых программ рисования деревьев в пакете PHYLIP Фельзенштейна . [2]

Следующее дерево:

может быть представлен в формате Ньюика несколькими способами

(,,(,));                               no nodes are named
(A,B,(C,D));                           leaf nodes are named
(A,B,(C,D)E)F;                         all nodes are named
(:0.1,:0.2,(:0.3,:0.4):0.5);           all but root node have a distance to parent
(:0.1,:0.2,(:0.3,:0.4):0.5):0.0;       all have a distance to parent
(A:0.1,B:0.2,(C:0.3,D:0.4):0.5);       distances and leaf names (popular)
(A:0.1,B:0.2,(C:0.3,D:0.4)E:0.5)F;     distances and all names
((B:0.2,(C:0.3,D:0.4)E:0.5)F:0.1)A;    a tree rooted on a leaf node (rare)

Формат Ньюика обычно используется для таких инструментов, как PHYLIP , и является минимальным определением филогенетического дерева .

Корневые, некорневые и бинарные деревья.

[ редактировать ]

Когда некорневое дерево представлено в нотации Ньюика, в качестве его корня выбирается произвольный узел. Независимо от того, корневое или некорневое, представление дерева обычно основано на внутреннем узле, и корневое дерево редко (но законно) размещается на листовом узле.

Корневое двоичное дерево , корнем которого является внутренний узел, имеет ровно два узла-потомка для каждого внутреннего узла. Некорневое двоичное дерево, корнем которого является произвольный внутренний узел, имеет ровно три узла-потомка для корневого узла, а каждый второй внутренний узел имеет ровно два узла-потомка. Бинарное дерево, корнем которого является лист, имеет не более одного узла-потомка для корневого узла, а каждый внутренний узел имеет ровно два узла-потомка.

Грамматика

[ редактировать ]

Грамматика для анализа формата Ньюика (примерно на основе [3] ):

Грамматические узлы

[ редактировать ]
Tree: The full input Newick Format for a single tree
Subtree: an internal node (and its descendants) or a leaf node
Leaf: a node with no descendants
Internal: a node and its one or more descendants
BranchSet: a set of one or more Branches
Branch: a tree edge and its descendant subtree.
Name: the name of a node
Length: the length of a tree edge.

Грамматические правила

[ редактировать ]

Обратите внимание, "|" разделяет альтернативы.

TreeSubtree ";"
SubtreeLeaf | Internal
LeafName
Internal → "(" BranchSet ")" Name
BranchSetBranch | Branch "," BranchSet
BranchSubtree Length
Nameempty | string
Lengthempty | ":" number

Пробелы (пробелы, табуляции, возвраты каретки и переводы строк) внутри номера запрещены. Пробелы внутри строки часто запрещены. Пробелы в других местах игнорируются. Иногда имени строка должна иметь указанную фиксированную длину; в противном случае символы пунктуации из грамматики (точка с запятой, круглые скобки, запятая и двоеточие) запрещены. Дерево " Поддерево "; вместо этого производством является Дерево Ветка ";" производство в тех случаях, когда допускается появление всего дерева из ниоткуда; это также фиксирует замененную продукцию, поскольку длина может быть пустой .

Обратите внимание, что когда дерево, имеющее более одного листа, основано на одном из его листьев (представление, которое редко встречается на практике), корневой лист характеризуется как внутренний узел в соответствии с приведенной выше грамматикой. Как правило, корневой узел, помеченный как Internal, должен рассматриваться как фактически внутренний тогда и только тогда, когда он имеет по крайней мере два Branch в своем BranchSet . Можно создать грамматику, которая формализует это различие, заменив приведенное выше правило создания дерева на

TreeRootLeaf ";" | RootInternal ";"
RootLeafName | "(" Branch ")" Name
RootInternal → "(" Branch "," BranchSet ")" Name

Первое производство RootLeaf предназначено для дерева, имеющего ровно один лист. Второе производство RootLeaf предназначено для укоренения дерева из одного из двух или более листьев.

Примечания

[ редактировать ]
  • Некотируемый Строка не может содержать пробелы, круглые, квадратные скобки, одинарные кавычки, двоеточия, точки с запятой или запятые. Подчеркивание символов без кавычек string . преобразуются в пробелы [3]
  • А Строку также можно заключить в одинарные кавычки. Одинарные кавычки в исходной строке представлены как два последовательных символа одинарных кавычек. [3]
  • Пробелы могут встречаться где угодно, кроме не заключенного в кавычки. строка или Длина
  • Новые строки могут появляться где угодно, кроме строка или Длина .
  • Комментарии заключаются в квадратные скобки. Они могут появляться везде, где разрешены символы новой строки. [3] Комментарии, начинающиеся с & обычно генерируются компьютером для получения дополнительных данных. Некоторые диалекты допускают вложенные комментарии.

Диалекты

[ редактировать ]

Формат Нью-Гэмпшир X

[ редактировать ]

Формат New Hampshire X (NHX) — это расширение Newick, которое добавляет данные «ключ-значение» (дублирование генов и т. д.) к узлам Newick. Это делается путем помещения дополнительных данных в скобки. [&&NHX:key=value:...] в метках узлов. Скобки используются, поскольку они представляют комментарии в формате файла Nexus , поэтому любой синтаксический анализатор, не понимающий эту дополнительную информацию, будет их игнорировать. [4]

Расширенный Ньюик

[ редактировать ]

Хотя стандартная нотация Ньюика ограничена филогенетическими деревьями, расширенная нотация Ньюика (Perl Bio::PhyloNetwork) может использоваться для кодирования явных филогенетических сетей. [5] В филогенетической сети , которая является обобщением филогенетического дерева , узел представляет либо событие дивергенции ( кладогенез ), либо событие ретикуляции, такое как гибридизация , интрогрессия , горизонтальный (латеральный) перенос генов или рекомбинация . Узлы, представляющие событие ретикуляции, дублируются, помечаются символом # в формате Ньюика и последовательно нумеруются (с использованием целочисленных значений, начинающихся с 1).

Например, если лист Y является продуктом гибридизации (x) между линиями, ведущими к C и D в дереве выше,

Пример филогенетической сети

ж

А

Б

и
с

С

И

Д

ж

А

Б

и

С

д

И

Д

Два дерева в стандартном Ньюике

эту ситуацию можно выразить, определив два дерева в стандартной нотации Ньюика.

(A,B,((C,Y)c,D)e)f; and (A,B,(C,(Y,D)d)e)f;  standard Newick, all nodes are named (internal nodes lowercase, leaves upper case)                      

или в расширенной нотации Ньюика

(A,B,((C,(Y)x#H1)c,(x#H1,D)d)e)f;               extended Newick, all nodes are named; 1 is the integer identifying the hybrid node x

The x#H1 вот гибридный узел. При рисовании он будет объединен программой в один узел. Это изображение, нарисованное Dendroscope для этого примера: Сеть, нарисованная дендроскопом


Приведенные выше правила производства изменены следующим образом для маркировки гибридных узлов (как правило, узлов, представляющих события ретикуляции): [6]

LeafName Hybrid
Hybridempty | "#" Type integer  -- The #i part is an obligatory identifier for a hybrid node
Typeempty | string              -- type of reticulation, e.g., H = hybridisation, LGT = lateral gene transfer, R = recombination.

При визуализации событий LGT для данного сетчатого узла одно входящее ребро обычно рисуется как «акцепторное», а все остальные входящие ребра рисуются как «переносные». Некоторые программы (например, Dendroscope и SplitsTree ) позволяют пометить ровно одну копию сетчатого узла значком. ## чтобы указать, что он соответствует акцепторному краю.

Расширенный Newick обратно совместим: гибридный узел будет просто интерпретироваться как несколько узлов со странными именами для устаревших анализаторов.

Формат Рича Ньюика

[ редактировать ]

Формат Рича Ньюика, также известный как формат Райса Ньюика, является дальнейшим расширением Расширенного Ньюика. [7] Он добавляет поддержку:

  • Неукорененные филогении. Это просто делается путем написания некорневого дерева, как обычно (т. е. выбора произвольного корня в бинарной точке ветвления) и добавления префикса [&U] к строке. [&R], с другой стороны, можно использовать для принудительного укоренения дерева.
  • Бутстрап-значения и вероятности. Это достигается добавлением дополнительных :[bootstrap]:[prob] поля после длины; поля можно оставить пустыми, пока присутствуют двоеточия. Это может быть обратно несовместимо.

Специальные расширения

[ редактировать ]

Некоторые другие программы, например NWX, используют комментарии, начинающиеся с & для кодирования дополнительной информации специальным образом: [8]

  • MrBayes и BEAST добавляют в узлы дополнительную информацию, такую ​​как вероятность, продолжительность в годах, стандартное отклонение значений. Они также используют [%U].

Визуализация

[ редактировать ]

Для визуализации данных дерева Ньюика было опубликовано множество инструментов. Конкретные примеры включают набор инструментов ETE («Среда для исследования деревьев»). [9] и Т-РЕКС . [10] Пакеты филогенетического программного обеспечения, такие как SplitsTree и программа просмотра деревьев Dendroscope , а также онлайн-инструмент просмотра деревьев IcyTree, могут обрабатывать стандартную и расширенную нотацию Ньюика, в то время как филогенетическое сетевое программное обеспечение PhyloNet использует форматы Extended Newick и Rich Newick.

См. также

[ редактировать ]
  • филоXML
  • T-REX (веб-сервер) позволяет работать с филогенетическими деревьями и сетями в формате Ньюика.
  • Формат Smart Game — это приложение формата Newick, широко используемое для записи настольных игр.
  1. ^ Домашняя страница Newick's Lobster House
  2. ^ «Формат дерева Ньюика» .
  3. ^ Jump up to: а б с д Олсен, Гэри (30 августа 1990 г.). «Интерпретация древовидного формата Ньюика 8:45» .
  4. ^ Змасек, Кристиан М. (1999). «Формат X Нью-Гэмпшира (NHX)» (PDF) .
  5. ^ Кардона, Габриэль; Росселло, Франческ; Валиенте, Габриэль (27 марта 2008 г.). «Пакет Perl и инструмент выравнивания филогенетических сетей» . БМК Биоинформатика . 9 :175. дои : 10.1186/1471-2105-9-175 . ISSN   1471-2105 . ПМК   2330044 . ПМИД   18371228 .
  6. ^ Кардона, Габриэль; Росселло, Франческ; Валиенте, Габриэль (2008). «Расширенный Ньюик: пришло время стандартного представления филогенетических сетей» . БМК Биоинформатика . 9 : 532. дои : 10.1186/1471-2105-9-532 . ПМЦ   2621367 . ПМИД   19077301 .
  7. ^ Барнетт, Роберт Мэтью (16 февраля 2012 г.). «Формат Рича Ньюика» . Wiki Университета Райса .
  8. ^ Ю, Гуанчуан. «Глава 1. Импорт дерева с данными» . Интеграция данных, манипулирование и визуализация филогенетического дерева .
  9. ^ Уэрта-Сепас, Хайме; Серра, Франсуа; Борк, Пер (июнь 2016 г.). «ETE 3: Реконструкция, анализ и визуализация филогеномных данных» . Молекулярная биология и эволюция . 33 (6): 1635–1638. дои : 10.1093/molbev/msw046 . ISSN   0737-4038 . ПМЦ   4868116 . ПМИД   26921390 .
  10. ^ Бок, Аликс; Диалло, Альфа Бубакар; Макаренков, Владимир (июль 2012 г.). «T-REX: веб-сервер для вывода, проверки и визуализации филогенетических деревьев и сетей» . Исследования нуклеиновых кислот . 40 (проблема с веб-сервером): W573–579. дои : 10.1093/nar/gks485 . ISSN   1362-4962 . ПМК   3394261 . ПМИД   22675075 .
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: e1d100c426dacf49a8a76180fbcbed47__1711136340
URL1:https://arc.ask3.ru/arc/aa/e1/47/e1d100c426dacf49a8a76180fbcbed47.html
Заголовок, (Title) документа по адресу, URL1:
Newick format - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)