Подходы теории кодирования к дизайну нуклеиновых кислот
Построение кода ДНК относится к применению теории кодирования к разработке систем нуклеиновых кислот для области вычислений на основе ДНК .
Введение
[ редактировать ]Известно, что последовательности ДНК появляются в виде двойных спиралей в живых клетках , в которых одна цепь ДНК гибридизуется с комплементарной цепью посредством ряда водородных связей . В этой статье мы сосредоточимся только на олигонуклеотидах . Вычисление ДНК предполагает гибридизацию синтетических олигонуклеотидных нитей таким образом, чтобы можно было выполнять вычисления . Вычисление ДНК требует, чтобы самосборка цепей олигонуклеотидов происходила таким образом, чтобы гибридизация происходила способом, совместимым с целями вычислений.
Область вычислений ДНК была основана в основополагающей статье Леонарда М. Адельмана. [1] Его работа важна по ряду причин:
- Он показывает, как можно использовать высокопараллельную природу вычислений, выполняемых ДНК, для решения проблем, которые трудно или почти невозможно решить традиционными методами.
- Это пример вычислений на молекулярном уровне, на основе нанокомпьютеров , и это потенциально является основным преимуществом, если принять во внимание плотность информации на носителях информации, которую полупроводниковая промышленность никогда не сможет достичь.
- Он демонстрирует уникальные аспекты ДНК как структуры данных.
Эта возможность массово -параллельных вычислений в ДНК-вычислениях может быть использована при решении многих вычислительных задач в чрезвычайно больших масштабах, таких как клеточные вычислительные системы для диагностики и лечения рака, а также носители информации сверхвысокой плотности. [2]
Этот выбор кодовых слов (последовательностей олигонуклеотидов ДНК) сам по себе является серьезным препятствием из-за явления образования вторичной структуры (при котором цепи ДНК имеют тенденцию сворачиваться сами в себя во время гибридизации и, следовательно, становятся бесполезными для дальнейших вычислений. Это также известно как самогибридизация). Нусинов-Якобсон [3] Алгоритм используется для прогнозирования вторичных структур, а также для определения определенных критериев проектирования, которые уменьшают возможность формирования вторичной структуры в кодовом слове. По сути, этот алгоритм показывает, как наличие циклической структуры в коде ДНК снижает сложность проблемы проверки кодовых слов на наличие вторичных структур.
Новые конструкции таких кодов включают использование циклических обратимых расширенных обобщенных матриц Адамара и бинарный подход. Прежде чем углубиться в эти конструкции, мы еще раз обратимся к некоторой фундаментальной генетической терминологии. Основанием для теорем, представленных в этой статье, является то, что они согласуются с алгоритмом Нусинова-Джейкобсона, поскольку существование циклической структуры помогает снизить сложность и, таким образом, предотвращает образование вторичной структуры. т.е. эти алгоритмы удовлетворяют некоторым или всем требованиям проектирования ДНК-олигонуклеотидов во время гибридизации (которая является основой процесса вычислений ДНК) и, следовательно, не страдают от проблем самогибридизации.
Определения
[ редактировать ]Код ДНК — это просто набор последовательностей в алфавите. .
Каждое пуриновое основание представляет собой дополнение Уотсона-Крика к уникальному пиримидиновому основанию (и наоборот) — аденин и тимин образуют комплементарную пару, как и гуанин и цитозин . Это сочетание можно описать следующим образом: .
Такое спаривание химически очень стабильно и прочно. Однако иногда спаривание несовпадающих оснований происходит из-за биологических мутаций .
Основное внимание при кодировании ДНК уделялось созданию больших наборов кодовых слов ДНК с заданными свойствами минимального расстояния. Для этого заложим необходимую основу для дальнейшего движения.
Позволять быть длинным словом над алфавитом . Для , мы будем использовать обозначение для обозначения подпоследовательности . Кроме того, последовательность, полученная обращением будет обозначаться как . Дополнение Уотсона-Крика или обратное дополнение q определяется как , где обозначает дополнения Уотсона-Крика пару оснований .
Для любой пары длин- слова и над , расстояние Хэмминга это количество позиций на котором . Далее определим расстояние обратного Хэмминга как . Аналогично, расстояние Хэмминга с обратным дополнением равно . (где означает обратное дополнение )
Еще одно важное соображение при проектировании кода, связанное с процессом гибридизации олигонуклеотидов, касается содержания GC последовательностей в коде ДНК. GC -контент , , последовательности ДНК определяется как количество индексов такой, что . Код ДНК, в котором все кодовые слова имеют одинаковое GC-содержимое. , называется постоянным кодом GC-содержимого .
матрица Обобщенная Адамара это квадратная матрица с элементами, взятыми из множества корни единства, , что удовлетворяет = . Здесь обозначает единичную матрицу порядка , а * означает комплексное сопряжение. Мы будем заниматься только делом для какого-то премьера . Необходимое условие существования обобщенных матриц Адамара. это что . Матрица экспоненты , , из это матрица с записями в , получается заменой каждой записи в по показателю степени .
Элементы матрицы показателей Адамара лежат в поле Галуа. , а его векторы-строки составляют кодовые слова того, что будет называться обобщенным кодом Адамара.
Здесь элементы лежать в поле Галуа .
По определению обобщенная матрица Адамара в стандартной форме имеет только 1 с в первой строке и столбце. квадратная матрица, образованная оставшимися элементами называется ядром , и соответствующая подматрица матрицы экспонент называется ядром конструкции. Таким образом, за счет исключения нулевого первого столбца возможны циклические обобщенные коды Адамара, кодовые слова которых являются векторами-строками выколотой матрицы.
Кроме того, строки такой матрицы экспоненты удовлетворяют следующим двум свойствам: (i) в каждой из ненулевых строк матрицы экспоненты каждый элемент появляется постоянное число, , раз; и (ii) расстояние Хэмминга между любыми двумя строками равно . [4]
Недвижимость У
[ редактировать ]Позволять — циклическая группа, порожденная , где это сложный примитив корень единства, и является фиксированным простым числом. Далее, пусть , обозначим произвольные векторы над которые имеют длину , где является положительным целым числом. Определите набор разностей между показателями , где кратность элемента из который появляется в . [4]
Вектор Говорят, что он удовлетворяет свойству U тогда и только тогда, когда каждый элемент из появляется в точно раз ( )
Следующая лемма имеет принципиальное значение при построении обобщенных кодов Адамара.
Лемма. Ортогональность векторов по – Для фиксированных простых чисел , произвольные векторы длины , элементы которого взяты из , ортогональны, если вектор удовлетворяет свойству U , где это совокупность различий между показателями Адамара, связанными с .
М-последовательности
[ редактировать ]Позволять быть произвольным вектором длины элементы которого находятся в конечном поле , где является простым числом. Пусть элементы вектора составляют первый период бесконечной последовательности который является периодическим периода . Если является наименьшим периодом для создания любой подпоследовательности, последовательность называется M-последовательностью или максимальной последовательностью наименьшего периода, полученной путем циклической перестановки элементы. Если всякий раз, когда элементы переставляются произвольно, чтобы получить , последовательность является M-последовательностью, то последовательность называется М-инвариантным . Следующие теоремы представляют собой условия, обеспечивающие М-инвариантность . В сочетании с определенным свойством однородности полиномиальные коэффициенты, эти условия дают простой метод, с помощью которого можно построить комплексные матрицы Адамара с циклическим ядром.
Цель здесь — найти циклическую матрицу чьи элементы находятся в поле Галуа и чья размерность . Ряды будут ненулевыми кодовыми словами линейного циклического кода , тогда и только тогда, когда существует полином с коэффициентами в , который является собственным делителем и который генерирует . Чтобы иметь ненулевые кодовые слова, должен иметь степень . Далее, чтобы сформировать циклическое ядро Адамара, вектор (коэффициентов) при работе с циклическим сдвигом операция должна иметь период и векторная разность двух произвольных строк (дополненный нулем) должен удовлетворять условию равномерности Батсона: [5] ранее называлось Свойство U. Одно необходимое условие для -периодичность – это , где неприводим моник . [6] Подход здесь заключается в замене последнего требования условием, что коэффициенты вектора равномерно распределены по , т.е. каждый остаток появляется одинаковое количество раз (Свойство U). Доказательство того, что этот эвристический подход всегда создает циклическое ядро, приведено ниже.
Примеры построения кода
[ редактировать ]Построение кода с использованием сложных матриц Адамара
[ редактировать ]Алгоритм построения
[ редактировать ]Рассмотрим унитарный неприводимый полином над степени иметь подходящего компаньона степени такой, что , где вектор удовлетворяет свойству U. Для этого требуется только простой компьютерный алгоритм деления в столбик. . С , идеал, порожденный это циклический код . Более того, свойство U гарантирует, что ненулевые кодовые слова образуют циклическую матрицу, каждая строка периода при циклической перестановке, которая служит циклическим ядром матрицы Адамара . Например, циклическое ядро для результаты от товарищей и . Коэффициенты указать, что набор относительных разностей, .
Теорема
[ редактировать ]Позволять быть простым и , с монический полином степени расширенный вектор коэффициентов которого являются элементами . Предположим, выполнены следующие условия:
- вектор удовлетворяет свойству U, и
- , где – унитарный неприводимый полином степени .
Тогда существует p -арный линейный циклический код размера блока , такой, что расширенный код - матрица экспоненты матрицы Адамара , с , где ядро является циклической матрицей.
Доказательство:
Сначала обратите внимание, что моник и делит со степенью . Теперь нам нужно показать, что матрица строки которого представляют собой ненулевые кодовые слова, составляют циклическое ядро некоторой комплексной матрицы Адамара. .
При условии удовлетворяет свойству U, все ненулевые остатки в C. лежать Циклически переставляя элементы , мы получаем искомую матрицу показателей где мы можем получить каждое кодовое слово в путем замены первого кодового слова. (Это связано с тем, что последовательность, полученная циклической перестановкой является M-инвариантом.)
Мы также видим, что увеличение каждого кодового слова добавление начального нулевого элемента дает вектор, который удовлетворяет свойству U. Кроме того, поскольку код линеен, векторная разность двух произвольных кодовых слов также является кодовым словом и, таким образом, удовлетворяет U. свойству Следовательно, векторы-строки расширенного кода образуют показатель Адамара. Таким образом, является стандартной формой некоторой комплексной матрицы Адамара .
Таким образом, из приведенного выше свойства мы видим, что ядро представляет собой циркулянтную матрицу, состоящую из всех циклические сдвиги его первой строки. Такое ядро называется циклическим ядром, где в каждом элементе появляется в каждой строке точно раз, а расстояние Хэмминга между любыми двумя строками в точности равно . ряды ядра сформировать код постоянной композиции , состоящий из циклические сдвиги некоторой длины над съемочной площадкой . Расстояние Хэмминга между любыми двумя кодовыми словами в является .
Из теоремы, объясненной выше, можно вывести следующее. (Для более подробного чтения читатель отсылается к статье Хэнга и Кука. [4] ) Позволять для премьер и . Позволять быть моническим полиномом над , степени N − k такая, что над , для некоторого унитарного неприводимого полинома . Предположим, что вектор , с для (N − k) < i < N, обладает тем свойством, что содержит каждый элемент такое же количество раз. Затем циклические сдвиги вектора образуют ядро матрицы экспонент некоторой матрицы Адамара.
Коды ДНК с постоянным GC-содержанием, очевидно, могут быть построены из кодов с постоянной композицией (код с постоянной композицией в k-арном алфавите обладает тем свойством, что количество вхождений k символов в кодовом слове одинаково для каждого кодового слова). путем сопоставления символов к символам алфавита ДНК, . Например, используя код композиции циклической константы длиной над гарантированное доказанной выше теоремой и полученным свойством, и используя отображение, которое принимает к , к и к , получаем код ДНК с и GC-содержание . Четко и фактически с тех пор и нет кодового слова в не содержит символа , у нас также есть . Это суммируется в следующем следствии. [4]
Следствие
[ редактировать ]Для любого , существуют коды ДНК с кодовые слова длины , постоянное содержание GC , и в котором каждое кодовое слово представляет собой циклический сдвиг фиксированного кодового слова генератора .
Каждый из следующих векторов генерирует циклическое ядро матрицы Адамара. (где , и в этом примере): [4]
;
.
Где, .
Таким образом, мы видим, как из таких генераторов можно получить коды ДНК путем отображения на . Фактический выбор отображения играет важную роль в формировании вторичной структуры кодовых слов.
Мы видим, что все такие отображения дают коды с практически одинаковыми параметрами. Однако фактический выбор отображения оказывает сильное влияние на вторичную структуру кодовых слов. Например, иллюстрированное кодовое слово было получено из через отображение , а кодовое слово было получено от того же генератора через отображение .
Построение кода с помощью двоичного сопоставления
[ редактировать ]Возможно, более простой подход к построению/проектированию кодовых слов ДНК — это использование двоичного отображения, рассматривая проблему проектирования как задачу построения кодовых слов в виде двоичных кодов. т.е. сопоставить алфавит кодового слова ДНК на набор двоичных слов длиной 2 бита, как показано: , , , .
Как мы видим, первый бит бинарного изображения четко определяет, к какой дополнительной паре он принадлежит.
Позволять быть последовательностью ДНК. Последовательность полученное применением приведенного выше отображения к , называется бинарным образом .
Теперь позвольте .
Теперь пусть подпоследовательность называть четной подпоследовательностью , и называть нечетной подпоследовательностью .
Так, например, для , затем, .
Затем и .
Определим четную составляющую как и нечетный компонент как .
При таком выборе бинарного картирования содержание GC в последовательности ДНК = Вес Хэмминга .
Следовательно, код ДНК является постоянным кодовым словом GC-содержимого тогда и только тогда, когда его четный компонент представляет собой код постоянного веса.
Позволять быть двоичным кодом, состоящим из кодовые слова длины и минимальное расстояние , такой, что подразумевает, что .
Для , рассмотрим подкод постоянного веса , где обозначает вес Хэмминга. Выбирать такой, что , и рассмотрим код ДНК, , со следующим выбором его четных и нечетных компонентов:
, .
Где обозначает лексикографическое упорядочение. в определении гарантирует, что если , затем , так что отдельные кодовые слова в не могут быть обратными дополнениями друг друга.
Код имеет кодовые слова длины и постоянный вес .
Более того, и (это потому что является подмножеством кодовых слов в ).
Также, .
Обратите внимание, что и оба имеют вес . Это означает, что и иметь вес .
И из-за ограничений по весу , мы должны иметь для всех , .
Таким образом, код имеет кодовые слова длины .
Из этого мы видим, что (поскольку кодовые слова компонентов взяты из ).
Сходным образом, .
Следовательно, код ДНК
с , имеет кодовые слова длины , и удовлетворяет и .
Из приведенных выше примеров можно задаться вопросом, каким может быть будущий потенциал компьютеров на основе ДНК?
Несмотря на свой огромный потенциал, этот метод вряд ли будет реализован на домашних компьютерах или даже компьютерах в офисах и т. д. из-за исключительной гибкости и скорости, а также факторов стоимости, которые благоприятствуют устройствам на основе кремниевых чипов, используемым для компьютеров сегодня. [2]
Однако такой метод можно использовать в ситуациях, когда он является единственным доступным методом и требует точности, связанной с механизмом гибридизации ДНК; приложения, которые требуют выполнения операций с высокой степенью надежности.
В настоящее время существует несколько пакетов программного обеспечения, таких как пакет Vienna, [7] которые могут предсказать образование вторичной структуры в одноцепочечных ДНК (т.е. олигонуклеотидах) или последовательностях РНК.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Адлеман, Л. (1994). «Молекулярное вычисление решений комбинаторной задачи» (PDF) . Наука . 266 (5187): 1021–4. CiteSeerX 10.1.1.54.2565 . дои : 10.1126/science.7973651 . ПМИД 7973651 . Архивировано из оригинала (PDF) 6 февраля 2005 г. Проверено 4 мая 2010 г.
- ^ Jump up to: а б Мансурипур, М.; Хулбе, ПК; Кюблер, С.М.; Перри, Дж.В.; Гиридхар, MS; Пейгамбарян, Н. (2003). «Хранение и извлечение информации с использованием макромолекул в качестве носителей информации» . Серия технических дайджестов Оптического общества Америки .
- ^ Миленкович, Ольгица ; Кашьяп, Навин (14–18 марта 2005 г.). О разработке кодов для вычислений на ДНК . Международный семинар по кодированию и криптографии . Берген, Норвегия. дои : 10.1007/11779360_9 .
- ^ Jump up to: а б с д и Кук, К. (1999). «Полиномиальное построение комплексных матриц Адамара с циклическим ядром» . Письма по прикладной математике . 12 : 87–93. дои : 10.1016/S0893-9659(98)00131-1 .
- ^ Адамек, Иржи (1991). Основы кодирования: теория и применение кодов, исправляющих ошибки, с введением в криптографию и теорию информации . Чичестер: Уайли. дои : 10.1002/9781118033265 . ISBN 978-0-471-62187-4 .
- ^ Цирлер, Н. (1959). «Линейные повторяющиеся последовательности». Дж. Сок. Промышленность. Прил. Математика . 7 : 31–48. дои : 10.1137/0107003 .
- ^ «Венский пакет вторичной структуры РНК» .