Псевдоаминокислотный состав

Псевдоаминокислотная композиция , или PseAAC , в молекулярной биологии была первоначально представлена Куо-Чен Чжоу в 2001 году для представления образцов белков для улучшения предсказания субклеточной локализации белка и предсказания типа мембранного белка . ^[1] Как и метод ванильного аминокислотного состава (AAC), он характеризует белок в основном с использованием матрицы частот аминокислот, что помогает иметь дело с белками без значительной последовательной гомологии с другими белками. По сравнению с AAC в матрицу также включена дополнительная информация для представления некоторых локальных особенностей, таких как корреляция между остатками на определенном расстоянии. ^[2] При рассмотрении дел PseAAC Теорема инвариантности Чжоу часто использовалась.

Фон

Чтобы предсказать субклеточную локализацию белков и другие атрибуты на основе их последовательности, обычно используются два типа моделей для представления образцов белков: (1) последовательная модель и (2) непоследовательная модель или дискретная модель.

Наиболее типичным последовательным представлением образца белка является его полная аминокислотная (АА) последовательность, которая может содержать наиболее полную информацию. Это очевидное преимущество последовательной модели. Чтобы получить желаемые результаты, для проведения прогнозирования обычно используются инструменты, основанные на поиске сходства последовательностей.

Учитывая белковую последовательность P с $L$ аминокислотные остатки, т.е.

$\mathbf {P} ={\begin{bmatrix}\mathrm {R} _{1}\mathrm {R} _{2}\mathrm {R} _{3}\mathrm {R} _{4}\mathrm {R} _{5}\mathrm {R} _{6}\mathrm {R} _{7}\cdots \mathrm {R} _{L}\end{bmatrix}}\qquad {\text{(1)}}$

где R ₁ представляет собой 1-й остаток белка Р , R _{2 -} 2-й остаток и т.д. Это представление белка в последовательной модели.

Однако такой подход терпит неудачу, когда исследуемый белок не имеет значительной гомологии с известным белком(ами). Таким образом, были предложены различные дискретные модели, не опирающиеся на порядок последовательности. Самая простая дискретная модель использует аминокислотный состав (ААС) для представления образцов белка. В рамках модели AAC белок P из уравнения 1 также может быть выражен формулой

$\mathbf {P} ={\begin{bmatrix}f_{1}&f_{2}&\cdots &f_{20}\end{bmatrix}}^{\mathbf {T} }\qquad {\text{(2)}}$

где $\,f_{u}\,(u=1,2,\cdots ,20)$ — нормализованные частоты встречаемости 20 нативных аминокислот в P и T — оператора транспонирования. AAC белка получают тривиально, используя первичную структуру белка, известную, как указано в уравнении 1 ; это также возможно путем гидролиза без знания точной последовательности, и такой этап на самом деле часто является предпосылкой для секвенирования белка . ^[3]

Благодаря своей простоте модель аминокислотного состава (ААС) широко использовалась во многих более ранних статистических методах прогнозирования свойств белков. Однако вся информация о порядке последовательности теряется. Это его главный недостаток.

Концепция

порядке последовательностей, была предложена концепция псевдоаминокислот состав PseAAC Чтобы избежать полной потери информации о ) ( . ^[1] В отличие от обычного аминокислотного состава (AAC), который содержит 20 компонентов, каждый из которых отражает частоту встречаемости одной из 20 нативных аминокислот в белке, PseAAC содержит набор из более чем 20 дискретных факторов, где первые 20 представляют собой компоненты его обычного аминокислотного состава, в то время как дополнительные факторы включают некоторую информацию о порядке последовательности через различные псевдокомпоненты.

Дополнительные факторы представляют собой серию корреляционных факторов различного ранга вдоль белковой цепи, но они также могут представлять собой любые комбинации других факторов, если они могут так или иначе отражать некоторые виды эффектов порядка последовательности. Таким образом, суть PseAAC заключается в том, что он, с одной стороны, охватывает состав АК, но с другой стороны содержит информацию, выходящую за рамки состава АК, и, следовательно, может лучше отражать особенность белковой последовательности посредством дискретной модели.

Между тем, как резюмируется в обзорной статье 2009 года, также были разработаны различные способы создания вектора PseAAC. ^[2]

Алгоритм

Согласно модели PseAAC, белок P из уравнения 1 можно сформулировать как

$\mathbf {P} ={\begin{bmatrix}p_{1},\,p_{2},\,\ldots ,\,p_{20},\,p_{20+1},\,\ldots ,\,p_{20+\lambda }\end{bmatrix}}^{\mathbf {T} },\,\,\,(\lambda <L)\qquad {\text{(3)}}$

где ( $20+\lambda$ ) компоненты имеют вид

$p_{u}={\begin{cases}{\dfrac {f_{u}}{\sum _{i=1}^{20}f_{i}\,+\,w\sum _{k=1}^{\lambda }\tau _{k}}},&(1\leq u\leq 20)\\[10pt]{\dfrac {w\tau _{u-20}}{\sum _{i=1}^{20}f_{i}\,+\,w\sum _{k=1}^{\lambda }\tau _{k}}},&(20+1\leq u\leq 20+\lambda )\end{cases}}\qquad {\text{(4)}}$

где $w$ - весовой коэффициент, а $\tau _{k}$ тот $k$ Коэффициент корреляции -го уровня, который отражает корреляцию порядка последовательности между всеми $k$ -th наиболее смежных остатков, как сформулировано

$\tau _{k}={\frac {1}{L-k}}\sum _{i=1}^{L-k}\,\mathrm {J} _{i,i+k},\,\,\,(k<L)\qquad {\text{(5)}}$

с

$\mathrm {J} _{i,i+k}={\frac {1}{\Gamma }}\sum _{q=1}^{\Gamma }\left[\Phi _{q}\left(\mathrm {R} _{i+k}\right)-\Phi _{q}\left(\mathrm {R} _{i}\right)\right]^{2}\qquad {\text{(6)}}$

где $\Phi _{q}\left(\mathrm {R} _{i}\right)$ это ${q}$ -я функция аминокислоты $\mathrm {R} _{i}\,$ , и $\Gamma \,$ общее количество рассматриваемых функций. Например, в оригинальной статье Чжоу ^[1] $\Phi _{1}\left(\mathrm {R} _{i}\right)$ , $\Phi _{2}\left(\mathrm {R} _{i}\right)$ и $\Phi _{3}\left(\mathrm {R} _{i}\right)$ представляют собой соответственно значение гидрофобности, значение гидрофильности и массу боковой цепи аминокислоты. $\mathrm {R} _{i}\,$ ; пока $\Phi _{1}\left(\mathrm {R} _{i+1}\right)$ , $\Phi _{2}\left(\mathrm {R} _{i+1}\right)$ и $\Phi _{3}\left(\mathrm {R} _{i+1}\right)$ соответствующие значения для аминокислоты $\mathrm {R} _{i+1}\,$ . Следовательно, общее количество рассматриваемых функций равно $\Gamma =3\,$ . видно Из уравнения 3 , что первые 20 компонентов, т.е. $p_{1},\,p_{2},\,\cdots ,\,p_{20}$ связаны с традиционным АА-составом белка, тогда как остальные компоненты $p_{20+1},\,\cdots ,\,p_{20+\lambda }$ являются коэффициентами корреляции, которые отражают 1-й уровень, 2-й уровень,... и $\lambda \,$ Паттерны корреляции порядка последовательности -го уровня ( рис. 1 ). Именно благодаря этим дополнительным $\lambda \,$ факторы, которые включают некоторые важные эффекты порядка последовательности.

$\lambda \,$ в уравнении 3 является целочисленным параметром, и выбор другого целого числа для $\lambda \,$ приведет к составу PseAA, отличающемуся по размерности. ^[4]

Использование уравнения 6 — лишь один из многих способов получения коэффициентов корреляции в PseAAC или его компонентах. Остальные, такие как физико-химический дистанционный режим ^[5] и режим амфифильного рисунка, ^[6] также может использоваться для получения различных типов PseAAC, как описано в обзорной статье 2009 года. ^[2] В 2011 году формулировка PseAAC ( уравнение 3 ) была расширена до формы общего PseAAC, заданной следующим образом: ^[7]

$\mathbf {P} ={\begin{bmatrix}\psi _{1},\,\psi _{2},\,\ldots ,\,\psi _{u},\,\ldots ,\psi _{\Omega }\end{bmatrix}}^{\mathbf {T} }\,\,\,\qquad {\text{(7)}}$

где индекс $\Omega$ является целым числом, а его значение и компоненты $\psi _{1},\,\psi _{2},\,\ldots$ будет зависеть от того, как извлечь желаемую информацию из аминокислотной последовательности P в уравнении 1 .

Общий PseAAC может использоваться для отражения любых желаемых функций в соответствии с целями исследования, включая такие основные функции, как функциональный домен , последовательная эволюция и онтология генов , чтобы улучшить качество прогнозирования субклеточной локализации белков. ^[8]^[9] а также их многие другие важные атрибуты.

Ссылки

^ Jump up to: ^а ^б ^с Чжоу К.С. (май 2001 г.). «Прогнозирование клеточных свойств белков с использованием псевдоаминокислотного состава». Белки . 43 (3): 246–55. дои : 10.1002/прот.1035 . ПМИД 11288174 . S2CID 28406797 .
^ Jump up to: ^а ^б ^с Чжоу К.С. (2009). «Псевдоаминокислотный состав и его применение в биоинформатике, протеомике и системной биологии». Современная протеомика . 6 (4): 262–274. дои : 10.2174/157016409789973707 .
^ Михаил А. Альтерман; Питер Хунцикер (2 декабря 2011 г.). Аминокислотный анализ: методы и протоколы . Хумана Пресс. ISBN 978-1-61779-444-5 .
^ Чоу К.С., Шен Х.Б. (ноябрь 2007 г.). «Недавний прогресс в предсказании субклеточного расположения белков». Анальный. Биохим . 370 (1): 1–16. дои : 10.1016/j.ab.2007.07.006 . ПМИД 17698024 .
^ Чоу К.С. (ноябрь 2000 г.). «Прогнозирование субклеточного расположения белков с помощью эффекта квазипорядка последовательности». Биохим. Биофиз. Рез. Коммун . 278 (2): 477–83. дои : 10.1006/bbrc.2000.3815 . ПМИД 11097861 .
^ Чжоу К.С. (январь 2005 г.). «Использование амфифильного псевдоаминокислотного состава для прогнозирования классов подсемейства ферментов» . Биоинформатика . 21 (1): 10–9. doi : 10.1093/биоинформатика/bth466 . ПМИД 15308540 .
^ Чжоу К.С. (март 2011 г.). «Некоторые замечания о предсказании свойств белков и псевдоаминокислотном составе» . Журнал теоретической биологии . 273 (1): 236–47. Бибкод : 2011JThBi.273..236C . дои : 10.1016/j.jtbi.2010.12.024 . ПМЦ 7125570 . ПМИД 21168420 .
^ Чжоу К.С., Шен Х.Б. (2008). «Cell-PLoc: пакет веб-серверов для прогнозирования субклеточной локализации белков в различных организмах» . Нат Проток . 3 (2): 153–62. дои : 10.1038/nprot.2007.494 . ПМИД 18274516 . S2CID 226104 . Архивировано из оригинала 27 августа 2007 г. Проверено 24 марта 2008 г.
^ Шен Х.Б., Чжоу К.К. (февраль 2008 г.). «PseAAC: гибкий веб-сервер для генерации различных видов псевдоаминокислотного состава белков». Анальный. Биохим . 373 (2): 386–8. дои : 10.1016/j.ab.2007.10.012 . ПМИД 17976365 .

Внешние ссылки

Веб-сервер PseAAC

[Chou01-1] Jump up to: ^а ^б ^с Чжоу К.С. (май 2001 г.). «Прогнозирование клеточных свойств белков с использованием псевдоаминокислотного состава». Белки . 43 (3): 246–55. дои : 10.1002/прот.1035 . ПМИД 11288174 . S2CID 28406797 .

[chou2-2] Jump up to: ^а ^б ^с Чжоу К.С. (2009). «Псевдоаминокислотный состав и его применение в биоинформатике, протеомике и системной биологии». Современная протеомика . 6 (4): 262–274. дои : 10.2174/157016409789973707 .

[AltermanHunziker2011-3] Михаил А. Альтерман; Питер Хунцикер (2 декабря 2011 г.). Аминокислотный анализ: методы и протоколы . Хумана Пресс. ISBN 978-1-61779-444-5 .

[pmid17698024-4] Чоу К.С., Шен Х.Б. (ноябрь 2007 г.). «Недавний прогресс в предсказании субклеточного расположения белков». Анальный. Биохим . 370 (1): 1–16. дои : 10.1016/j.ab.2007.07.006 . ПМИД 17698024 .

[pmid11097861-5] Чоу К.С. (ноябрь 2000 г.). «Прогнозирование субклеточного расположения белков с помощью эффекта квазипорядка последовательности». Биохим. Биофиз. Рез. Коммун . 278 (2): 477–83. дои : 10.1006/bbrc.2000.3815 . ПМИД 11097861 .

[pmid15308540-6] Чжоу К.С. (январь 2005 г.). «Использование амфифильного псевдоаминокислотного состава для прогнозирования классов подсемейства ферментов» . Биоинформатика . 21 (1): 10–9. doi : 10.1093/биоинформатика/bth466 . ПМИД 15308540 .

[Chou12-7] Чжоу К.С. (март 2011 г.). «Некоторые замечания о предсказании свойств белков и псевдоаминокислотном составе» . Журнал теоретической биологии . 273 (1): 236–47. Бибкод : 2011JThBi.273..236C . дои : 10.1016/j.jtbi.2010.12.024 . ПМЦ 7125570 . ПМИД 21168420 .

[pmid18274516-8] Чжоу К.С., Шен Х.Б. (2008). «Cell-PLoc: пакет веб-серверов для прогнозирования субклеточной локализации белков в различных организмах» . Нат Проток . 3 (2): 153–62. дои : 10.1038/nprot.2007.494 . ПМИД 18274516 . S2CID 226104 . Архивировано из оригинала 27 августа 2007 г. Проверено 24 марта 2008 г.

[pmid17976365-9] Шен Х.Б., Чжоу К.К. (февраль 2008 г.). «PseAAC: гибкий веб-сервер для генерации различных видов псевдоаминокислотного состава белков». Анальный. Биохим . 373 (2): 386–8. дои : 10.1016/j.ab.2007.10.012 . ПМИД 17976365 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]