Вычитание цифрового транскриптома

Вычитание цифрового транскриптома ( DTS ) — это биоинформатический метод обнаружения присутствия новых транскриптов патогенов посредством компьютерного удаления последовательностей хозяина. DTS является прямым репрезентативного аналогом мокрой лаборатории (RDA) в разностного анализа , который стал возможен благодаря беспристрастному высокопроизводительному секвенированию и наличию высококачественного аннотированного эталонного генома хозяина. Этот метод конкретно исследует этиологический агент инфекционных заболеваний и наиболее известен благодаря обнаружению полиомавируса клеток Меркеля , подозреваемого возбудителя карциномы Меркеля . [1]
История
[ редактировать ]Использование вычислительного вычитания для обнаружения новых патогенов было впервые предложено в 2002 году Мейерсоном и соавт. [2] с использованием наборов данных меток экспрессируемых последовательностей человека (EST) . В эксперименте, подтверждающем принцип , Meyerson et al. продемонстрировали, что это осуществимый подход с использованием лимфоцитов, инфицированных вирусом Эпштейна-Барра, при посттрансплантационном лимфопролиферативном заболевании (ПТЛД) . [3]
В 2007 году термин «вычитание цифрового транскриптома» был придуман группой Чанга - Мура . [4] и был использован для обнаружения полимавируса клеток Меркеля при карциноме клеток Меркеля . [1]
Одновременно с открытием MCV этот подход был использован для выявления нового аренавируса как причины летального исхода в случае, когда три пациента умерли от схожих заболеваний вскоре после трансплантации органов от одного донора. [5]
Метод
[ редактировать ]
Создание библиотеки кДНК
[ редактировать ]После обработки ДНКазой I для удаления геномной ДНК человека тотальную РНК из первично инфицированной ткани экстрагируют . Информационная РНК затем очищается с использованием колонки oligo-dT, которая связывается с поли-А-хвостом , сигналом, специфически обнаруживаемым в транскрибируемых генах. Используя случайную прайминг гексамеров, обратная транскриптаза (RT) преобразует всю мРНК в кДНК и клонирует в бактериальные векторы. Бактерии, обычно E.coli , затем трансформируются с использованием векторов кДНК и отбираются с использованием маркера, коллекция трансформированных клонов представляет собой библиотеку кДНК. В результате создается снимок тканевой мРНК, который является стабильным и может быть секвенирован на более позднем этапе.
Секвенирование и контроль качества
[ редактировать ]Библиотека кДНК должна быть секвенирована на большую глубину (т.е. количество секвенированных клонов), чтобы обнаружить теоретическую последовательность редкого патогена (таблица 1), особенно если чужеродная последовательность является новой. Чанг-Мур рекомендует глубину секвенирования 200 000 транскриптов или более с использованием нескольких платформ секвенирования. [1]
% Популярный | 5000 клонов | 10 000 клонов | 20 000 клонов | 50 000 клонов |
---|---|---|---|---|
0.001% | 4.9% | 9.5% | 18.1% | 39.3% |
0.01% | 39.3% | 32.2% | 86.5% | 99.3% |
0.02% | 63.2% | 86.5% | 98.2% | >99,995% |
0.03% | 77.7% | 95.5% | 99.8% | >99,995% |
0.04% | 86.5% | 98.2% | >99,995% | >99,995% |
0.1% | 99.3% | >99,995% | >99,995% | >99,995% |
Затем к необработанным последовательностям применяется строгий контроль качества, чтобы свести к минимуму ложноположительные результаты. Экран начального качества использует несколько общих параметров для исключения неоднозначных последовательностей, оставляя после себя набор данных считываний с высокой точностью (Hi-Fi).
- Отсечение по низкому показателю Phred используется для удаления конечных последовательностей низкого качества. Обычно пороговое значение балла Phred 20 или 30 используется для обеспечения точности 99–99,9% при каждом вызове оснований.
- Удаление вектора и адаптера.
- Низкая сложность - показатель сложности последовательности отражает количество идентичных оснований в ряду (гомополимеров), таких как поли-дТ или поли-дА.
- человека Повторяющаяся ДНК .
- Длина — параметр зависит от оптимизированной длины считывания, специфичной для технологии секвенирования . используемой
- BLAST и исключить последовательности генома E. coli .
BLAST для размещения генома
[ редактировать ]Используя MEGABLAST, считывания Hi-Fi затем сопоставляются с последовательностями в аннотированных базах данных, а любые положительные совпадения затем вычитаются из набора данных. Минимальная длина совпадения для положительного совпадения человеческой последовательности обычно составляет 30 последовательных идентичных оснований, что соответствует баллу BLAST, равному 60; как правило, оставшаяся последовательность снова представляет собой BLAST с менее строгими параметрами, позволяющими допускать небольшие несоответствия (1 из 20 нуклеотидов). На этом этапе подавляющее большинство последовательностей (>99%) следует удалить из набора данных.
Вычитаемые последовательности обычно включают в себя:
- Эталонный транскриптом человека — удаляет любые известные транскриптомы человека из наборов библиотек экспрессии.
- Эталонный геном человека — исключает гены, которые были пропущены в процессе аннотации, и любые загрязняющие геномные последовательности во время создания библиотеки кДНК.
- Митохондриальная ДНК . Митохондриальная ДНК очень распространена и полиморфна из-за быстрой скорости мутаций.
- Область иммуноглобулина . Локусы иммуноглобулина сильно полиморфны и в противном случае дали бы ложноположительный результат из-за плохого соответствия эталонному геному.
- Другие позвоночных последовательности
- Неаннотированные последовательности
Анализ «непринимающих» кандидатов
[ редактировать ]Согласование с базами данных патогенов
[ редактировать ]После строгих циклов вычитания оставшиеся последовательности группируются в неизбыточные контиги и выравниваются с известными последовательностями патогенов с использованием параметров низкой строгости. Поскольку геномы патогенов быстро мутируют, нуклеотид-нуклеотидные выравнивания, или бластн [ сломанный якорь ] , обычно неинформативен, поскольку возможны мутации по определенным основаниям без изменения аминокислотного остатка из-за вырождения кодонов . Сопоставление транслированных in silico белковых последовательностей всех 6 открытых рамок считывания с аминокислотной последовательностью аннотированных белков или blastx. [ сломанный якорь ] , является предпочтительным методом сопоставления, поскольку он увеличивает вероятность идентификации нового патогена путем сопоставления с родственным штаммом/видом. [5] На этом этапе также можно использовать экспериментальное расширение последовательностей-кандидатов, чтобы максимизировать шансы на положительное совпадение. [6]
И снова сборка
[ редактировать ]В случаях, когда сопоставление с известными патогенами неинформативно или неоднозначно, контиги последовательности-кандидата можно использовать в качестве шаблонов для обхода праймера в первично инфицированной ткани для создания полной последовательности генома патогена. [1] [5] Поскольку вирусные транскрипты представляют собой чрезвычайно редкое соотношение тканевой мРНК (10 транскриптов на 1 миллион), [1] маловероятно создать транскриптом на основе только исходных последовательностей-кандидатов из-за низкого покрытия .
Проверка патогена
[ редактировать ]После того как предполагаемый патоген идентифицирован в данных высокопроизводительного секвенирования, необходимо подтвердить наличие патогена у инфицированных пациентов, используя более чувствительные методы, такие как:
- ОТ-ПЦР и производные методы, включая 3’- и 5’- RACE, для подтверждения существования мРНК патогена.
- Иммуногистохимия с использованием антител к родственному возбудителю для определения существования возбудителя в тканях.
- специфичных к патогену Серологические тесты для определения титра антител .
- Бактериальная / вирусная культура , которая считается золотым стандартом лабораторной диагностики.
Приложения
[ редактировать ]Основное применение DTS заключается в идентификации патогенных вирусов при раке. [1] [4] Его также можно использовать для выявления вирусных патогенов при заболеваниях, не связанных с раком. [5] Будущие клинические применения могут включать рутинное использование DTS у отдельных лиц. DTS также может применяться к сельскому хозяйству , выявляя патогены, влияющие на объем производства. Вычитание вычислений уже использовалось в метагеномном исследовании, которое связало вирусную инфекцию IAPV с расстройством коллапса колонии у медоносных пчел . [7]
Преимущества
[ редактировать ]- Не требует предварительных знаний о последовательности патогена. [8]
- Может идентифицировать ранее не ассоциированные, потенциально излечимые патогены.
- Использует уже доступные молекулярные методы и ресурсы.
Недостатки
[ редактировать ]- Выявляет наличие возбудителя, но не устанавливает причинную связь с заболеванием. [8] См. постулат Коха и критерии Брэдфорда Хилла .
- Должен иметь высоконадежный и полный эталонный транскриптом изучаемого организма. [8]
- Отсутствие идентификации инородной последовательности не может полностью исключить патогенное инородное тело. [8]
Ссылки
[ редактировать ]- ^ Jump up to: а б с д и ж Фэн Х., Шуда М., Чанг Ю, Мур П.С. (январь 2008 г.). «Клональная интеграция полиомавируса в клеточную карциному Меркеля человека» . Наука . 5866. 319 (5866): 1096–1100. Бибкод : 2008Sci...319.1096F . дои : 10.1126/science.1152586 . ПМК 2740911 . ПМИД 18202256 .
- ^ Jump up to: а б Вебер Дж., Шендюр Дж., Таненбаум Д.М., Черч ГМ, Мейерсон М. (февраль 2002 г.). «Идентификация последовательностей чужеродных генов путем фильтрации транскриптов генома человека». Нат Жене . 2. 30 (2): 141–142. дои : 10.1038/ng818 . ПМИД 11788827 . S2CID 21842679 .
- ^ Jump up to: а б Сюй Ю, Штанге-Томанн Н, Вебер Г, Бо Р, Додж С, Дэвид Р.Г., Фоли К., Бехешти Дж., Харрис Н.Л., Биррен Б., Ландер Э.С., Мейерсон М. (март 2003 г.). «Обнаружение патогенов в тканях человека путем компьютерного вычитания на основе последовательностей». Геномика . 3. 81 (3): 329–335. дои : 10.1016/S0888-7543(02)00043-5 . ПМИД 12659816 .
- ^ Jump up to: а б Фэн Х., Тейлор Дж.Л., Бенос П.В., Ньютон Р., Уодделл К., Лукас С.Б., Чанг Ю., Мур П.С. (август 2007 г.). «Вычитание человеческого транскриптома с использованием тегов коротких последовательностей для поиска опухолевых вирусов при карциноме конъюнктивы» . Дж Вирол . 20. 81 (20): 11332–11340. дои : 10.1128/JVI.00875-07 . ПМК 2045575 . ПМИД 17686852 .
- ^ Jump up to: а б с д Паласиос Дж., Дрюс Дж., Ду Л., Тран Т., Берч С., Бриз Т., Конлан С., Куан П.Л., Хуэй Дж., Маршалл Дж., Саймонс Дж.Ф., Эгольм М., Паддок CD, Ши В.Дж., Голдсмит CS, Заки С.Р., Кэттон М. , Липкин В.И. (март 2008 г.). «Новый аренавирус в группе смертельных заболеваний, связанных с трансплантацией». N Английский J Med 10. 358 (10): 991–998. CiteSeerX 10.1.1.453.2859 . doi : 10.1056/NEJMoa073785 . ПМИД 18256387 .
- ^ Чанг Ю, Мур PS. «Открытие нового патогена: вычитание цифрового транскриптома» . Архивировано из оригинала 25 января 2010 года . Проверено 1 марта 2012 г.
- ^ Кокс-Фостер Д.Л., Конлан С., Холмс Э.К., Паласиос Г., Эванс Дж.Д., Моран Н.А., Куан П.Л., Бриз Т., Хорниг М., Гейзер Д.М., Мартинсон В., ванЭнгельсдорп Д., Калькштейн А.Л., Дрисдейл А., Хуэй Дж., Чжай Дж., Куи Л., Хатчисон С.К., Саймонс Дж.Ф., Эгхольм М., Петтис Дж.С., Липкин В.И. (октябрь 2007 г.). «Метагеномное исследование микробов, вызывающих синдром коллапса семей медоносных пчел» . Наука . 5848. 318 (5848): 283–287. Бибкод : 2007Sci...318..283C . дои : 10.1126/science.1146498 . ПМИД 17823314 . S2CID 14013425 .
- ^ Jump up to: а б с д МакКонейл Л., Мейерсон М. (апрель 2008 г.). «Добавление патогенов путем геномного вычитания». Нат Жене . 4. 40 (4): 380–382. дои : 10.1038/ng0408-380 . ПМИД 18368124 .