Уоррен Гиш
Уоррен Ричард Гиш | |
---|---|
Национальность | Американский |
Альма-матер | Калифорнийский университет, Беркли |
Известный | ВЗРЫВ |
Научная карьера | |
Поля | Биоинформатика |
Учреждения | Национальный центр биотехнологической информации Вашингтонский университет в Сент-Луисе ООО «Продвинутый Биокомпьютинг» Калифорнийский университет, Беркли |
Диссертация | I. Мутанты SV40, выделенные из трансформированных клеток человека. II. Методы анализа последовательностей (1988) |
Докторантура | Майкл Ботчан [1] |
Уоррен Ричард Гиш — владелец компании Advanced Biocomputing LLC. Он поступил на работу в Вашингтонский университет в Сент-Луисе в качестве младшего преподавателя в 1994 году и был доцентом-исследователем кафедры генетики с 2002 по 2007 год. [2] [3]
Образование
[ редактировать ]После первоначального изучения физики Гиш получил бакалавра степень биохимии в Калифорнийском университете в Беркли и защитил докторскую диссертацию. Степень в области молекулярной биологии в том же учреждении в 1988 году. [1]
Исследовать
[ редактировать ]Гиш прежде всего известен своим вкладом в NCBI BLAST . [4] [5] его создание сетевой службы BLAST и баз данных nr (неизбыточных), выпуск в 1996 году оригинального BLAST с пробелами ( WU-BLAST 2.0 ), а совсем недавно его разработка и поддержка AB-BLAST . В Вашингтонском университете в Сент-Луисе Гиш также возглавлял группу анализа генома, которая аннотировала все готовые данные о геноме человека, мыши и крысы, полученные Университетским центром секвенирования генома с 1995 по 2002 год.
Будучи аспирантом, Гиш применил алгоритм Куайна-МакКласки для анализа последовательностей распознавания сайтов сплайсинга. В 1985 году, с целью быстрой идентификации сайтов узнавания ферментов рестрикции в ДНК, Гиш разработал библиотеку функций DFA на C. языке Идея применить к этой задаче конечный автомат была предложена его коллегой-аспирантом и BSD UNIX разработчиком Майком Карелсом . Реализация DFA Гиша представляла собой архитектуру машины Мили , которая более компактна, чем эквивалентная машина Мура , и, следовательно, быстрее. Построение DFA составило O( n ), где n — сумма длин последовательностей запросов. Затем DFA можно было бы использовать для сканирования последовательностей объектов за один проход без обратного отслеживания за время O( m ), где m — общая длина объекта(ов). Позже метод построения DFA был признан объединением двух алгоритмов, алгоритмов 3 и 4, описанных Альфредом В. Ахо и Маргарет Дж. Корасик . [6]
Работая в Калифорнийском университете в Беркли в декабре 1986 года, Гиш ускорил FASTP. программу [7] (позже известный как FASTA [8] ) Уильяма Р. Пирсона и Дэвида Дж. Липмана в 2–3 раза без изменения результатов. Когда об изменениях производительности было сообщено Пирсону и Липману, Гиш далее предположил, что DFA (а не таблица поиска) обеспечит более быструю идентификацию k-кортежей и улучшит общую скорость программы, возможно, в некоторых случаях на целых 10%; однако авторы сочли, что такое незначительное улучшение даже в лучшем случае не стоит усложнения кода. В то время Гиш также предполагал создание централизованной службы поиска, в которой все нуклеотидные последовательности из GenBank будут храниться в памяти для устранения узких мест ввода-вывода — и храниться в сжатой форме для экономии памяти — с клиентами, вызывающими поиск FASTN удаленно через Интернет.
Самый ранний вклад Гиша в BLAST был сделан во время работы в NCBI , начиная с июля 1989 года. Даже в ранних прототипах BLAST обычно работал намного быстрее, чем FASTA . Гиш осознал потенциальную дополнительную выгоду в этом приложении от использования DFA для распознавания совпадений слов. Он преобразовал свой предыдущий код DFA в гибкую форму, которую включил во все режимы поиска BLAST . Среди других его вкладов в BLAST : использование сжатых нуклеотидных последовательностей как в качестве эффективного формата хранения, так и в качестве быстрого, естественного формата поиска; параллельная обработка; ввод-вывод с отображением в памяти; использование сторожевых байтов и сторожевых слов в начале и конце последовательностей для повышения скорости расширения слов; оригинальные реализации BLASTX , [9] ТБЛАСТН [4] и TBLASTX (неопубликовано); прозрачное использование внешних (подключаемых модулей) программ, таких как seg , xnu и пыли, для маскировки областей низкой сложности в последовательностях запросов во время выполнения; служба электронной почты NCBI BLAST с дополнительной связью, зашифрованной открытым ключом; экспериментальная сетевая служба NCBI BLAST; базы данных неизбыточных ( nr ) белков и нуклеотидных последовательностей NCBI, обычно обновляемые ежедневно всеми данными из GenBank , Swiss-Prot и PIR . Гиш разработал первый BLAST API , который использовался в EST [10] аннотаций и создания данных Entrez , а также в пакете приложений NCBI BLAST версии 1.4 (Gish, неопубликовано). Гиш также был создателем и руководителем проекта первого NCBI Dispatcher для распределенных сервисов (вдохновленного ) CORBA Object Request Broker . Впервые открытая для внешних пользователей в декабре 1989 года, NCBI Experimental Network Service, использующая новейшее программное обеспечение BLAST на оборудовании SMP и последние версии основных баз данных последовательностей, быстро превратила NCBI в удобный и универсальный центр для поиска сходства последовательностей. .
В Вашингтонском университете в Сент-Луисе Гиш совершил революцию в поиске сходства, разработав первый набор программ BLAST , сочетающий быстрое выравнивание последовательностей с пробелами.с методами статистической оценки, подходящими для оценок с пробелами в выравнивании.Полученные в результате программы поиска были значительно более чувствительными, но лишь незначительно медленнее, чем BLAST без разрыва .благодаря новому применению показателя снижения BLAST X во время расширения выравнивания с пробелами.Чувствительность BLAST с гэпом была улучшена благодаря новому приложению.статистики суммы Карлина-Альтшуля [11] для оценки нескольких оценок выравнивания с пробелами во всех BLAST режимах поиска .Суммарная статистика изначально была разработана аналитически для оценки нескольких неразрывных показателей выравнивания.Эмпирическое использование статистики сумм при лечении разрывов в показателях выравнивания было подтверждено в сотрудничестве со Стивеном Альтшулом с 1994 по 1995 год.В мае 1996 года версия 2.0 WU-BLAST с пробелами в выравнивании была публично выпущена в виде дополнительного обновления для существующих пользователей NCBI BLAST и WU-BLAST без пробелов (оба версии 1.4 после разветвления в 1994 году).На его разработку WU-BLAST было получено небольшое финансирование NIH: в среднем 20% FTE началось в ноябре 1995 года и закончилось вскоре после выпуска в сентябре 1997 года NCBI Gapped BLAST («blastall»).В качестве опции к WU-BLAST Гиш реализовал более быстрый, более эффективно использующий память и более чувствительный двуххитовый алгоритм BLAST , чем тот, который использовался программным обеспечением NCBI в течение многих лет.В 1999 году Гиш добавил в WU-BLAST поддержку расширенного формата базы данных (XDF), первого Формат базы данных BLAST , способный точно представлять всю черновую последовательность генома человека в объектах полноразмерных хромосомных последовательностей.Это также был первый случай, когда какой-либо пакет BLAST представил новый формат базы данных прозрачно для существующих пользователей, не отказываясь от поддержки предыдущих форматов, в результате абстрагирования функций ввода-вывода базы данных от функций анализа данных.WU-BLAST с XDF был первым пакетом BLAST , поддерживающим индексированный поиск идентификаторов последовательностей стандарта NCBI в формате FASTA (включая весь диапазон идентификаторов NCBI); первыйобеспечить возможность поиска отдельных последовательностей частично или полностью, в нативном виде, транслированном или обратно дополненном; и первый, способный выгружать все содержимое базы данных BLAST обратно в удобочитаемый формат FASTA . уникальная поддержка отчетов о ссылках (согласованных наборах HSP; в некоторых более поздних пакетах программного обеспечения также называемых цепочками В 2000 году была добавлена ).наряду с возможностью пользователей ограничивать расстояние между HSP, разрешенное в одном наборе, до биологически значимой длины ( например, длина ожидаемого самого длинного интрона у интересующего вида)и с ограничением расстояния, входящим в расчет E. значений В период с 2001 по 2003 год Гиш улучшил скорость кода DFA , используемого в WU-BLAST.Гиш также предложил мультиплексировать последовательности запросов для ускорения поиска BLAST на порядок и более (MPBLAST); реализованы сегментированные последовательности с внутренними сторожевыми байтами, частично для облегчения мультиплексирования с MPBLAST и частично для облегчения анализа сегментированных последовательностей запросов из сборок дробового секвенирования;и целенаправленное использование WU-BLAST в качестве быстрой и гибкой поисковой системы для точной идентификации и маскировки последовательностей генома для повторяющихся элементов и последовательностей низкой сложности (MaskerAid [12] пакет для RepeatMasker).Вместе с докторантом Мяо Чжаном Гиш руководил разработкой EXALIN. [13] что значительно улучшило точность прогнозов выравнивания сращивания,с помощью нового подхода, который объединил информацию из моделей донорного и акцепторного сайта сплайсинга с информацией о сохранении последовательности.Хотя EXALIN по умолчанию выполняет полное динамическое программирование , он может дополнительно использовать выходные данные WU-BLAST для начала динамического программирования и ускорения процесса примерно в 100 раз с небольшой потерей чувствительности или точности.
В 2008 году Гиш основал компанию Advanced Biocomputing, LLC, где продолжает совершенствовать и поддерживать пакет AB-BLAST. [ нужна ссылка ]
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Гиш, Уоррен Ричард (1988). I. Мутанты SV40, выделенные из трансформированных клеток человека. II. Методы анализа последовательностей (кандидатская диссертация). Калифорнийский университет, Беркли. ПроКвест 303669506 .
- ^ Публикации Уоррена Гиша, индексируемые Microsoft Academic.
- ^ Уоррен Гиш на DBLP библиографическом сервере
- ^ Перейти обратно: а б Альтшул, С. ; Гиш, В .; Миллер, В .; Майерс, Э .; Липман, Д. (1990). «Базовый инструмент поиска локального выравнивания». Журнал молекулярной биологии . 215 (3): 403–410. дои : 10.1016/S0022-2836(05)80360-2 . ПМИД 2231712 . S2CID 14441902 .
- ^ Смысл последовательностей: Стивен Ф. Альтшул об улучшении BLAST
- ^ Ахо, Альфред В .; Корасик, Маргарет Дж. (июнь 1975 г.). «Эффективное сопоставление строк: помощь в библиографическом поиске» . Коммуникации АКМ . 18 (6): 333–340. дои : 10.1145/360825.360855 . S2CID 207735784 .
- ^ Липман, диджей; Пирсон, WR (1985). «Быстрый и чувствительный поиск сходства белков». Наука . 227 (4693): 1435–41. Бибкод : 1985Sci...227.1435L . дои : 10.1126/science.2983426 . ПМИД 2983426 .
- ^ Пирсон, WR; Липман, диджей (1988). «Улучшенные инструменты сравнения биологических последовательностей» . Труды Национальной академии наук Соединенных Штатов Америки . 85 (8): 2444–2448. Бибкод : 1988PNAS...85.2444P . дои : 10.1073/pnas.85.8.2444 . ПМК 280013 . ПМИД 3162770 .
- ^ Гиш, В.; Штаты, диджей (1993). «Идентификация областей, кодирующих белки, путем поиска по сходству в базе данных». Природная генетика . 3 (3): 266–272. дои : 10.1038/ng0393-266 . ПМИД 8485583 . S2CID 15295142 .
- ^ Богуский, М.С.; Лоу, ТМ; Толстошев, В.М. (1993). "dbEST — база данных для "тегов выраженной последовательности" " . Природная генетика . 4 (4): 332–333. дои : 10.1038/ng0893-332 . ПМИД 8401577 . S2CID 40138950 .
- ^ Карлин, С. ; Альтшул, СФ (1993). «Приложения и статистика для нескольких сегментов с высокими показателями в молекулярных последовательностях» . Труды Национальной академии наук Соединенных Штатов Америки . 90 (12): 5873–5877. Бибкод : 1993PNAS...90.5873K . дои : 10.1073/pnas.90.12.5873 . ПМК 46825 . ПМИД 8390686 .
- ^ Беделл, Дж.А.; Корф, И.; Гиш, В. (2000). «MaskerAid: повышение производительности Повторного Маскера» . Биоинформатика . 16 (11): 1040–1041. дои : 10.1093/биоинформатика/16.11.1040 . ПМИД 11159316 .
- ^ Чжан, М.; Гиш, В. (2005). «Улучшенное выравнивание сращивания на основе теоретического подхода». Биоинформатика . 22 (1): 13–20. doi : 10.1093/биоинформатика/bti748 . ПМИД 16267086 .