Jump to content

Биостатистика

(Перенаправлено от биостатистов )

Биостатистика (также известная как биометрия ) - это ветвь статистики , которая применяет статистические методы к широкому спектру тем в биологии . Он включает в себя проектирование биологических экспериментов , сбора и анализа данных из этих экспериментов и интерпретации результатов.

Биостатистика и генетика

[ редактировать ]

Биостатистическое моделирование является важной частью многочисленных современных биологических теорий. Генетические исследования, с момента его начала, использовали статистические концепции для понимания наблюдаемых экспериментальных результатов. Некоторые ученые -генетики даже внесли свой вклад со статистическими достижениями с разработкой методов и инструментов. Грегор Мендель начал исследования генетики, изучающих модели сегрегации генетики в семействах гороха и использовали статистику для объяснения собранных данных. В начале 1900 -х годов, после повторного открытия работы Менделя по наследству Менделя, были пробелы в понимании между генетикой и эволюционным дарвинизмом. Фрэнсис Галтон попытался расширить открытия Менделя с помощью человеческих данных и предложил другую модель с долями наследственности, исходящей от каждой предки, сочиняющей бесконечную серию. Он назвал это теорией « Закона наследственной наследственности ». Его идеи были категорически не согласованы Уильямом Бейтсоном , который следил за выводами Менделя, что генетическое наследование было исключительно от родителей, наполовину от каждого из них. Это привело к энергичной дискуссии между биометрическими лицами, которые поддержали идеи Гальтона, как Рафаэль Уэлдон , Артур Дукифилд Дарбишир и Карл Пирсон , а также Менделицы, которые поддержали идеи Бейтсона (и Менделя), такие как Чарльз Давенпорт и Вильгельм Йоханнсен . Позже, биометрии не могли воспроизвести выводы Гальтона в различных экспериментах, и идеи Менделя преобладали. неодарвиниана К 1930-м годам модели, основанные на статистических рассуждениях, помогли разрешить эти различия и создать современный эволюционный синтез .

Решение этих различий также позволило определить концепцию генетики популяции и объединить генетику и эволюцию. Три ведущих фигуры в создании генетики популяции и этого синтеза полагались на статистику и разработали его использование в биологии.

Эти и другие биостатистики, математические биологи и статистически наклонные генетики помогли объединить эволюционную биологию и генетику в последовательное, когерентное целое, которое могло бы начать количественно смоделировать.

Параллельно с этим общим развитием, новаторская работа D'Arcy Thompson по росту и форме также помогла добавить количественную дисциплину к биологическому исследованию.

Несмотря на фундаментальное значение и частую необходимость статистических рассуждений, у биологов, тем не менее, у биологов была тенденция не доверять или не оправдать результаты, которые не являются качественно очевидными. Один анекдот описывает Томаса Ханта Моргана, запрещающего калькулятор Фридена в своем отделе в Калифорнии , говоря: «Ну, я как парень, который разыгрывает золото вдоль берегов реки Сакраменто в 1849 году. С небольшим разведением я могу дотянуться и дотянуть Возьмите большие самородки . золота [ 3 ]

Планирование исследований

[ редактировать ]

Любые исследования в области наук о жизни предлагаются, чтобы ответить на научный вопрос , который у нас может возникнуть. Чтобы ответить на этот вопрос с высокой уверенностью, нам нужны точные результаты. Правильное определение основной гипотезы и плана исследования уменьшит ошибки, принимая решение о понимании явления. План исследований может включать в себя вопрос исследования, гипотезу, который будет протестирован, экспериментальный дизайн , сбора данных методы , перспективы анализа данных и затраты. Важно провести исследование на основе трех основных принципов экспериментальной статистики: рандомизация , репликация и локальный контроль.

Вопрос исследования

[ редактировать ]

Вопрос исследования будет определять цель исследования. Исследование будет возглавлять вопрос, поэтому оно должно быть кратким, в то же время оно сосредоточено на интересных и новых темах, которые могут улучшить науку и знания и эту область. Чтобы определить способ задать научный вопрос исчерпывающий обзор литературы , может потребоваться . Таким образом, исследование может быть полезно для повышения ценности к научному сообществу . [ 4 ]

Определение гипотезы

[ редактировать ]

Как только цель исследования будет определена, возможные ответы на вопрос исследования могут быть предложены, превратив этот вопрос в гипотезу . Основное предложение называется нулевой гипотезой (H 0 ) и обычно основано на постоянном знании по теме или очевидному появлению явлений, поддерживаемого глубоким обзором литературы. Можно сказать, что это стандартный ожидаемый ответ для данных в рамках теста . В целом, он не предполагает никакой связи между лечением . С другой стороны, альтернативной гипотезой является отрицание h o . Это предполагает некоторую степень связи между лечением и результатом. Хотя гипотеза поддерживается исследованием вопросов и ее ожидаемыми и неожиданными ответами. [ 4 ]

В качестве примера рассмотрим группы сходных животных (например, мышей) в двух разных диетических системах. Вопрос исследования будет: какая диета лучше всего? В этом случае h 0 мышей нет различий будет заключаться в том, что между двумя диетами в метаболизме (H 0 : μ 1 = μ 2 ), и альтернативной гипотезой будет то, что диеты оказывают различные эффекты на метаболизм животных (H 1 : μ 1 ↓ μ 2 ).

Гипотеза . определяется исследователем, согласно его/ее интересам в ответе на основной вопрос Кроме того, альтернативная гипотеза может быть более чем одной гипотезой. Это может предположить не только различия между наблюдаемыми параметрами, но и степень их различий ( то есть выше или короче).

Обычно исследование направлено на то, чтобы понять влияние явления на популяцию . В биологии популяция , в определяется как все особенности данного вида определенной области в определенное время. В биостатистике эта концепция распространяется на различные коллекции, возможные для изучения. Хотя в биостатистике популяция - это не только индивидуумы, но и общее количество конкретного компонента их организмов , как весь геном или все сперматозоиды , для животных или общей площади листа, для растения, например, например Полем

Невозможно принять меры из всех элементов населения . Из -за этого процесс отбора проб очень важен для статистического вывода . Отбор проб определяется как случайным образом получить репрезентативную часть всей популяции, чтобы сделать задние выводы о популяции. Таким образом, выборка может уловить наибольшую изменчивость среди населения. [ 5 ] Размер выборки определяется несколькими вещами, так как объем исследования для доступных ресурсов. В клинических исследованиях тип исследования, как неполноценность , эквивалентность и превосходство являются ключом в определении размера выборки . [ 4 ]

Экспериментальный дизайн

[ редактировать ]

Экспериментальные проекты поддержали эти основные принципы экспериментальной статистики . Существует три основных экспериментальных дизайна для случайного распределения на всех участках эксперимента . обработок Они являются полностью рандомизированным дизайном , рандомизированным дизайном блока и факториальным дизайном . Лечение может быть организовано во многих отношениях внутри эксперимента. В сельском хозяйстве правильный экспериментальный дизайн является корнем хорошего исследования, и расположение лечения в исследовании имеет важное значение, потому что окружающая среда в значительной степени влияет на участки ( растения , домашний скот , микроорганизмы ). Эти основные договоренности можно найти в литературе под названиями « решетки », «неполных блоков», « разделенного сюжета », «дополненных блоков» и многих других. Все конструкции могут включать в себя управляющие графики , определяемые исследователем, чтобы обеспечить оценку ошибки во время вывода .

В клинических исследованиях образцы эффект обычно меньше, чем в других биологических исследованиях, и в большинстве случаев окружающей среды может контролироваться или измерять. Обычно используется рандомизированные контролируемые клинические испытания , где результаты обычно сравниваются с проектами обсервационных исследований , такими как Case -Control или Cohort . [ 6 ]

Сбор данных

[ редактировать ]

Методы сбора данных должны учитываться при планировании исследований, поскольку они сильно влияют на размер выборки и экспериментальный дизайн.

Сбор данных варьируется в зависимости от типа данных. Для качественных данных сбор может быть сделан с помощью структурированных вопросников или наблюдения, учитывая наличие или интенсивность заболевания, используя критерий баллов для классификации уровней возникновения. [ 7 ] Для количественных данных сбор осуществляется путем измерения численной информации с использованием инструментов.

В исследованиях сельского хозяйства и биологии данные о урожайности и его компоненты могут быть получены с помощью метрических мер . Тем не менее, травмы вредителей и заболеваний в платтах получают путем наблюдения, учитывая шкалы баллов по уровням повреждения. В частности, в генетических исследованиях следует рассматривать современные методы сбора данных в полевых условиях и лаборатории, как высокопроизводительные платформы для фенотипирования и генотипирования. Эти инструменты позволяют большие эксперименты, в то время как возможны повернуть на оценку многих участков в более низкое время, чем только метод для сбора данных на основе человека. Наконец, все данные, собранные интересами, должны храниться в организованной кадре данных для дальнейшего анализа.

Анализ и интерпретация данных

[ редактировать ]

Описательные инструменты

[ редактировать ]

Данные могут быть представлены с помощью таблиц или графического представления, таких как линейные диаграммы, гистограммы, гистограммы, график рассеяния. Кроме того, показатели центральной тенденции и изменчивости могут быть очень полезны для описания обзора данных. Следуйте некоторым примерам:

Частотные таблицы

[ редактировать ]

Одним из типов таблицы является таблица частот , которая состоит из данных, расположенных в строках и столбцах, где частота - это количество случаев или повторений данных. Частота может быть: [ 8 ]

Абсолют : представляет количество раз, когда появляется определенное значение;

Относительно : получен подразделение абсолютной частоты на общее количество;

В следующем примере у нас есть количество генов в десяти оперонах того же организма.

Genes = {2,3,3,4,5,3,3,3,3,4}
Номер генов Абсолютная частота Относительная частота
1 0 0
2 1 0.1
3 6 0.6
4 2 0.2
5 1 0.1

Линейный график

[ редактировать ]
Рисунок A: Пример графа линии . Уровень рождаемости в Бразилии (2010–2016); [ 9 ] Рисунок B: Пример схемы. Уровень рождаемости в Бразилии за декабрьские месяцы с 2010 по 2016 год; Рисунок C: Пример графика коробки : количество глицинов в протеоме из восьми различных организмов (AH); Рисунок D: Пример рассеянного графика.

Линейные графики представляют вариацию значения по другой метрике, например, время. В целом, значения представлены в вертикальной оси, в то время как изменение времени представлено в горизонтальной оси. [ 10 ]

Барная карта

[ редактировать ]

Бар -диаграмма - это график, который показывает категориальные данные в виде стержней, представляющих высоты (вертикальную полосу) или ширину (горизонтальная полоса), пропорциональные для представления значений. Бар -карты предоставляют изображение, которое также может быть представлено в табличном формате. [ 10 ]

В примере бар -диаграммы у нас есть рождаемость в Бразилии за декабрьские месяцы с 2010 по 2016 год. [ 9 ] Острый падение в декабре 2016 года отражает вспышку вируса Зика в уровне рождаемости в Бразилии.

Гистограммы

[ редактировать ]
Пример гистограммы.

Гистограмма (или распределение частоты) представляет собой графическое представление набора данных , табличного и разделенного на однородные или неравномерные классы. Впервые он был представлен Карлом Пирсоном . [ 11 ]

Разбросанный сюжет

[ редактировать ]

График рассеяния - это математическая диаграмма, которая использует картезианские координаты для отображения значений набора данных. График рассеяния показывает данные как набор точек, каждый из которых представляет значение одной переменной, определяющей положение на горизонтальной оси, и другую переменную на вертикальной оси. [ 12 ] Их также называют графиком рассеяния , диаграммы рассеяния , рассеянной грамы или диаграммы рассеяния . [ 13 ]

Иметь в виду

[ редактировать ]

- Среднее арифметику это сумма набора значений ( ) разделено на количество предметов этой коллекции ( ).

Медиана - это значение в середине набора данных.

Режим - это значение набора данных, которые появляются чаще всего. [ 14 ]

Сравнение между средним, медианным и режимом
Значения = {2,3,3,3,3,3,4,4,11}
Тип Пример Результат
Иметь в виду ( 2 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 11 ) / 9 4
Медиана 2, 3, 3, 3, 3 , 3, 4, 4, 11 3
Режим 2, 3, 3, 3, 3, 3 , 4, 4, 11 3

Коронный график - это метод для графического изображения групп численных данных. Максимальные и минимальные значения представлены линиями, а межквартильный диапазон (IQR) представляет 25–75% данных. Выбросы могут быть построены как круги.

Коэффициенты корреляции

[ редактировать ]

Хотя корреляции между двумя различными видами данных могут быть выведены с помощью графиков, таких как график рассеяния, необходимо подтвердить это, хотя и числовая информация. По этой причине коэффициенты корреляции требуются . Они обеспечивают числовое значение, которое отражает силу ассоциации. [ 10 ]

Коэффициент корреляции Пирсона

[ редактировать ]
Диаграмма рассеяния, которая демонстрирует корреляцию Пирсона для различных значений ρ.

Коэффициент корреляции Пирсона является мерой связи между двумя переменными, x и y. Этот коэффициент, обычно представляемый ρ (rho) для популяции и R для выборки, предполагает значения между -1 и 1, где ρ = 1 представляет собой идеальное Положительная корреляция, ρ = -1 представляет идеальную отрицательную корреляцию, а ρ = 0 не является линейной корреляцией. [ 10 ]

Сделанная статистика

[ редактировать ]

Используется для выводов [ 15 ] О неизвестной популяции, по оценке и/или тестированию гипотез. Другими словами, желательно получить параметры для описания интересующей популяции, но, поскольку данные ограничены, необходимо использовать репрезентативную выборку для их оценки. При этом можно проверить ранее определенные гипотезы и применить выводы ко всей популяции. Стандартная ошибка среднего - это мера изменчивости, которая имеет решающее значение для выводов. [ 5 ]

Тестирование гипотезы важно сделать выводы о популяциях, направленных на то, чтобы ответить на вопросы исследования, как это было установлено в разделе «Планирование исследований». Авторы определили четыре шага, которые будут установлены: [ 5 ]

  1. Гипотеза, которая должна быть проверена : как указывалось ранее, мы должны работать с определением нулевой гипотезы (H 0 ), которая будет проверена, и альтернативной гипотезой . Но они должны быть определены до реализации эксперимента.
  2. Уровень значимости и правило принятия решений : правило принятия решения зависит от уровня значимости или, другими словами, приемлемой частоты ошибок (α). Проще думать, что мы определяем критическое значение , которое определяет статистическую значимость, когда статистика теста с ней сравнивается . Таким образом, α также должен быть предопределен до эксперимента.
  3. Эксперимент и статистический анализ : это когда эксперимент действительно реализуется после соответствующего экспериментального проекта , собираются данные, и оцениваются более подходящие статистические тесты.
  4. Вывод : сделан, когда нулевая гипотеза отвергается или не отклоняется, на основе доказательств того, что сравнение значений P и α приносит. Указано, что неспособность отклонить H 0 просто означает, что нет достаточных доказательств, чтобы подтвердить его отказ, но не то, что эта гипотеза верна.

Доверительный интервал - это диапазон значений, которые могут содержать истинное значение реального параметра в данном определенном уровне достоверности. Первый шаг-оценить наиболее непревзойденную оценку параметра населения. Верхнее значение интервала получается по сумме этой оценки с умножением между стандартной ошибкой среднего и уровнем доверия. Расчет более низкого значения аналогично, но вместо суммы необходимо применяться вычитание. [ 5 ]

Статистические соображения

[ редактировать ]

Мощность и статистическая ошибка

[ редактировать ]

При тестировании гипотезы возможны два типа статистических ошибок: ошибка типа I и ошибка типа II .

Уровень значимости, обозначаемый α, является частотой ошибок типа I, и его следует выбрать перед выполнением теста. Частота ошибок типа II обозначена β, а статистическая сила теста составляет 1 - β.

P-значение

[ редактировать ]

P -значение -это вероятность получения результатов как экстремальных или более экстремальных, чем наблюдаемые, предполагая, что нулевая гипотеза (H 0 ) верна. Это также называется расчетной вероятностью. Обычно путать значение p с уровнем значимости (α) , но α является предопределенным порогом для вызова значимых результатов. Если P меньше α, нулевая гипотеза (H 0 ) отклоняется. [ 16 ]

Несколько тестирования

[ редактировать ]

В нескольких тестах одной и той же гипотезы вероятность возникновения положительных результатов (частота ошибок семейства) увеличивается, и некоторая стратегия используется для контроля этого возникновения. Это обычно достигается с использованием более строгого порога для отклонения нулевых гипотез. Коррекция Бонферрони определяет приемлемый глобальный уровень значимости, обозначенный α*, и каждый тест сравнивается со значением α = α*/m. Это гарантирует, что частота ошибок семейства во всех тестах M меньше или равна α*. Когда M велик, коррекция Бонферрони может быть чрезмерно консервативной. Альтернативой коррекции Бонферрони является контроль скорости ложного обнаружения (FDR) . FDR контролирует ожидаемую долю отклоненных нулевых гипотез (так называемые открытия), которые являются ложными (неверные отклонения). Эта процедура гарантирует, что для независимых тестов частота ложных обнаружений не более Q*. Таким образом, FDR менее консервативна, чем коррекция Бонферрони, и обладает большей властью, за счет большего количества ложных срабатываний. [ 17 ]

Проверка неправильной спецификации и надежности

[ редактировать ]

Основная проверка гипотеза (например, никакая связь между лечением и результатами) часто сопровождается другими техническими предположениями (например, о форме распределения вероятностей результатов), которые также являются частью нулевой гипотезы. Когда технические допущения нарушаются на практике, то нулевое может быть часто отвергнуто, даже если основная гипотеза верна. Говорят, что такие отклонения связаны с неверной спецификацией. [ 18 ] Проверка, не изменяется ли результат статистического теста, когда технические предположения слегка изменены (так называемые проверки надежности), является основным способом борьбы с неправильной спецификацией.

Критерии выбора модели

[ редактировать ]

Выбор критериев модели выберет или моделируйте, что более приблизительную истинную модель. Информационный критерий Акаике (AIC) и байесовский информационный критерий (BIC) являются примерами асимптотически эффективных критериев.

Разработки и большие данные

[ редактировать ]

Недавние события оказали большое влияние на биостатистику. Двумя важными изменениями были способность собирать данные по высокопроизводительной шкале и способность выполнять гораздо более сложный анализ с использованием вычислительных методов. Это происходит из -за развития в областях как секвенирования технологии , биоинформатики и машинного обучения ( машинное обучение в биоинформатике ).

Использовать в высокопроизводительных данных

[ редактировать ]

Новые биомедицинские технологии, такие как микрочипы , секвенсоры следующего поколения (для геномики) и масс-спектрометрия (для протеомики), генерируют огромные количества данных, позволяя выполнять многие тесты одновременно. [ 19 ] Тщательный анализ с биостатистическими методами необходим для отделения сигнала от шума. Например, микрочип может быть использован для одновременного измерения многих тысяч генов, определяя, какие из них имеют различную экспрессию в больных клетках по сравнению с нормальными клетками. Однако только часть генов будет дифференциально экспрессирована. [ 20 ]

Многоколлинеарность часто встречается в высокопроизводительных биостатистических условиях. Из -за высокой взаимосвязи между предикторами (такими как уровни экспрессии генов ), информация одного предиктора может содержаться в другом. Может случиться так, что только 5% предикторов ответственны за 90% изменчивости ответа. В таком случае можно применить биостатистическую технику уменьшения измерений (например, с помощью анализа основных компонентов). Классические статистические методы, такие как линейная или логистическая регрессия и линейный дискриминант, не очень хорошо работают для данных высокого размера (то есть, когда количество наблюдений n меньше, чем количество функций или предикторов P: N <P). На самом деле, можно получить довольно высокий r 2 -Коля, несмотря на очень низкую прогностическую силу статистической модели. Эти классические статистические методы (особенно линейная регрессия наименьших квадратов ) были разработаны для данных о низких размерных данных (то есть, где количество наблюдений n намного больше, чем количество предикторов P: N >> P). В случаях высокой размерности всегда следует учитывать независимый набор тестирования проверки и соответствующую остаточную сумму квадратов (RS) и R 2 из набора тестирования валидации, а не в учебном наборе.

Часто это полезно для объединения информации из нескольких предикторов. Например, анализ обогащения наборов генов (GSEA) учитывает возмущение цельных (функционально связанных) наборов генов, а не отдельных генов. [ 21 ] Эти наборы генов могут быть известны биохимическим путям или иным образом функционально связанным генам. Преимущество этого подхода заключается в том, что он более надежный: более вероятно, что один ген обнаруживается ложно возмущено, чем то, что целый путь является ложно возмущенным. Кроме того, можно интегрировать накопленные знания о биохимических путях (таких как сигнальный путь JAK-Stat ), используя этот подход.

Биоинформатические достижения в базах данных, добыче данных и биологической интерпретации

[ редактировать ]

Разработка биологических баз данных позволяет хранить и управлять биологическими данными с возможностью обеспечения доступа для пользователей по всему миру. Они полезны для исследователей, ведущих данные, извлекать информацию и файлы (необработанные или обработанные), созданные из других экспериментов или индексации научных статей, как PubMed . Другая возможность - поиск желаемого термина (ген, белок, болезнь, организм и т. Д.) И проверить все результаты, связанные с этим поиском. Существуют базы данных, посвященные SNP ( DBSNP ), знания о характеристике генов и их путях ( KEGG ) и описание функции генов, классифицирующей ее с помощью клеточной компоненты, молекулярной функции и биологического процесса ( онтология генов ). [ 22 ] В дополнение к базам данных, которые содержат определенную молекулярную информацию, есть и другие, которые достаточно в том смысле, что они хранят информацию об организме или группе организмов. В качестве примера базы данных, направленной только на один организм, но содержит много данных об этом, является Arabidopsis Thaliana - Tair. генетической и молекулярной базой данных [ 23 ] Фитузом, [ 24 ] В свою очередь, хранит сборки и аннотационные файлы дюжины геномов растений, также содержащие инструменты визуализации и анализа. Более того, существует взаимосвязь между некоторыми базами данных в обмене/обмене информационными данными, и основной инициативой было сотрудничество международной базы данных нуклеотидных последовательностей (INSDC) [ 25 ] который связывает данные из DDBJ, [ 26 ] Embl-worth, [ 27 ] и NCBI. [ 28 ]

В настоящее время увеличение размера и сложности молекулярных наборов данных приводит к использованию мощных статистических методов, предоставленных алгоритмами информатики, которые разработаны в области машинного обучения . Следовательно, интеллектуальный анализ данных и машинное обучение позволяют обнаружить закономерности в данных со сложной структурой, в качестве биологических, с использованием методов контролируемого и неконтролируемого обучения , регрессии, обнаружения кластеров и добычи правил ассоциации , среди прочего. [ 22 ] Чтобы указать некоторые из них, самоорганизующие карты и k -массы являются примерами кластерных алгоритмов; поддержки нейронных сетей Модели реализации и и поддержки модели являются примерами общих алгоритмов машинного обучения.

Совместная работа среди молекулярных биологов, биоинформатиков, статистиков и компьютерных ученых важна для правильного выполнения эксперимента, переходя от планирования, прохождения через генерацию и анализ данных и заканчивая биологической интерпретацией результатов. [ 22 ]

Использование вычислительно интенсивных методов

[ редактировать ]

С другой стороны, появление современных компьютерных технологий и относительно дешевых вычислительных ресурсов позволило компьютерным биостатистическим методам, таким как методы начальной загрузки и повторной выборки .

В последнее время случайные леса приобрели популярность как метод выполнения статистической классификации . Случайные методы леса генерируют группу деревьев решений. Деревья решений имеют то преимущество, которое вы можете нарисовать и интерпретировать их (даже с базовым пониманием математики и статистики). Таким образом, случайные леса использовались для систем поддержки клинических решений. [ Цитация необходима ]

Приложения

[ редактировать ]

Общественное здравоохранение

[ редактировать ]

Общественное здравоохранение , включая эпидемиологию , исследования в области здравоохранения , питание , здравоохранение и политику здравоохранения и управление здравоохранением. В этом содержимое лекарства важно рассмотреть дизайн и анализ клинических испытаний . В качестве одного примера, существует оценка состояния тяжести пациента с прогнозом результата заболевания.

С новыми технологиями и знаниями об генетике биостатистика в настоящее время также используется для системной медицины , которая состоит в более персонализированной медицине. Для этого является интеграцией данных из разных источников, включая обычные данные пациентов, клинико-патологические параметры, молекулярные и генетические данные, а также данные, полученные дополнительными технологиями новой амики. [ 29 ]

Количественная генетика

[ редактировать ]

Изучение генетики популяции и статистической генетики с целью связать вариации в генотипе с изменением фенотипа . Другими словами, желательно обнаружить генетическую основу измеримой признаки, количественной черты, которая находится под полигенным контролем. Область генома, которая отвечает за непрерывную черту, называется количественным локусом признака (QTL). Изучение QTL становится возможным с использованием молекулярных маркеров и измерения признаков в популяциях, но их картирование требует получения популяции от экспериментального пересечения, таких как F2 или рекомбинантные инбредные штаммы /линии (RIL). Чтобы сканировать области QTLS в геноме, карта генов, должна быть построена основанная на сцеплении. Некоторые из самых известных алгоритмов картирования QTL-это картирование интервалов, составное отображение интервала и множественное интервальное отображение. [ 30 ]

Тем не менее, разрешение картирования QTL нарушается из -за анализа рекомбинации, возникает проблема для видов, в которой трудно получить крупное потомство. Кроме того, разнообразие аллелей ограничено людям, возникшими от контрастных родителей, что ограничивает исследования разнообразия аллелей, когда у нас есть группа людей, представляющих естественную популяцию. [ 31 ] По этой причине было предложено исследование ассоциации по всему геному , чтобы идентифицировать QTL на основе неравновесного сцепления , то есть нелупись ассоциации между признаками и молекулярными маркерами. Он был использован путем развития высокопроизводительного генотипирования SNP . [ 32 ]

При размножении животных и растений использование маркеров в отборе , направленном на разведение, в основном молекулярные, сотрудничало с развитием отбора с помощью маркеров . В то время как картирование QTL ограничено из -за разрешения, GWAS не обладает достаточной мощностью, когда редкие варианты небольшого эффекта, которые также подвержены влиянию окружающей среды. Таким образом, концепция геномного отбора (GS) возникает для использования всех молекулярных маркеров в отборе и позволить прогнозирование производительности кандидатов в этом отборе. Предложение заключается в том, чтобы генотип и фенотип, обучающая популяция, разработку модели, которая может получить геномные оценки значений размножения (GEBV) людей, принадлежащих к генотипу, а не фенотипной популяции, называемой тестируемой популяцией. [ 33 ] Этот вид исследования может также включать в себя подтвержденную популяцию, размышляя о концепции перекрестной проверки , в которой реальные результаты фенотипа, измеренные в этой популяции, сравниваются с результатами фенотипа, основанными на прогнозировании, что использовалось для проверки точности модели Полем

В качестве резюме, некоторые точки о применении количественной генетики:

Данные выражения

[ редактировать ]

Исследования дифференциальной экспрессии генов из данных RNA-seq , как и для RT-QPCR и микрочипов , требует сравнения условий. Цель состоит в том, чтобы идентифицировать гены, которые имеют значительное изменение в изобилии между различными условиями. Затем эксперименты разрабатываются соответствующим образом, с повторениями для каждого состояния/лечения, рандомизации и блокировки, когда это необходимо. В RNA-seq количественная оценка экспрессии использует информацию о отображенных чтениях, которые суммированы в некоторой генетической единице, в качестве экзонов , которые являются частью генной последовательности. Поскольку результаты микрочипов могут быть аппроксимированы с помощью нормального распределения, данные RNA-Seq лучше объясняются другими распределениями. Первым использованным распределением было Пуассон , но оно недооценивает ошибку выборки, что приводит к ложным положительным. В настоящее время биологические изменения рассматриваются методами, которые оценивают параметр дисперсии отрицательного биномиального распределения . Обобщенные линейные модели используются для выполнения тестов на статистическую значимость, и, поскольку количество генов высокое, необходимо учитывать множественные тесты. [ 34 ] Некоторые примеры другого анализа данных о геномике поступают из по микрочипам или протеомике . экспериментов [ 35 ] [ 36 ] Часто относительно заболеваний или стадий заболевания. [ 37 ]

Другие исследования

[ редактировать ]

Инструменты

[ редактировать ]

Есть много инструментов, которые можно использовать для проведения статистического анализа в биологических данных. Большинство из них полезны в других областях знаний, охватывая большое количество приложений (алфавит). Вот краткие описания некоторых из них:

  • ASREML : еще одно программное обеспечение, разработанное VSNI [ 40 ] Это можно использовать также в R -среде в качестве пакета. Он разработан для оценки компонентов дисперсии в общей линейной смешанной модели с использованием ограниченной максимальной вероятности (REML). Модели с фиксированными эффектами и случайными эффектами и вложенными или скрещенными разрешены. Дает возможность исследовать различные -ковариации дисперсии . структуры матрицы
  • Cycdesign: [ 41 ] Компьютерный пакет, разработанный VSNI [ 40 ] Это помогает исследователям создавать экспериментальные проекты и анализировать данные, поступающие из дизайна, присутствующего в одном из трех классов, обработанных Cycdesign. Эти классы разрешаются, не разрешаемые, частично воспроизводимые и кроссоверные конструкции . Он включает в себя менее используемые конструкции латинизированных, как T-латинизированный дизайн. [ 42 ]
  • Orange : интерфейс программирования для обработки данных высокого уровня, интеллектуального анализа данных и визуализации данных. Включите инструменты для экспрессии генов и геномики. [ 22 ]
  • R : Среда с открытым исходным кодом и язык программирования, посвященные статистическим вычислениям и графике. Это реализация языка S , поддерживаемого Cran. [ 43 ] В дополнение к его функциям, чтобы считывать таблицы данных, принимать описательные статистические данные, разрабатывать и оценивать модели, его репозиторий содержит пакеты, разработанные исследователями по всему миру. Это позволяет разработать функции, записанные, чтобы справиться со статистическим анализом данных, которые поступают из конкретных приложений. [ 44 ] Например, в случае биоинформатики существуют пакеты, расположенные в основном репозитории (CRAN) и в других, как биоконкуртир . Также можно использовать разработанные пакеты, которые используются в хостинг-услугах в качестве GitHub .
  • SAS : программное обеспечение для анализа данных широко используется, проходя через университеты, услуги и отрасль. Разработанный компанией с тем же названием ( SAS Institute ), он использует язык SAS для программирования.
  • PLA 3.0: [ 45 ] Является программным обеспечением для биостатистического анализа для регулируемых сред (например, тестирования на лекарства), которое поддерживает анализы количественного ответа (параллельная линия, параллельная логистика, склоны) и дихотомические анализы (квантальный ответ, бинарные анализы). Он также поддерживает методы взвешивания для комбинированных расчетов и автоматическую агрегацию данных независимых данных анализа.
  • Weka : программное обеспечение Java для машинного обучения и интеллектуального анализа данных , включая инструменты и методы визуализации, кластеризации, регрессии, правила ассоциации и классификации. Существуют инструменты для перекрестной проверки, начальной загрузки и модуля сравнения алгоритмов. Weka также может быть запущен в других языках программирования как Perl или R. [ 22 ]
  • Анализ изображений Python (язык программирования) , глубокое обучение, машинное обучение
  • SQL Базы данных
  • Nosql
  • Numpy Numerical Python
  • Scipy
  • Сагимат
  • LAPACK Линейная алгебра
  • Матлаб
  • Apache Hadoop
  • Apache Spark
  • Amazon Web Services

Программы по объему и обучение

[ редактировать ]

Почти все образовательные программы в области биостатистики находятся на уровне аспиранта . Они чаще всего встречаются в школах общественного здравоохранения, связанных со школами медицины, лесного хозяйства или сельского хозяйства, или в центре внимания применения в отделениях статистики.

В Соединенных Штатах, где в нескольких университетах есть посвященные отделы биостатистики, многие другие университеты высшего уровня интегрируют факультет биостатистики в статистику или другие отделы, такие как эпидемиология . Таким образом, департаменты, несущие название «Биостатистика», могут существовать в совершенно разных структурах. Например, относительно новые департаменты биостатистики были основаны с акцентом на биоинформатику и вычислительную биологию , тогда как более старые департаменты, обычно связанные с школами общественного здравоохранения , будут иметь более традиционные линии исследований, включающих эпидемиологические исследования и клинические испытания , а также биоинформатику. В более крупных университетах по всему миру, где существуют как статистика, так и департамент биостатистики, степень интеграции между двумя департаментами может варьироваться от минимума до очень близкого сотрудничества. В целом, разница между статистической программой и программой биостатистики является двойной: (i) отделы статистики часто проводят теоретические/методологические исследования, которые реже в программах биостатистики и (ii) отделения статистики имеют линии исследований, которые могут включать биомедицинские приложения но и другие области, такие как промышленность ( Контроль качества ), бизнес и экономика и биологические области, кроме медицины.

Специализированные журналы

[ редактировать ]
  • Биостатистика [ 46 ]
  • Международный журнал биостатистики [ 47 ]
  • Журнал эпидемиологии и биостатистики [ 48 ]
  • Биостатистика и общественное здравоохранение [ 49 ]
  • Биометрия [ 50 ]
  • Биометрический [ 51 ]
  • Биометрический журнал [ 52 ]
  • Коммуникации в биометрии и науке урожая [ 53 ]
  • Статистические применения в генетике и молекулярной биологии [ 54 ]
  • Статистические методы в медицинских исследованиях [ 55 ]
  • Фармацевтическая статистика [ 56 ]
  • Статистика в медицине [ 57 ]

Смотрите также

[ редактировать ]
  1. ^ Центр трансформационных инноваций, Свинбернский технологический университет. «Аллан, Фрэнсис Элизабет (Бетти) - Человек - Энциклопедия австралийской науки и инноваций» . www.eoas.info . Получено 2022-10-26 .
  2. ^ Гантер, Крис (10 декабря 2008 г.). «Количественная генетика» . Природа . 456 (7223): 719. Bibcode : 2008natr.456..719G . doi : 10.1038/456719a . PMID   19079046 .
  3. ^ Чарльз Т. Мангер (2003-10-03). «Академическая экономика: сильные стороны и неисправности после рассмотрения междисциплинарных потребностей» (PDF) . Архивировано (PDF) из оригинала на 2022-10-09.
  4. ^ Jump up to: а беременный в Низамуддин, Сара Л.; Низамуддин, Джунайд; Мюллер, Ариэль; Рамакришна, Хариш; Шахул, Саджид С. (октябрь 2017 г.). «Разработка гипотетов и статистического планирования» Журнал кардиоторакальной и сосудистой анестезии 31 (5): 1878–1 Doi : 10.1053/ j.jvca.2017.04.020  28778775PMID
  5. ^ Jump up to: а беременный в дюймовый Оверхолсер, Брайан Р; Совински, Кевин М. (2017). «Биостатистический праймер: часть I». Питание в клинической практике . 22 (6): 629–35. doi : 10.1177/0115426507022006629 . PMID   18042950 .
  6. ^ Zczech, Линда Энн; Коладонато, Джозеф А.; Оуэн, Уильям Ф. (4 октября 2002 г.). «Ключевые понятия в биостатистике: использование статистики для ответа на вопрос» есть ли разница? » . Семинары в диализе . 15 (5): 347–351. doi : 10.1046/j.1525-139x.2002.00085.x . PMID   12358639 . S2CID   30875225 .
  7. ^ Санделовски, Маргарет (2000). «Сочетание качественной и количественной выборки, сбора данных и анализа в исследованиях смешанных методов». Исследования по сестринскому делу и здоровью . 23 (3): 246–255. Citeseerx   10.1.1.472.7825 . doi : 10.1002/1098-240x (200006) 23: 3 <246 :: AID-NUR9> 3.0.CO; 2-H . PMID   10871540 . S2CID   10733556 .
  8. ^ Математика, Сангаку. «Абсолютная, относительная, кумулятивная частота и статистические таблицы - вероятность и статистика» . www.sangakoo.com . Получено 2018-04-10 .
  9. ^ Jump up to: а беременный "Datasus: Tabnet Win32 3.0: Living Born - Бразилия" . ДАТА: SUS Информационные технологии .
  10. ^ Jump up to: а беременный в дюймовый Фортфер, Рональд Н.; Ли, Юн Сул (1995). Введение в биостатистику. Руководство по проектированию, анализу и открытию . Академическая пресса. ISBN  978-0-12-262270-0 .
  11. ^ Пирсон, Карл (1895-01-01). «X. Вклад в математическую теорию эволюции . Фил. Транс. R. Soc. Лонд А 186 : 343–414. Bibcode : 1895rspta.186..343p . doi : 10.1098/rsta.1895.0010 . ISSN   0264-3820 .
  12. ^ Уттс, Джессика М. (2005). Видя через статистику (3 -е изд.). Белмонт, Калифорния: Томсон, Брукс/Коул. ISBN  978-0534394028 Полем OCLC   56568530 .
  13. ^ Джаррелл, Стивен Б. (1994). Основная статистика . Дубьюк, Айова: Wm. C. Brown Pub. ISBN  978-0697215956 Полем OCLC   30301196 .
  14. ^ Гуджарати, Дамодар Н. (2006). Эконометрика . МакГроу-Хилл Ирвин.
  15. ^ Уотсон, Линдси (2009). «Основы биостатистики в общественном здравоохранении и основах рабочей книги по биостатистике: статистические вычисления с использованием Excel» . Австралийский и новозеландский журнал общественного здравоохранения . 33 (2): 196–197. doi : 10.1111/j.1753-6405.2009.00372.x . ISSN   1326-0200 .
  16. ^ Бейкер, Монья (2016). «Статистики выдают предупреждение о неправильном использовании ценностей P» . Природа . 531 (7593): 151. Bibcode : 2016nater.531..151b . doi : 10.1038/nature.2016.19503 . PMID   26961635 .
  17. ^ Benjamini, Y. & Hochberg, Y. Управление скоростью ложного обнаружения: практическое и мощное подход к множеству тестирования. Журнал Королевского статистического общества. Серия B (методологический) 57, 289–300 (1995).
  18. ^ «Нулевая гипотеза» . www.statlect.com . Получено 2018-05-08 .
  19. ^ Хейден, Эрика Чек (8 февраля 2012 г.). «Биостатистика: выявление анализа» . Природа . 482 (7384): 263–265. doi : 10.1038/nj7384-263a . PMID   22329008 .
  20. ^ Эфрон, Брэдли (февраль 2008 г.). «Микрочипы, эмпирическая байеса и модель двух групп». Статистическая наука . 23 (1): 1–22. Arxiv : 0808.0572 . doi : 10.1214/07-STS236 . S2CID   8417479 .
  21. ^ Субраманян, а.; Tamayo, P.; Mootha, VK; Mukherjee, S.; Эберт, Бл; Джилет, Массачусетс; Паулович, А.; Померой, SL; Голуб, Тр; Ландер, ES; Месров, JP (30 сентября 2005 г.). «Анализ обогащения генов: основанный на знаниях подход для интерпретации профилей экспрессии в масштабах генома» . Труды Национальной академии наук . 102 (43): 15545–15550. Bibcode : 2005pnas..10215545S . doi : 10.1073/pnas.0506580102 . PMC   1239896 . PMID   16199517 .
  22. ^ Jump up to: а беременный в дюймовый и Мур, Джейсон Х (2007). «Биоинформатика» . Журнал клеточной физиологии . 213 (2): 365–9. doi : 10.1002/jcp.21218 . PMID   17654500 . S2CID   221831488 .
  23. ^ «Тэйр - домашняя страница» . www.arabidopsis.org .
  24. ^ "Фитозом" . phytozome.jgi.doe.gov .
  25. ^ «Международная база данных базы данных нуклеотидов - INSDC» . www.insdc.org .
  26. ^ "Вершина" . www.ddbj.nig.ac.jp. ​11 января 2024 года.
  27. ^ «Европейский институт биоинформатики <embl-ebi» . www.ebi.ac.uk.
  28. ^ «Национальный центр биотехнологической информации» . www.ncbi.nlm.nih.gov . Национальная библиотека медицины США -.
  29. ^ Apweiler, Rolf; и др. (2018). "Куда системная медицина?" Полем Экспериментальная и молекулярная медицина . 50 (3): E453. doi : 10.1038/emm.2017.290 . PMC   5898894 . PMID   29497170 .
  30. ^ Zeng, Zhao-Bang (2005). «Картирование QTL и генетическая основа адаптации: последние разработки». Genetica . 123 (1–2): 25–37. doi : 10.1007/s10709-004-2705-0 . PMID   15881678 . S2CID   1094152 .
  31. ^ Корте, Артур; Фарлоу, Эшли (2013). «Преимущества и ограничения анализа признаков с GWAS: обзор» . Методы растения . 9 : 29. doi : 10.1186/1746-4811-9-29 . PMC   3750305 . PMID   23876160 .
  32. ^ Чжу, Чэнсонг; Гор, Майкл; Баклер, Эдвард С; Ю, Цзянминг (2008). «Статус и перспективы картирования ассоциации на растениях» . Геном растения . 1 : 5–20. doi : 10.3835/plantgenome2008.02.0089 .
  33. ^ Crossa, Хосе; Перес-Родригес, Паулино; Куэвас, Хайме; Montesinos-López, Osval; Джаркин, Диего; Де Лос Кампос, Густаво; Бургьё, Хуан; Гонсалес-Камачо, Хуан М; Перес-Элизальде, Серджио; Бейен, Йосеф; Дрейсигакер, Сюзанна; Сингх, Рави; Чжан, Сюекай; Говда, Манье; Рукивал, Маниш; Руткоски, Джессика; Варшни, Раджив К. (2017). «Геномный отбор в селекции растений: методы, модели и перспективы» (PDF) . Тенденции в науке о растениях . 22 (11): 961–975. Bibcode : 2017tps .... 22..961c . Doi : 10.1016/j.tlants.2017.08.011 . PMID   28965742 . Архивировано (PDF) из оригинала на 2022-10-09.
  34. ^ Ошлак, Алисия; Робинсон, Марк Д; Янг, Мэтью Д. (2010). «Из РНК-seq считывается до результатов дифференциальной экспрессии» . Биология генома . 11 (12): 220. DOI : 10.1186/GB-2010-11-12-220 . PMC   3046478 . PMID   21176179 .
  35. ^ Хелен Каустон; Джон Quackenbush; Alvis Brazma (2003). Статистический анализ данных микрочипов экспрессии генов . Wiley-Blackwell.
  36. ^ Терри Спид (2003). Анализ данных экспрессии гена микрочипа: руководство для начинающих . Chapman & Hall/Crc.
  37. ^ Фрэнк Эммерт-Страйб; Матиас Дехмер (2010). Медицинская биостатистика для сложных заболеваний . Wiley-Blackwell. ISBN  978-3-527-32585-6 .
  38. ^ Уоррен Дж. Эвенс; Грегори Р. Грант (2004). Статистические методы в биоинформатике: введение . Спрингер.
  39. ^ Матиас Дехмер; Фрэнк Эммерт-Страйб; Армин Грабер; Armindo Salvador (2011). Прикладная статистика для биологии сети: методы в системной биологии . Wiley-Blackwell. ISBN  978-3-527-32750-8 .
  40. ^ Jump up to: а беременный «Дом - VSN International» . www.vsni.co.uk.
  41. ^ "Cycdesign - VSN International" . www.vsni.co.uk.
  42. ^ Piepho, Hans-Peter; Уильямс, Эмлин Р; Мишель, Волкер (2015). «За пределами латинских квадратов: краткий тур по дизайну с рядовыми колоннами». Агрономия Журнал . 107 (6): 2263. Bibcode : 2015agrj..107.2263p . doi : 10.2134/agronj15.0144 .
  43. ^ «Комплексная архивная сеть R» . Cran.r-Project.org .
  44. ^ Ренганатан V (2021). Биостатистика, изученная через программное обеспечение R: обзор . Vinaitheerthan renganathan. ISBN  9789354936586 .
  45. ^ Стегманн, доктор Ральф (2019-07-01). "PLA 3.0" . PLA 3.0 - Программное обеспечение для биостатистического анализа . Получено 2019-07-02 .
  46. ^ «Биостатистика - Оксфордская академическая» . OUP Academic .
  47. ^ «Международный журнал биостатистики» .
  48. ^ «Журналы PubMed будут закрыты» . 15 июня 2018 года.
  49. ^ https://ebph.it/ Эпидемиология
  50. ^ «Биометрия» . OnlineLibrary.wiley.com . doi : 10.1111/(ISSN) 1541-0420 .
  51. ^ «Биометрика - Оксфордская академическая» . OUP Academic .
  52. ^ «Биометрический журнал» . OnlineLibrary.wiley.com . doi : 10.1002/(ISSN) 1521-4036 .
  53. ^ «Коммуникации в биометрии и науке культур» . Agrobiol.sggw.waw.pl .
  54. ^ «Статистические применения в генетике и молекулярной биологии» . www.degruyter.com . 1 мая 2002 г.
  55. ^ «Статистические методы в медицинских исследованиях» . Мудрецы Журналы .
  56. ^ «Фармацевтическая статистика» . OnlineLibrary.wiley.com .
  57. ^ «Статистика в медицине» . OnlineLibrary.wiley.com . doi : 10.1002/(ISSN) 1097-0258 .
[ редактировать ]

СМИ, связанные с биостатистикой в ​​Wikimedia Commons

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: da8c42fcc882d23c1ed9423b17fa5031__1724152920
URL1:https://arc.ask3.ru/arc/aa/da/31/da8c42fcc882d23c1ed9423b17fa5031.html
Заголовок, (Title) документа по адресу, URL1:
Biostatistics - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)