Биологические данные
Биологические данные относятся к соединениям или информации, полученной из живых организмов и их продуктов. Лекарственное соединение, полученное из живых организмов, такое как сыворотка или вакцина, можно охарактеризовать как биологические данные. Биологические данные очень сложны по сравнению с другими формами данных. Существует множество форм биологических данных, включая текст, данные о последовательностях, структуру белка, геномные данные и аминокислоты, а также ссылки среди прочего.

данные биоинформатика Биологические и
Биологические данные тесно взаимодействуют с биоинформатикой — новой дисциплиной, ориентированной на необходимость анализа и интерпретации огромных объемов геномных данных.
За последние несколько десятилетий скачки в геномных исследованиях привели к получению огромных объемов биологических данных. В результате была создана биоинформатика как объединение геномики, биотехнологии и информационных технологий с упором на биологические данные.
Биологические данные также сложно определить, поскольку биоинформатика является обширной областью. Кроме того, вопрос о том, что представляет собой живой организм, был спорным, поскольку «живой» представляет собой расплывчатый термин, охватывающий молекулярную эволюцию, биологическое моделирование, биофизику и системную биологию. Начиная с прошлого десятилетия, биоинформатика и анализ биологических данных процветают благодаря скачкам в технологиях, необходимых для управления и интерпретации данных. В настоящее время это процветающая область, поскольку общество все больше концентрируется на приобретении, передаче и использовании биоинформатики и биологических данных.
Типы данных биологических
Биологические данные могут быть извлечены для использования в областях омики , биовизуализации и медицинской визуализации . Ученые-биологи ценят биологические данные, чтобы предоставить молекулярные детали живых организмов. Инструменты для секвенирования ДНК, экспрессии генов (GE), биовизуализации, нейровизуализации и интерфейсов «мозг-машина» — все это области, которые используют биологические данные и моделируют биологические системы с высокой размерностью. [1]
Более того, необработанные данные о биологических последовательностях обычно относятся к ДНК , РНК и аминокислотам . [1]
Биологические данные также можно охарактеризовать как данные о биологических объектах. [2] Например, такие характеристики, как последовательности, графики, геометрическая информация, скалярные и векторные поля, шаблоны, ограничения, изображения и пространственная информация, могут быть охарактеризованы как биологические данные, поскольку они описывают особенности биологических существ. Во многих случаях биологические данные связаны с несколькими из этих категорий. Например, как описано в отчете Национального института здравоохранения « Катализация исследований на стыке вычислений и биологии», структура белка может быть связана с одномерной последовательностью, двухмерным изображением и трехмерной структурой, и так на. [2]

Биомедицинские данных базы
Биомедицинские базы данных часто называют базами данных электронных медицинских карт (EHR) , геномных данных в децентрализованных федеральных системах баз данных и биологических данных, включая геномные данные, собранные в ходе крупномасштабных клинических исследований. [3] [4]
Биохакерство угрозы конфиденциальности и
Биохакинг [ править ]
Биокомпьютерные атаки стали более распространенными, поскольку недавние исследования показали, что обычные инструменты могут позволить злоумышленнику синтезировать биологическую информацию, которую можно использовать для кражи информации из анализа ДНК. [5] Угроза биохакинга стала более очевидной по мере того, как анализ ДНК становится все более распространенным в таких областях, как судебная медицина, клинические исследования и геномика.
Биохакинг может осуществляться путем синтеза вредоносной ДНК и внедрения ее в биологические образцы. Исследователи установили сценарии, демонстрирующие угрозу биохакинга, например, когда хакер получает биологический образец, скрывая вредоносную ДНК на обычных поверхностях, таких как лабораторные халаты, скамейки или резиновые перчатки, которые затем загрязняют генетические данные. [5]
Однако угрозу биохакинга можно снизить, используя методы, аналогичные тем, которые используются для предотвращения обычных инъекционных атак. Клиницисты и исследователи могут смягчить последствия биохака, извлекая генетическую информацию из биологических образцов и сравнивая образцы для идентификации неизвестных материалов. Исследования показали, что сравнение генетической информации с биологическими образцами для выявления кода биохакинга дает эффективность до 95% при обнаружении вредоносных вставок ДНК при биохакерских атаках. [5]
образцы как персональные данные Генетические
Проблемы конфиденциальности в геномных исследованиях возникают в связи с представлением о том, содержат ли геномные образцы личные данные или их следует рассматривать как физическую материю. [6] Более того, возникают опасения, поскольку некоторые страны признают геномные данные персональными данными (и применяют правила защиты данных), в то время как другие страны рассматривают образцы как физическую материю и не применяют те же законы о защите данных к геномным образцам. Предстоящий Общий регламент по защите данных ( GDPR ) был назван потенциальным правовым инструментом, который может лучше обеспечить соблюдение правил конфиденциальности в биобанкинге и геномных исследованиях. [6]
Однако двусмысленность вокруг определения «персональных данных» в тексте GDPR, особенно в отношении биологических данных, привела к сомнениям относительно того, будет ли применяться регулирование в отношении генетических образцов. Статья 4(1) гласит, что персональные данные определяются как «Любая информация, относящаяся к идентифицированному или идентифицируемому физическому лицу («субъекту данных»)». [7]
Применение глубокого обучения биологическим данным к
В результате быстрого прогресса в области науки о данных и вычислительной мощности ученые-биологи смогли применять методы машинного обучения с интенсивным использованием данных к биологическим данным, такие как глубокое обучение (DL), обучение с подкреплением (RL) и их комбинация (глубокое RL). ). Эти методы, наряду с увеличением объемов хранения и вычислений данных, позволили ученым-биологам извлекать биологические данные и анализировать наборы данных, которые ранее были слишком большими или сложными. Глубокое обучение (DL) и обучение с подкреплением (RL) использовались в области омических исследований. [1] (который включает геномику, протеомику или метаболомику.) Обычно необработанные данные о биологических последовательностях (таких как ДНК, РНК и аминокислоты) извлекаются и используются для анализа особенностей, функций, структур и молекулярной динамики на основе биологических данных. С этого момента могут быть выполнены различные анализы, такие как прогнозирование соединений сплайсинга с профилированием GE, а также может быть выполнена оценка белок-белкового взаимодействия. [1]
Обучение с подкреплением — термин, пришедший из поведенческой психологии, — это метод решения проблем путем изучения вещей методом проб и ошибок. Обучение с подкреплением можно применить к биологическим данным в области омики, используя RL для прогнозирования бактериальных геномов. [8]
Другие исследования показали, что обучение с подкреплением можно использовать для точного прогнозирования аннотаций биологических последовательностей. [9]
Архитектуры глубокого обучения (DL) также полезны при обучении биологических данных. Например, архитектуры DL, нацеленные на уровни пикселей биологических изображений, использовались для идентификации процесса митоза на гистологических изображениях молочной железы. Архитектуры DL также использовались для идентификации ядер на изображениях клеток рака молочной железы. [10]
Проблемы интеллектуального анализа данных биомедицинской в информатике
Сложность [ править ]
Основной проблемой, с которой сталкиваются модели биомедицинских данных, обычно является сложность, поскольку ученые-биологи в клинических условиях и биомедицинских исследованиях сталкиваются с возможностью информационной перегрузки. Однако информационная перегрузка часто является обсуждаемым явлением в области медицины. [11] Вычислительные достижения позволили сформироваться отдельным сообществам, придерживающимся разных философий. Например, исследователи интеллектуального анализа данных и машинного обучения ищут соответствующие закономерности в биологических данных, и архитектура не полагается на вмешательство человека. Однако при моделировании артефактов возникают риски, когда вмешательство человека, такое как понимание и контроль конечного пользователя, уменьшается. [12]
Исследователи отмечают, что в условиях растущих затрат на здравоохранение и огромных объемов недостаточно используемых данных информационные технологии здравоохранения могут стать ключом к повышению эффективности и качества здравоохранения. [11]
Ошибки базы данных и злоупотребления [ править ]
Электронные медицинские карты (ЭМК) могут содержать геномные данные миллионов пациентов, и создание этих баз данных вызвало как похвалу, так и беспокойство. [4]
Ученые-правоведы указали на три основные проблемы, связанные с увеличением количества судебных разбирательств, касающихся биомедицинских баз данных. Во-первых, данные, содержащиеся в биомедицинских базах данных, могут быть неверными или неполными. Во-вторых, системные предубеждения, которые могут возникнуть из-за предубеждений исследователей или характера биологических данных, могут поставить под угрозу достоверность результатов исследований. В-третьих, наличие интеллектуального анализа данных в биологических базах данных может облегчить людям с политическими, социальными или экономическими интересами манипулирование результатами исследований с целью повлиять на общественное мнение. [13] [4]
Пример неправильного использования базы данных произошел в 2009 году, когда Журнал психиатрических исследований опубликовал исследование, в котором аборты связывались с психическими расстройствами. [14] Целью исследования было проанализировать связь между абортами в анамнезе и психическими расстройствами, такими как тревожные расстройства (включая паническое расстройство, посттравматическое стрессовое расстройство и агорафобию), а также расстройства, связанные со злоупотреблением психоактивными веществами и расстройствами настроения.
Однако исследование было дискредитировано в 2012 году, когда ученые тщательно изучили методологию исследования и нашли ее серьезно ошибочной. [15] Исследователи использовали «национальные наборы данных с переменными репродуктивного анамнеза и психического здоровья». [14] чтобы представить свои выводы. Однако исследователям не удалось сравнить женщин (у которых была незапланированная беременность и которые сделали аборты) с группой женщин, у которых не было абортов, сосредоточив внимание на психиатрических проблемах, возникших после прерывания беременности. В результате выводы, которые, как казалось, имели научную достоверность, привели к тому, что несколько штатов приняли законы. [16] это требовало от женщин обращения за консультацией перед абортом из-за возможных долгосрочных последствий для психического здоровья.
Другая статья, опубликованная в New York Times, продемонстрировала, как врачи могут манипулировать системами электронных медицинских карт (EHR) с целью преувеличить объем предоставляемой ими помощи в целях возмещения расходов по программе Medicare. [17] [4]

данными биомедицинскими Обмен
Обмен биомедицинскими данными рекламируется как эффективный способ повышения воспроизводимости исследований и научных открытий. [13] [18]
В то время как исследователи борются с технологическими проблемами при обмене данными, социальные проблемы также являются препятствием для обмена биологическими данными. Например, врачи и исследователи сталкиваются с уникальными проблемами при обмене биологическими или медицинскими данными в своих медицинских сообществах, такими как проблемы конфиденциальности и законы о конфиденциальности пациентов, такие как HIPAA. [19]
данными обмену Отношение к
По данным исследования 2015 года [19] Сосредоточив внимание на отношении к практике врачей и научно-исследовательских сотрудников, большинство респондентов сообщили, что обмен данными важен для их работы, но отметили, что их знания в этом вопросе были низкими. Из 190 респондентов, принявших участие в опросе, 135 назвали себя учеными-клиниками или фундаментальными исследователями, а в состав опрошенных вошли ученые-клиницисты и фундаменталисты, участвующие в программе очных исследований в Национальном институте здравоохранения. Исследование также показало, что среди респондентов обмен данными напрямую с другими врачами был обычной практикой, но субъекты исследования имели мало практики загрузки данных в хранилище.
В области биомедицинских исследований поощряется обмен данными. [20] как важный способ для исследователей обмениваться и повторно использовать данные, чтобы в полной мере воспользоваться преимуществами персонализированной и точной медицины . [19]
Проблемы обмена данными
Обмен данными в здравоохранении остается проблемой по нескольким причинам. Несмотря на достижения исследований в области обмена данными в здравоохранении, многие организации здравоохранения по-прежнему неохотно или не желают раскрывать медицинские данные из-за законов о конфиденциальности, таких как Закон о переносимости и подотчетности медицинского страхования (HIPAA) . Более того, обмен биологическими данными между учреждениями требует защиты конфиденциальности данных, которые могут охватывать несколько организаций. Достижение синтаксиса данных и семантической неоднородности при одновременном соблюдении разнообразных требований конфиденциальности — все это факторы, которые создают препятствия для обмена данными. [21]
Ссылки [ править ]
- ↑ Перейти обратно: Перейти обратно: а б с д Махмуд, муфтий; Кайзер, Мохаммед Шамим; Хусейн, Амир; Вассанелли, Стефано (июнь 2018 г.). «Применение глубокого обучения и обучения с подкреплением к биологическим данным» . Транзакции IEEE в нейронных сетях и системах обучения . 29 (6): 2063–2079. дои : 10.1109/tnnls.2018.2790388 . hdl : 1893/26814 . ISSN 2162-237X . ПМИД 29771663 . S2CID 9823884 .
- ↑ Перейти обратно: Перейти обратно: а б Вули, Джон К.; Лин, Герберт С.; Биология, Комитет Национального исследовательского совета (США) по границам компьютерного интерфейса и (2005). О природе биологических данных . Издательство национальных академий (США).
- ^ Надкарни, премьер-министр; Брандт, К.; Фроули, С.; Сэйворд, ФГ; Эйнбиндер, Р.; Зельтерман, Д.; Шахтер, Л.; Миллер, Польша (1 марта 1998 г.). «Управление данными клинических испытаний с использованием атрибутивно-значительной системы базы данных клиент-сервер ACT/DB» . Журнал Американской ассоциации медицинской информатики . 5 (2): 139–151. дои : 10.1136/jamia.1998.0050139 . ISSN 1067-5027 . ПМК 61285 . ПМИД 9524347 .
- ↑ Перейти обратно: Перейти обратно: а б с д Хоффман, Шарона; Подгурски, Энди (2013). «Использование и неправильное использование биомедицинских данных: чем больше, тем лучше?» . Американский журнал права и медицины . 39 (4): 497–538. дои : 10.1177/009885881303900401 . ISSN 0098-8588 . ПМИД 24494442 . S2CID 35371353 .
- ↑ Перейти обратно: Перейти обратно: а б с Ислам, Мохд Сибли; Иванов С.; Робсон, Э.; Дули-Куллинан, Т.; Коффи, Л.; Дулин, К.; Баласубраманиам, С. (2019). «Генетическое сходство биологических образцов для противодействия биохакингу функциональности секвенирования ДНК» . Научные отчеты . 9 (1): 8684. Бибкод : 2019НатСР...9.8684И . дои : 10.1038/s41598-019-44995-6 . ПМК 6581904 . ПМИД 31213619 . S2CID 190652460 .
- ↑ Перейти обратно: Перейти обратно: а б Халлинан, Дара; Де Херт, Пол (2016), Миттельштадт, Брент Дэниел; Флориди, Лучано (ред.), «Многие ошибаются: образцы действительно содержат персональные данные: Положение о защите данных как превосходная основа для защиты интересов доноров в биобанкинге и геномных исследованиях» , «Этика больших биомедицинских данных » , «Право, управление и Серия технологий, том. 29, Чам: Springer International Publishing, стр. 119–137, номер документа : 10.1007/978-3-319-33525-4_6 , ISBN. 978-3-319-33525-4 , получено 9 декабря 2020 г.
- ^ «Statewatch.org» (PDF) . StateWatch.org . Проверено 3 июля 2015 г.
- ^ Чуанг, Ли-Йе; Цай, Джуй-Хунг; Ян, Ченг-Хонг (июль 2010 г.). «Оптимизация роя бинарных частиц для предсказания оперонов» . Исследования нуклеиновых кислот . 38 (12): е128. дои : 10.1093/nar/gkq204 . ISSN 0305-1048 . ПМЦ 2896535 . ПМИД 20385582 .
- ^ Ралха, КГ; Шнайдер, Х.В.; Уолтер, МЭМТ; Баззан, Алабама (октябрь 2010 г.). «Метод обучения с подкреплением для биоагентов» . 2010 Одиннадцатый Бразильский симпозиум по нейронным сетям . стр. 109–114. дои : 10.1109/СБРН.2010.27 . ISBN 978-1-4244-8391-4 . S2CID 14685651 .
- ^ Сюй, Цзюнь; Сян, Лей; Лю, Циншань; Гилмор, Ханна; Ву, Цзяньчжун; Тан, Цзинхай; Мадабхуши, Анант (январь 2016 г.). «Сложенный разреженный автоэнкодер (SSAE) для обнаружения ядер на гистопатологических изображениях рака молочной железы» . Транзакции IEEE по медицинской визуализации . 35 (1): 119–130. дои : 10.1109/TMI.2015.2458702 . ISSN 0278-0062 . ПМЦ 4729702 . ПМИД 26208307 .
- ↑ Перейти обратно: Перейти обратно: а б Хольцингер, Андреас; Юришица, Игорь (2014), Холцингер, Андреас; Юришица, Игорь (ред.), «Обнаружение знаний и интеллектуальный анализ данных в биомедицинской информатике: будущее за интегративными интерактивными решениями машинного обучения» , Интерактивное обнаружение знаний и интеллектуальный анализ данных в биомедицинской информатике: современное состояние и проблемы будущего , Конспекты лекций по информатике, вып. 8401, Берлин, Гейдельберг: Springer, стр. 1–18, doi : 10.1007/978-3-662-43968-5_1 , ISBN. 978-3-662-43968-5 , получено 9 декабря 2020 г.
- ^ Шнейдерман, Бен (март 2002 г.). «Изобретение инструментов обнаружения: сочетание визуализации информации с интеллектуальным анализом данных» . Визуализация информации . 1 (1): 5–12. doi : 10.1057/palgrave.ivs.9500006 . hdl : 1903/6484 . ISSN 1473-8716 . S2CID 208272047 .
- ↑ Перейти обратно: Перейти обратно: а б Миттельштадт, Брент Дэниел; Флориди, Лучано (апрель 2016 г.). «Этика больших данных: текущие и прогнозируемые проблемы в биомедицинском контексте» . Наука и инженерная этика . 22 (2): 303–341. дои : 10.1007/s11948-015-9652-2 . ISSN 1471-5546 . ПМИД 26002496 . S2CID 23142795 .
- ↑ Перейти обратно: Перейти обратно: а б Коулман, Присцилла К.; Койл, Кэтрин Т.; Шупинг, Марта; Рю, Винсент М. (май 2009 г.). «Индуцированный аборт и расстройства тревоги, настроения и злоупотребления психоактивными веществами: выделение последствий аборта в национальном обследовании сопутствующих заболеваний» . Журнал психиатрических исследований . 43 (8): 770–776. дои : 10.1016/j.jpsychires.2008.10.009 . ISSN 1879-1379 . ПМИД 19046750 .
- ^ Кесслер, Рональд К.; Шацберг, Алан Ф. (март 2012 г.). «Комментарий Стейнберга и Файнера к исследованиям абортов (Social Science & Medicine 2011; 72:72–82) и Коулмана (Журнал психиатрических исследований 2009; 43:770–6 и Журнал психиатрических исследований 2011; 45:1133–4)» . Журнал психиатрических исследований . 46 (3): 410–411. doi : 10.1016/j.jpsychires.2012.01.021 .
- ^ «Консультирование и периоды ожидания аборта» . Институт Гутмахера . 14 марта 2016 г. Проверено 9 декабря 2020 г.
- ^ Абельсон, Рид; Кресвелл, Джули; Палмер, Грифф (22 сентября 2012 г.). «Счета за медицинскую помощь растут, поскольку записи становятся электронными (опубликовано в 2012 г.)» . Нью-Йорк Таймс . ISSN 0362-4331 . Проверено 9 декабря 2020 г.
- ^ Калькман, Шона; Мостерт, Менно; Герлингер, Кристоф; ван Делден, Йоханнес Дж.М.; ван Тиль, Гислен JMW (28 марта 2019 г.). «Ответственный обмен данными в международных исследованиях в области здравоохранения: систематический обзор принципов и норм» . Медицинская этика BMC . 20 (1): 21. дои : 10.1186/s12910-019-0359-9 . ISSN 1472-6939 . ПМК 6437875 . ПМИД 30922290 .
- ↑ Перейти обратно: Перейти обратно: а б с Федерер, Лиза М.; Лу, Я-Лин; Жубер, Дуглас Дж.; Валлийский, Джудит; Брэндис, Барбара (24 июня 2015 г.). Канунго, Джьотшна (ред.). «Обмен и повторное использование биомедицинских данных: взгляды и практика сотрудников клинических и научных исследований» . ПЛОС ОДИН . 10 (6): e0129506. Бибкод : 2015PLoSO..1029506F . дои : 10.1371/journal.pone.0129506 . ISSN 1932-6203 . ПМЦ 4481309 . ПМИД 26107811 .
- ^ Шнейдерман, Бен (21 июля 2016 г.). «Изобретение инструментов обнаружения: сочетание визуализации информации с интеллектуальным анализом данных1» . Визуализация информации . 1 :5–12. doi : 10.1057/palgrave.ivs.9500006 . hdl : 1903/6484 . S2CID 208272047 .
- ^ Виммер, Хайден; Юн, Виктория Ю.; Сугумаран, Виджаян (01 августа 2016 г.). «Мультиагентная система для поддержки доказательной медицины и принятия клинических решений посредством обмена данными и конфиденциальности данных» . Системы поддержки принятия решений . 88 : 51–66. дои : 10.1016/j.dss.2016.05.008 . ISSN 0167-9236 .