Упрощенная система ввода молекулярного ввода
Расширение имени файла | .smi |
---|---|
Тип интернет-СМИ | химикат/x-дневной свет-улыбки |
Тип формата | химический формат файла |
Упрощенная система ввода строк молекулярного ввода ( SMILES ) представляет собой спецификацию в виде строковой записи для описания структуры химических веществ с использованием коротких ASCII строк . Строки SMILES могут быть импортированы большинством редакторов молекул для преобразования обратно в двумерные рисунки или трехмерные модели молекул.
Первоначальная спецификация SMILES была разработана в 1980-х годах. С тех пор он был изменен и расширен. В 2007 году открытый стандарт был разработан в химическом сообществе с открытым исходным кодом OpenSMILES .
История
[ редактировать ]Первоначальная спецификация SMILES была инициирована Дэвидом Вейнингером в лаборатории отдела экологии Среднего континента USEPA в Дулуте в 1980-х годах. [1] [2] [3] [4] Благодарность за участие в ранней разработке получили «Гилман Вейт и Роуз Руссо (USEPA), а также Альберт Лео и Корвин Ханш ( Колледж Помоны ) за поддержку работы, а также Артур Вейнингер (Помона; Daylight CIS) и Джереми Скофилд (Cedar River Software), Рентон, Вашингтон) за помощь в программировании системы». [5] Агентство по охране окружающей среды профинансировало первоначальный проект по разработке SMILES. [6] [7]
С тех пор он был модифицирован и расширен другими, в первую очередь Daylight Chemical Information Systems . В 2007 году открытый стандарт разработало Blue Obelisk химическое сообщество с открытым исходным кодом под названием «OpenSMILES». Другие «линейные» обозначения включают обозначение линии Висвессера (WLN), ROSDAL и SLN (Tripos Inc).
В июле 2006 года ИЮПАК представил InChI в качестве стандарта представления формул. Обычно считается, что SMILES более удобочитаем, чем InChI; он также имеет широкую базу программного обеспечения с обширной теоретической поддержкой (например, теория графов ).
Терминология
[ редактировать ]Термин SMILES относится к строковой записи для кодирования молекулярных структур, и конкретные экземпляры следует строго называть строками SMILES. Однако термин SMILES также часто используется для обозначения как одной строки SMILES, так и нескольких строк SMILES; точное значение обычно ясно из контекста. Термины «канонический» и «изомерный» могут привести к некоторой путанице при применении к УЛЫБКАМ. Эти термины описывают различные атрибуты строк SMILES и не являются взаимоисключающими.
Обычно для молекулы можно записать несколько одинаково допустимых строк SMILES. Например, CCO
, OCC
и C(O)C
все указывают структуру этанола . Были разработаны алгоритмы для создания одной и той же строки SMILES для данной молекулы; из множества возможных строк эти алгоритмы выбирают только одну. Эти SMILES уникальны для каждой структуры, хотя и зависят от алгоритма канонизации, использованного для их создания, и называются каноническими SMILES. Эти алгоритмы сначала преобразуют УЛЫБКИ во внутреннее представление молекулярной структуры; затем алгоритм исследует эту структуру и создает уникальную строку SMILES. Были разработаны различные алгоритмы генерации канонических SMILES, в том числе алгоритмы Daylight Chemical Information Systems, OpenEye Scientific Software , MEDIT , Chemical Computing Group , MolSoft LLC и Chemistry Development Kit . Распространенным применением канонических SMILES является индексирование и обеспечение уникальности молекул в базе данных .
Оригинальная статья, описывающая КАНГЕН. [2] Алгоритм утверждает, что генерирует уникальные строки SMILES для графов, представляющих молекулы, но алгоритм не работает в ряде простых случаев (например, кунеан , 1,2-дициклопропилэтан) и не может считаться правильным методом канонического представления графа. [8] В настоящее время не проводится систематического сравнения коммерческого программного обеспечения для проверки наличия таких недостатков в этих пакетах.
Обозначение SMILES позволяет указать конфигурацию тетраэдрических центров и геометрию двойной связи. Это структурные особенности, которые не могут быть определены только с помощью связности, и поэтому УЛЫБКИ, которые кодируют эту информацию, называются изомерными УЛЫБКАМИ. Примечательной особенностью этих правил является то, что они допускают строгую частичную спецификацию киральности. Термин «изомерные SMILES» также применяется к SMILES, в которых изомеры указаны .
Определение на основе графика
[ редактировать ]С точки зрения вычислительной процедуры на основе графов, SMILES представляет собой строку, полученную путем печати узлов символов, встречающихся при в глубину обходе дерева химического графа . Химический граф сначала обрезается, чтобы удалить атомы водорода, а циклы разрываются, чтобы превратить его в связующее дерево . Там, где циклы были разорваны, включаются числовые суффиксные метки для обозначения подключенных узлов. Круглые скобки используются для обозначения точек ветвления дерева.
Результирующая форма SMILES зависит от выбора:
- облигаций, выбранных для разрыва циклов,
- стартового атома, используемого для обхода в глубину, и
- порядка, в котором перечислены ветки при обнаружении.
Определение SMILES как строки контекстно-свободного языка
[ редактировать ]С точки зрения формальной теории языка УЛЫБКА — это слово. SMILES можно анализировать с помощью контекстно-свободного анализатора. Это представление использовалось для предсказания биохимических свойств (включая токсичность и биоразлагаемость ) на основе основного принципа хемоинформатики, согласно которому подобные молекулы обладают схожими свойствами. В прогнозирующих моделях реализован подход распознавания синтаксических образов (который включал определение молекулярного расстояния). [9] а также более надежная схема, основанная на статистическом распознавании образов. [10]
Описание
[ редактировать ]Атомы
[ редактировать ]Атомы обозначаются стандартными сокращениями химических элементов в квадратных скобках, например: [Au]
за золото . Скобки можно опускать в общем случае атомов, которые:
- находятся в « органическом подмножестве » B , C , N , O , P , S , F , Cl , Br или I , и
- не имеют официального обвинения и
- иметь количество присоединенных атомов водорода, подразумеваемое валентной моделью SMILES (обычно их нормальная валентность, но для N и P она равна 3 или 5, а для S - 2, 4 или 6), и
- являются нормальными изотопами , и
- не являются хиральными центрами .
Все остальные элементы должны быть заключены в скобки, а заряды и атомы водорода должны быть явно указаны. Например, УЛЫБКИ для воды можно записать как O
или [OH2]
. Водород также можно записать как отдельный атом; воду можно также записать как [H]O[H]
.
При использовании скобок символ H
добавляется, если атом в скобках связан с одним или несколькими водородом, за которым следует число атомов водорода, если оно больше 1, то ставится знак +
для положительного заряда или -
за отрицательный заряд. Например, [NH4+]
для аммония ( NH +
4 ). Если имеется более одного заряда, он обычно записывается цифрой; однако можно также повторить знак столько раз, сколько ион имеет заряды: можно написать либо [Ti+4]
или [Ti++++]
для титана (IV) Ti 4+ . Таким образом, гидроксид- анион ( OH − ) представлен [OH-]
, катион гидроксония ( Н 3 О + ) является [OH3+]
и кобальта (III) катион (Co 3+ ) либо [Co+3]
или [Co+++]
.
Облигации
[ редактировать ]Облигация обозначается одним из символов . - = # $ : / \
.
Связи между алифатическими атомами считаются одинарными, если не указано иное, и подразумеваются смежностью в строке SMILES. Хотя одинарные облигации можно записать как -
, это обычно опускается. Например, УЛЫБКИ для этанола можно записать как C-C-O
, CC-O
или C-CO
, но обычно пишется CCO
.
Двойные, тройные и четверные связи обозначаются символами =
, #
, и $
соответственно, как показано на УЛЫБКАХ O=C=O
( диоксид углерода CO 2 ), C#N
( цианид водорода HCN) и [Ga+]$[As-]
( арсенид галлия ).
Дополнительным типом облигации является «необлигация», обозначаемая значком .
, чтобы указать, что две части не соединены вместе. Например, водный раствор хлорида натрия можно записать как [Na+].[Cl-]
чтобы показать диссоциацию.
Ароматическая «полуторная» связь может обозначаться знаком :
; см. § Ароматичность ниже.
Одинарные связи, соседние с двойными, можно представить с помощью /
или \
для указания стереохимической конфигурации; см. § Стереохимия ниже.
Кольца
[ редактировать ]Кольцевые структуры записываются путем разрыва каждого кольца в произвольной точке (хотя некоторые варианты приводят к более разборчивой УЛЫБКЕ, чем другие) для создания ациклической структуры и добавления числовых меток замыкания кольца, чтобы показать связь между несмежными атомами.
Например, циклогексан и диоксан можно записать как C1CCCCC1
и O1CCOCC1
соответственно. Для второго кольца метка будет 2. Например, декалин (декагидронафталин) можно записать как C1CCCC2C1CCCC2
.
SMILES не требует использования номеров звонков в каком-либо определенном порядке и допускает нулевой номер звонка, хотя это используется редко. Кроме того, разрешено повторно использовать номера колец после закрытия первого кольца, хотя обычно это затрудняет чтение формул. Например, бициклогексил обычно записывается как C1CCCCC1C2CCCCC2
, но это также можно записать как C0CCCCC0C0CCCCC0
.
Несколько цифр после одного атома обозначают несколько связей, замыкающих кольцо. Например, альтернативное обозначение декалина в формате SMILES: C1CCCC2CCCCC12
, где конечный углерод участвует в обеих замыкающих кольцо связях 1 и 2. Если требуются двузначные номера колец, перед меткой ставится %
, так C%12
представляет собой одинарную замыкающую связь кольца 12.
Одной или обеим цифрам может предшествовать тип связи, чтобы указать тип замыкающей кольцо связи. Например, циклопропен обычно пишут C1=CC1
, но если в качестве замыкающей кольцо выбрана двойная связь, ее можно записать как C=1CC1
, C1CC=1
, или C=1CC=1
. (Первая форма предпочтительнее.) C=1CC-1
является незаконным, поскольку явно указывает конфликтующие типы связи, замыкающей кольцо.
Замыкающие кольцо связи не могут использоваться для обозначения кратных связей. Например, C1C1
не является допустимой альтернативой C=C
для этилена . Однако их можно использовать с необлигациями; C1.C2.C12
это своеобразный, но законный альтернативный способ записи пропана , чаще пишется CCC
.
Выбор точки разрыва кольца рядом с прикрепленными группами может привести к более простой форме SMILES за счет исключения ветвей. Например, циклогексан-1,2-диол проще всего записать как OC1CCCCC1O
; выбор другого места разрыва кольца создает разветвленную структуру, для записи которой требуются круглые скобки.
Ароматность
[ редактировать ]Ароматические кольца, такие как бензол, могут быть записаны в одной из трех форм:
- В форме Кекуле с чередующимися одинарными и двойными связями, например
C1=CC=CC=C1
, - Использование символа ароматической связи
:
, напримерC:1:C:C:C:C:C1
, или - Чаще всего, записывая составляющие атомы B, C, N, O, P и S строчными буквами.
b
,c
,n
,o
,p
иs
, соответственно.
В последнем случае связи между двумя ароматическими атомами считаются (если это явно не показано) ароматическими связями. Таким образом, бензол , пиридин и фуран могут быть представлены соответственно SMILES. c1ccccc1
, n1ccccc1
и o1cccc1
.
Ароматический азот, связанный с водородом, который содержится в пирроле, должен быть представлен как [nH]
; таким образом, имидазол записывается в обозначениях SMILES как n1c[nH]cc1
.
Когда ароматические атомы связаны друг с другом одинарной связью, например, в бифениле , одинарная связь должна быть явно показана: c1ccccc1-c2ccccc2
. Это один из немногих случаев, когда символ одинарной связи -
требуется. (Фактически, большая часть программного обеспечения SMILES может правильно сделать вывод, что связь между двумя кольцами не может быть ароматической, и поэтому примет нестандартную форму. c1ccccc1c2ccccc2
.)
Алгоритмы Daylight и OpenEye для генерации канонических SMILES различаются по обработке ароматичности.
Ветвление
[ редактировать ]Ветви описываются круглыми скобками, как в CCC(=O)O
для пропионовой кислоты и FC(F)F
для флюороформа . Первый атом в скобках и первый атом после группы в скобках связаны с одним и тем же атомом в точке ветвления. Символ облигации должен находиться внутри круглых скобок; снаружи (например: CCC=(O)O
) недействителен.
Замещенные кольца можно записать с точкой ветвления в кольце, как показано УЛЫБКАМИ. COc(c1)cccc1C#N
( см. изображение ) и COc(cc1)ccc1C#N
( см. изображение ), которые кодируют изомеры 3- и 4-цианизола. Написание SMILES для замененных колец таким образом может сделать их более удобочитаемыми.
Ветви можно писать в любом порядке. Например, бромхлордифторметан можно записать как FC(Br)(Cl)F
, BrC(F)(F)Cl
, C(F)(Cl)(F)Br
или тому подобное. Как правило, форму SMILES легче читать, если первой идет более простая ветвь, а последняя часть, не заключенная в скобки, является самой сложной. Единственные предостережения к таким перестановкам:
- Если номера звонков используются повторно, они объединяются в пары в соответствии с порядком их появления в строке SMILES. Для сохранения правильного сопряжения могут потребоваться некоторые корректировки.
- Если указана стереохимия, необходимо внести коррективы; см. § Стереохимия ниже.
Единственная форма разветвления, которая не требует скобок, - это связи, замыкающие кольцо: фрагмент SMILES. C1N
эквивалентно C(1)N
, оба обозначают связь между C
и N
. Выбор замыкающих кольцо связей, прилегающих к точкам ветвления, может уменьшить количество необходимых скобок. Например, толуол обычно записывается как Cc1ccccc1
или c1ccccc1C
, избегая необходимых круглых скобок, если написано как c1cc(C)ccc1
или c1cc(ccc1)C
.
Стереохимия
[ редактировать ]SMILES допускает, но не требует спецификации стереоизомеров .
Конфигурация вокруг двойных связей указывается с помощью символов /
и \
чтобы показать направленные одинарные связи, прилегающие к двойной связи. Например, F/C=C/F
( см. изображение ) — одно из представлений транс - 1,2-дифторэтилена , в котором атомы фтора находятся на противоположных сторонах двойной связи (как показано на рисунке), тогда как F/C=C\F
( см. изображение ) является одним из возможных вариантов цис -1,2-дифторэтилена, в котором фторы находятся по одну сторону двойной связи.
Символы направления связи всегда входят в группы как минимум по два, из которых первый является произвольным. То есть, F\C=C\F
то же самое, что F/C=C/F
. При наличии чередующихся одинарных-двойных связей группы больше двух, при этом средние символы направления примыкают к двум двойным связям. Например, обычная форма (2,4)-гексадиена записывается C/C=C/C=C/C
.
Более сложный пример: бета-каротин имеет очень длинную основу из чередующихся одинарных и двойных связей, что можно записать CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C
.
Конфигурация тетраэдрического углерода определяется формулой @
или @@
. Рассмотрим четыре связи в том порядке, в котором они появляются (слева направо) в форме УЛЫБКИ. Если посмотреть на центральный углерод с точки зрения первой связи, остальные три расположены либо по часовой стрелке, либо против часовой стрелки. Эти случаи обозначаются значком @@
и @
соответственно (поскольку @
сам символ представляет собой спираль, вращающуюся против часовой стрелки).
Например, рассмотрим аминокислоту аланин . Одна из его форм SMILES — NC(C)C(=O)O
, более полно записано как N[CH](C)C(=O)O
. L -аланин , более распространенный энантиомер , записывается как N[C@@H](C)C(=O)O
( см. изображение ). Судя по связи азот-углерод, водород ( H
), метил ( C
) и карбоксилат ( C(=O)O
) группы появляются по часовой стрелке. D -Аланин можно записать как N[C@H](C)C(=O)O
( см. изображение ).
Хотя порядок указания ветвей в SMILES обычно неважен, в данном случае он имеет значение; замена любых двух групп требует изменения индикатора киральности. Если ветви перевернуты, то аланин записывается как NC(C(=O)O)C
, то конфигурация также меняется на противоположную; L -аланин записывается как N[C@H](C(=O)O)C
( см. изображение ). Другие способы написания включают в себя C[C@H](N)C(=O)O
, OC(=O)[C@@H](N)C
и OC(=O)[C@H](C)N
.
Обычно первая из четырех связей появляется слева от атома углерода, но если надпись SMILES начинается с хирального углерода, например C(C)(N)C(=O)O
, то все четыре справа, но тот, кто появится первым ( [CH]
связь в данном случае) используется в качестве ссылки для заказа следующих трех: L -аланин также может быть записан [C@@H](C)(N)C(=O)O
.
Спецификация SMILES включает в себя разработку @
символ, обозначающий стереохимию вокруг более сложных хиральных центров, таких как тригонально-бипирамидальная молекулярная геометрия .
изотопы
[ редактировать ]Изотопы обозначаются номером, равным целой изотопной массе, предшествующей атомному символу. Бензол , в котором один атом представляет собой углерод-14, записывается как [14c]1ccccc1
и дейтерохлороформ [2H]C(Cl)(Cl)Cl
.
Примеры
[ редактировать ]Молекула | Структура | Формула УЛЫБКИ |
---|---|---|
Динитроген | N≡N | N#N |
Метилизоцианат (МИК) | СН 3 -N=C=O | CN=C=O |
Сульфат меди(II) | С 2+ ТАК 2− 4 | [Cu+2].[O-]S(=O)(=O)[O-] |
Ванилин | O=Cc1ccc(O)c(OC)c1 COc1cc(C=O)ccc1O | |
Мелатонин (C 13 H 16 N 2 O 2 ) | CC(=O)NCCC1=CNc2c1cc(OC)cc2 CC(=O)NCCc1c[nH]c2ccc(OC)cc12 | |
Флавоперейрин (C 17 H 15 N 2 ) | CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4 CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1 | |
Никотин (C 10 H 14 N 2 ) | CN1CCC[C@H]1c2cccnc2 | |
Оэнантотоксин (C 17 H 22 O 2 ) | CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO | |
Пиретрин II (C 22 H 28 O 5 ) | CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C | |
Афлатоксин В 1 (C 17 H 12 O 6 ) | O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5 | |
Глюкоза (β- D -глюкопираноза) (C 6 H 12 O 6 ) | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1 | |
Бергенин ( смола ( C14H16O9 кускутин ) ) , | OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2 | |
Феромон . калифорнийской щитовки | CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C | |
( 2S ,5R ) - Халькогран : феромон короеда . Pityogenes chalcographus [11] | CC[C@H](O1)CC[C@@]12CCCO2 | |
α-Туйон (C 10 H 16 O) | CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2 | |
Тиамин (витамин В 1 , С 12 Н 17 Н 4 ОС + ) | OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N |
Чтобы проиллюстрировать молекулу с более чем 9 кольцами, рассмотрим цефаостатин -1, [12] стероидный 13-кольцевой пиразин с брутто-формулой C 54 H 74 N 2 O 10, выделенный из Индийского океана полухордата Cephalodiscus gilchristi :
Начиная с крайней левой метильной группы на рисунке:
CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO
%
появляется перед индексом меток замыкания кольца выше 9; см. § Кольца выше.
Другие примеры УЛЫБОК
[ редактировать ]Обозначение SMILES подробно описано в руководстве по теории SMILES, предоставленном Daylight Chemical Information Systems, и представлен ряд иллюстративных примеров. Утилита изображения Daylight предоставляет пользователям возможность проверить свои собственные примеры УЛЫБОК и является ценным образовательным инструментом.
Расширения
[ редактировать ]SMARTS — это строковое обозначение для указания субструктурных структур в молекулах. Хотя он использует многие из тех же символов, что и SMILES, он также позволяет указывать подстановочные знаки атомов и связей, которые можно использовать для определения субструктурных запросов для поиска в химической базе данных . Одним из распространенных заблуждений является то, что подструктурный поиск на основе SMARTS включает сопоставление строк SMILES и SMARTS. Фактически, строки SMILES и SMARTS сначала преобразуются во внутренние представления графа, в которых выполняется поиск подграфа изоморфизма .
SMIRKS, расширенный набор «reaction SMILES» и подмножество «reaction SMARTS», представляет собой строковую нотацию для указания преобразований реакции. Общий синтаксис расширений реакций: REACTANT>AGENT>PRODUCT
(без пробелов), где любое из полей можно либо оставить пустым, либо заполнить несколькими молекулами, обозначенными точкой ( .
) и другие описания, зависящие от базового языка. Атомы могут быть дополнительно идентифицированы номером (например, [C:1]
) для картографирования, [13] например в . [14]
SMILES соответствует дискретным молекулярным структурам. Однако многие материалы представляют собой макромолекулы, которые слишком велики (и часто стохастические), чтобы для них можно было удобно создавать УЛЫБКИ. BigSMILES — это расширение SMILES, целью которого является создание эффективной системы представления макромолекул. [15]
Конверсия
[ редактировать ]SMILES можно преобразовать обратно в двумерные представления с использованием алгоритмов генерации структурных диаграмм (SDG). [16] Это преобразование иногда неоднозначно. Преобразование в трехмерное представление достигается за счет подходов к минимизации энергии. Существует множество загружаемых и доступных через Интернет утилит для конвертации.
См. также
[ редактировать ]- Спецификация произвольной цели SMILES (SMARTS), расширение SMILES для спецификации подструктурных запросов
- SYBYL Line Notation , еще одно строковое обозначение
- Международный химический идентификатор (InChI), ИЮПАК. альтернатива SMILES, разработанная
- Язык молекулярных запросов — язык запросов, позволяющий также использовать числовые свойства, например физико-химические значения или расстояния.
- Chemistry Development Kit , программное обеспечение для 2D-макетирования и преобразования.
- OpenBabel , JOELib , OELib (конверсия)
Ссылки
[ редактировать ]- ^ Вейнингер Д. (февраль 1988 г.). «SMILES, химический язык и информационная система. 1. Введение в методологию и правила кодирования». Журнал химической информации и компьютерных наук . 28 (1): 31–6. дои : 10.1021/ci00057a005 .
- ^ Перейти обратно: а б Вейнингер Д., Вейнингер А., Вейнингер Дж.Л. (май 1989 г.). «УЛЫБКИ. 2. Алгоритм формирования уникальной SMILES-нотации». Журнал химической информации и моделирования . 29 (2): 97–101. дои : 10.1021/ci00062a008 .
- ^ Вайнингер Д. (август 1990 г.). «УЛЫБКИ. 3. ИЗОБРАЖЕНИЕ. Графическое изображение химических структур». Журнал химической информации и моделирования . 30 (3): 237–43. дои : 10.1021/ci00067a005 .
- ^ Суонсон Р.П. (2004). «Вход информатики в комбинаторную химию» (PDF) . В Rayward WB, Bowden ME (ред.). История и наследие научных и технологических информационных систем: материалы конференции 2002 года Американского общества информационных наук и технологий и Фонда химического наследия . Медфорд, Нью-Джерси: Информация сегодня . п. 205. ИСБН 978-1-57387-229-4 .
- ^ Вейнингер Д. (1998). «Благодарности на странице улыбок Daylight Tutorial и т. д.» . Проверено 24 июня 2013 г.
- ^ Андерсон Э., Вейт Г.Д., Вейнингер Д. (1987). SMILES: Линейное обозначение и компьютерный интерпретатор химических структур (PDF) . Дулут, Миннесота: Агентство по охране окружающей среды США , Лаборатория экологических исследований, Дулут. Отчет № EPA/600/M-87/021.
- ^ «Учебное пособие по SMILES: что такое SMILES?» . Агентство по охране окружающей среды США . Архивировано из оригинала 28 марта 2008 года . Проверено 23 сентября 2012 г.
- ^ Неглур Г., Гроссман Р.Л., Лю Б. (2005). «Присвоение уникальных ключей химическим соединениям для интеграции данных: некоторые интересные встречные примеры» . В Людешере Б. (ред.). Интеграция данных в науках о жизни . Конспекты лекций по информатике. Том. 3615. Берлин: Шпрингер. стр. 145–157. дои : 10.1007/11530084_13 . ISBN 978-3-540-27967-9 . Проверено 12 февраля 2013 г.
- ^ Сидорова Ю., Анисимова М. (август 2014 г.). «Распознавание структурных образов в химической промышленности, вдохновленное НЛП». Буквы для распознавания образов . 45 : 11–16. Бибкод : 2014ПаРеЛ..45...11С . дои : 10.1016/j.patrec.2014.02.012 .
- ^ Сидорова Дж., Гарсия Дж. (ноябрь 2015 г.). «Переход от синтаксических методов к статистическим: классификация с автоматически сегментированными признаками из последовательностей». Распознавание образов . 48 (11): 3749–3756. Бибкод : 2015PatRe..48.3749S . дои : 10.1016/j.patcog.2015.05.001 . hdl : 10016/33552 .
- ^ Байерс Дж.А., Биргерссон Г., Лёфквист Дж., Аппельгрен М., Бергстрем Г. (март 1990 г.). «Выделение феромонных синергистов короеда Pityogenes chalcographus из сложных запахов насекомых и растений методом фракционирования и субтрактивно-комбинированного биоанализа». Журнал химической экологии . 16 (3): 861–876. дои : 10.1007/BF01016496 . ПМИД 24263601 . S2CID 226090 .
- ^ «УИД 183413» . ПабХим . Проверено 12 мая 2012 г.
- ^ «Урок по SMIRKS» . Daylight Chemical Information Systems, Inc. Проверено 29 октября 2018 г.
- ^ «Реакция УЛЫБКИ и УХЫБЛКИ» . Daylight Chemical Information Systems, Inc. Проверено 29 октября 2018 г.
- ^ Лин Т.С., Коли К.В., Мочигасе Х., Бич Х.К., Ван В., Ван З. и др. (сентябрь 2019 г.). «BigSMILES: структурно-ориентированная линейная запись для описания макромолекул» . Центральная научная служба ACS . 5 (9): 1523–1531. дои : 10.1021/accentsci.9b00476 . ПМК 6764162 . ПМИД 31572779 .
- ^ Хелсон Х.Э. (1999). «Генерация структурной диаграммы». В Lipkowitz KB, Boyd DB (ред.). Обзоры по вычислительной химии . Том. 13. Нью-Йорк: Вили-ВЧ. стр. 313–398. дои : 10.1002/9780470125908.ch6 . ISBN 978-0-470-12590-8 .