SMILES (англ. Simplified Molecular Input Line Entry Specification) — специфікація спрощеного представлення молекул в рядку введення — система правил (специфікація) однозначного опису складу та структури молекули хімічної речовини з використанням рядка символів ASCII у рядковому типі.

Генерація номера SMILES:
Спочатку кодуються розірвані кільця, потім описується відгалуження від основної структури.

Рядок символів, складений за правилами SMILES, може бути перетворений багатьма молекулярними редакторами у двовимірну або тривимірну структурну формулу молекули.

Початковий варіант специфікації SMILES був розроблений Артуром (Arthur Weininger) і Девідом (David Weininger) Вайнінґерами наприкінці 1980-х[1]. Надалі стандарт був модифікований і розширений; найактивнішу участь у цій роботі взяла компанія Daylight Chemical Information Systems, Inc.

У 2007 році прийнято відкритий стандарт OpenSMILES розроблений Blue Obelisk.

ПрикладиРедагувати

SMILES запис Структурна формула Назва
C CH4 Метан
CC CH3-CH3 Етан
CCC CH3-CH2-CH3 Пропан
Clc(c(Cl)c(Cl)c1C(=O)O)c(Cl)c1Cl C7HCl5O2 Пентахлорбензойна кислота

Принципи побудови SMILESРедагувати

АтомиРедагувати

Атоми позначаються символами хімічних елементів у квадратних дужках, наприклад, золото позначається як [Au]. Для елементів- складових органічних молекул (B, C, N, O, P, S, F, Cl, Br, I) дужки можуть бути опущені. У цьому випадку атоми водню можна не вказувати в явному вигляді, якщо їх кількість відповідає найменшій нормальній валентності відповідно до явно заданих зв'язків. Атоми в складі ароматичних циклів зазвичай записуються малими літерами замість великих. При необхідності вказати формальний заряд частинки атоми водню і символ заряду записуються в явному вигляді[2]. Ізотопи записуються в квадратних дужках із зазначенням атомної ваги перед символом атома, наприклад, ізотоп 13C буде записаний як [13C].

Наприклад, запис SMILES для води буде виглядати як O, для етанолу — CCO. Аніон гідроксилу записується [OH-], а іон заліза (II) як [Fe+2].

Зв'язкиРедагувати

Зв'язок Символ опція
Простий зв'язок - так
Подвійний зв'язок = ні
Потрійний зв'язок # ні
Чотирьохкратний зв'язок* $ ні
Ароматичні зв'язки : так

* Лише OpenSMILES


РозгалуженняРедагувати

Бічні ланцюги молекули поміщають в круглі дужки. Наприклад, пропіонова кислота записується як CCC(= O)O. Канонічна форма запису трифторметану виглядає як C(F)(F)F, однак такий запис незручний для читання внаслідок своєї перевантаженості дужками, тому ту ж молекулу можна записати в неканонічній формі як FC(F)F.


Структурна формула SMILES-String Назва
  CC(=O)O Оцтова кислота
  CC(C)(C)O трет-Бутанол
  C(C(CO[N+](=O)[O-])O[N+](=O)[O-])O[N+](=O)[O-] Тринітрат гліцерину

Циклічні структуриРедагувати

Атоми, що знаходяться на кінцях розірваного при побудові кістяка набору зв'язків, позначаються одним і тим же номером. Наприклад, циклогексан записується як C1CCCCC1, а бензол — як c1ccccc1[3].

Структурна формула SMILES-String Назва
  c1ccccc1 Бензол
  Cc1c([N+]([O-])=O)cc([N+]([O-])=O)cc1[N+]([O-])=O Тринітротолуол
  C1=CC=C2C=CC=CC2=C1 Нафталін

ПриміткиРедагувати

  1. David Weininger, SMILES, a chemical language and information system. J. Chem. Inf. Comput. Sci.1988, 28, ст 31.
  2. SMILES специфікація Розділ 3.1. Архів оригіналу за 13 липня 2010. Процитовано 25 липня 2010. 
  3. SMILES специфікація Розділ 3.4. Архів оригіналу за 13 липня 2010. Процитовано 25 липня 2010.