Таксономічна база даних NCBI

Таксономі́чна ба́за да́них NCBI є частиною бази GenBank, підрозділу Національного центру біотехнологічної інформації США (NCBI). Вона містить понад 165 000 організмів, які представлені в базах даних як мінімум однією нуклеотидною або білковою послідовністю. Таксономічний браузер (TaxBrowser [Архівовано 19 травня 2020 у Wayback Machine.]) може використовуватися щоб проглянути позицію організму або таксона в таксономічної ієрархії або щоб отримати дані з будь-якої з основних баз даних системи Entrez для цього організму. TaxBrowser також дозволяє доступ до систем «Map Viewer», «BLAST» та «Trace Archive» через зовнішні посилання.

Пошук у базі даних може робитися за цілою, частковою або фонетичною назвою організму. На додаток до цього, посилання на організми, які часто використовують в біологічних дослідженнях, приведені окремо. Система відображення здатна показувати таксономічні дерева вибраного користувачем фрагменту всієї бази даних NCBI.

Історія ред.

Створена в 1988 році, NCBI стала домівкою бази даних нуклеотидних послідовностей GenBank. У той же час, стала очевидною необхідність створення таксономічної бази даних щоб доповнити нуклеотидні бази даних. Проблеми з таксономіями, які використовують такі бази даних, були давно відомі: кожна з баз даних має свою власну таксономію, кожна відмінна від інших, і жодна не знаходяться в угоді з поточними таксономічними згодами (навіть якщо можна уявити, що така річ існує), і всі вони містять широку різноманітність різних видів помилок і неузгодженостей. Унаслідок, не завжди відомо (навіть в межах тієї ж бази даних), чи два записи належать до одного й того ж виду.

Щоб запобігти цих проблем, команда NCBI створила інструмент для інтеграції кількох відомих таксономічних баз як нуклеотидних баз даних, так і деяких інших, наприклад міжнародну систему ICTV для вірусів, USDA для рослин і FlyBase для Drosophilidae. Після цього була проведена конференція на базі морської біології в Мітч-Согін представників таксономічних баз даних та спеціалістів з систематики для уніфікації бази даних. Представники Європейської лабораторії молекулярної біології (EMBL), Швейцарської бази даних білків (SwissProt) та Японської бази даних ДНК (DDBJ) погодилися прийняти цю базу за таксономічний стандарт.

Особливості ред.

Однією з особливостей системи NCBI є можливість легкої модифікації виданих даних користувачем, щоб він міг розташувати їх згідно з однією з класичних систем. Другою — практично повний перехід на філогенетичну таксономію.

Унаслідок цього підходу, класична концепція таксономічних категорій (рангів) зникає. Наприклад, при редагуванні таксономічної бази протозой, співробітники NCBI замінили суфікси рангу родини (-idae, -ida, -iformes тощо) на загальні суфікси (-ids), хоча попередні назви залишилися у базі як синоніми, так що користувач може проводити по ним пошук.

Співробітники NCBI також намагаються зібрати статистичні дані по використанню всіх можливих назв організму або таксона та формалізувати систему назв, приходячи до єдиного стандарту.

Порівняння з іншими базами даних ред.

База даних NCBI не була створена винятково спеціалістами із систематики та слідує дещо іншим цілям. Тому результуюча база даних дещо відрізняється від провідних винятково систематичних баз, таких як «Робоча група з таксономічних баз даних» (TDWG), «Міжнародна організація інформації про рослини» (IOPI) та «Види 2000» (Species 2000). Наприклад, база NCBI дещо менша через відсутність молекулярних даних, необхідних для точної класифікації (що є стандартом NCBI), для великої кількості організмів (хоча вона швидко поповнюється).

Ще одним відомим конкурентом є «Інтегрована система таксономічної інформації» (ITIS). ITIS перш за все використовує таксономічну літературу, яка спирається на екологічні дані. Система будується «зверху вниз», розташовуючи організми у відомій системі таксонів. На відміну від неї, система NCBI повинна знайти місце для кожного організму, яких потрапляє до молекулярних баз даних. Крім того, як вже було згадано вище, система NCBI використовує строго філогенетичний підхід, що іноді приводить до розбіжностей з класичними системами. Унаслідок система відрізняється значною кількістю «некласифікованих» організмів та груп, хоча вважається найточнішою з філогенетичної/кладистичної точки зору.

Ресурси Інтернет ред.