HomoloGene — інструмент Національного центру біотехнологічної інформації США (NCBI), система автоматичного виявлення гомологій (подібність, спричинена походженням від загального предка) серед анотованих генів декількох повністю впорядкованих еукаріотичних геномів.

Методи HomoloGene базуються на аналізі білка організмів. Послідовності порівнюють з використанням blastp, потім їх узгоджують і розподіляють у групи, використовуючи таксономічне дерево, побудоване з подібності послідовностей, де спочатку зближуються споріднені організми, а потім до дерева додають додаткові організми. Вирівнювання білків відбувається до відповідних послідовностей ДНК, а потім розраховують показники відстані на основі моделі замін (1969).

Послідовності узгоджуються з використанням евристичного алгоритму для максимізації глобальної, а не локальної оцінки парних порівнянь (див. Повний двочастковий граф). Після цього обчислюється статистична значимість кожного зближення.

В інструменті використовуються технології анлізу великих даних[1]. Статистичні обчислення реалізовані засобами мови R.

Примітки ред.

  1. The Semantic Web: Semantics and Big Data // Philipp Cimiano, Oscar Corcho, Valentina Presutti, Laura Hollink, Sebastian Rudolph (англ.)

Посилання ред.