Ідентифікація подібності бібліографічних описів

Постановка задачі ред.

Задача ідентифікації подібності бібліографічних описів є похідною від задачі класифікація текстів, яка формулюється наступним чином: нехай є деяка множина прикладів текстів, кожен з яких належить до одного з k заздалегідь відомих класів. Потрібно створити алгоритм, який, будучи навченим на текстах-прикладах, отримуючи на вході новий невідомий текст, видавав на виході вектор (p1, ..., pk), де pi – ймовірність того, що даний текст належить класу i. Узагальнюючи, можна зробити наступне формулювання: для заданого бібліографічного опису знайти підмножину бібліографічних описів, критерій подібності яких менший за деяке граничне значення.

Вирішення задачі ред.

Зважаючи на те, що бібліографічний опис є структурованим текстом, можна значно підвищити якість класифікації, якщо робити спеціалізований аналіз кожної його компоненти. Крім того, зважаючи на можливу варіацію слів і наявність помилок, доцільним є не порівнювати частоту появи дескрипторів слів, а загальну частоту появи символів і частоту появи одного символу перед іншим (наприклад, як часто символу «ф» передує символ «а»).
Для забезпечення такого підходу запропоновано використовувати комбінацію семантичних та нейронних мереж. Кожна компонента бібліографічного опису буде вершиною найнижчого рівня семантичної мережі. Оскільки аналіз кожної компоненти може відбуватись у кількох напрямках, від такої вершини можуть відходити декілька зв’язків до інших вершин. Якщо аналіз буде проходити над стрічковими даними, то його буде здійснювати нейронна мережа. Якщо аналіз буде здійснюватись над чисельними даними, то він буде враховувати різницю чисел та цифрову відповідність. У корені такого дерева буде результат порівняння 2-ох бібліографічних описів.

Побудова семантичної мережі ред.

У семантичній мережі визначення подібності бібліографічних описів кожна вершина найнижчого рівня представляє певний компонент бібліографічного опису, кожна вершина вищих рівнів представляє функцію порівняння, на вхід якої подаються відповідні частини двох бібліографічних описів, а на виході отримується коефіцієнт їх подібності. Кожна така функція має динамічний ваговий коефіцієнт, який визначається підсистемою під час порівняння бібліографічних описів і залежить від проміжних результатів. Елементи бібліографічного опису можуть одночасно подаватись на вхід різних функцій порівняння, наприклад, роки будуть порівнюватись на різницю і на поцифрову рівність. Коренева вершина видає результат подібності двох бібліографічних описів.
Аналіз подібності відбувається окремо за кожною компонентою бібліографічного опису: назва статті, рік видання, перелік авторів, місто, видавництво та кількість сторінок. Оскільки рік та кількість сторінок є числовими даними, їх аналіз відбувається у двох напрямках: різниця чисел та поцифрове порівняння. Назва, місто, видавництво та імена авторів аналізуються за допомогою спеціалізованої нейронної мережі, яка буде описана нижче. Список авторів аналізується також у двох напрямках: відбувається порівняння кількості авторів, співставляються імена кожного з авторів.

Побудова нейронної мережі ред.

Для порівняння назв статей, міст, видавництв та імен авторів потрібно спроектувати нейронну мережу, яка буде порівнювати загальну частоту появи символів та частоту появи одного символу після іншого.Навчання нейронної мережі відбувається тоді, коли додається у систему інформація про нову статтю. Для кожного символу визначається його загальна частота появи, а також його частота появи після інших символів. В результаті утворюються пари нейронів, на вході яких є тексти з бази даних. Перший нейрон порівнює загальні частоти появи символів, а другий – частоти появи одних символів перед іншими. На виході такої пари нейрон отримуємо коефіцієнт подібності текстів. Після того, як отримано всі коефіцієнти, з них формується вектор і передається на вихід нейронної мережі.