Рейтинг (інформаційний пошук)

спосіб сортування в інформаційному пошуці

Рейтинг результатів запиту є однією з основних задач інформаційного пошуку (ІП), яка є науковою та інженерною дисципліною яка використовується пошуковими системами. Для заданого запиту q і колекції документів D, які відповідають запиту, задача полягає у присвоєнні рейтингу цим документів, тобто потрібно відсортувати, документи в D відповідно до певного критерію, так, щоб «найкращі» результати з'являться на початку списку результатів, який відображається користувачу. У класичному варіанті критерії рейтингу формулюються у термінах релевантності документів відповідно до інформаційної потреби, яка виражена у запиті.

Рейтинг часто зводиться до розрахунку числових балів для пар запит-документ. Для цього використовується базова функція ранжирування — це може бути косинус подібності між векторами tf-idf,[1] які відповідають запиту і документу у векторній моделі, бали в BM25[en] або ймовірності у ймовірнісній моделі інформаційного пошуку. Потім рейтинг може бути розрахований шляхом сортування документів у порядку зменшення балів. Іншій підхід полягає у визначенні функції оцінки на парі документів d₁, d, яка приймає позитивне значення тоді і тільки тоді, коли d більш релевантний запиту, ніж d, і використати цю інформацію для сортування.

Функції ранжирування оцінюються різними методами. Один з найпростіших — це визначити влучність перших k найвищих результатів для деяких фіксованих k. Наприклад, це може бути частка 10 найкращих результатів, які є релевантними, в середньому за багатьма запитами.

Часто обчислення функцій ранжирування можна спростити, скориставшись тим, що має значення тільки відносний порядок балів, а не їхня абсолютна величина. Тому, терміни чи чинники, незалежні від документа, можна вилучити, а терміни чи чинники, які не залежать від запиту, можуть бути попередньо обчислені та збережені разом із документом.

Примітки ред.

Див. також ред.