Автоматизоване реферування: відмінності між версіями

[перевірена версія][очікує на перевірку]
Вилучено вміст Додано вміст
Виправлено джерел: 4; позначено як недійсні: 0.) #IABot (v2.0.8.7
Рядок 13:
=== Характеристика методів автоматизованого реферування ===
 
Суть '''статистичних''' методів, що засновані на статистичному аналізі текстів, — це методики російських вчених В. Аграєва, Б. Бородіна та В. Пурто. Перші двоє запропонували методику, згідно з якою вибрані з тексту речення виявляються пов'язаними між собою. Найбільш зв'язаними, а тому такими, що мають бути включені до реферату, вважаються речення, які містять найбільшу кількість однаково значущих слів. В. Пурто розробив метод оцінки та відбору речень за кількістю інформації, яку вони містять. У цьому випадку тексти підлягають статистичному аналізу для виявлення частоти вживання слів. Словами, що найчастіше вживаються у науково-технічній літературі, є терміни. Дослідник стверджує: чим важливіший термін, тим частіше він зустрічається у тексті, а відібрані речення міститимуть максимальну кількість цих термінів. Обсяг одержаного в такий спосіб реферату складає, як правило, не більше трьох речень, незалежно від обсягу первинного документа — полягає у відборі значущих речень відповідно до частоти вживання слів і розташування їх у реченіреченні. Відбираючи речення до реферату, для кожного з них визначають значущість або змістову вагу. Чим більше слів, що часто трапляються в одному реченні, тим суттєвішу інформацію воно містить і тому має бути включене до реферату. Різні модифікації цього методу відрізняються підходом до відбору слів, що підлягають статистичному аналізу. Обсяг одержаного в такий спосіб реферату становить, як правило, не більше трьох речень, незалежно від обсягу первинного документа. Простота аналізу тексту першоджерела й однорідність отриманих рефератів забезпечили поширення статистичних методів автоматизованого реферування в багатьох країнах і їхню подальшу оптимізацію. Тобто у разі використання статистичного методу реферування обсяг і якість рефератів повністю залежать від статистичних характеристик тексту, тому речення, що містять найважливішу інформацію (наприклад, висновки у наукових статтях) можуть бути взагалі не виділені та не ввійти до реферату. Проте визначені недоліки певною мірою компенсуються завдяки простоті аналізу й однорідності рефератів, які готуються за допомогою ЕОМ.
 
'''Позиційні''' методи вдосконалюють відбір найбільш значущих речень з текстів первинних документів з використанням складного математичного апарату.. Відбір здійснюється на засадах чотирьох взаємопов'язаних методів: натяку, ключових слів, заголовка, локалізації.