Предмет
Дослідження питань річної популярності статей на основі випадкової вибірки. Параметр «відвідуваність на символ»
Дані

Серед 263 статей (~0,1% усіх статей укрВікі) отриманих через посилання Спеціальна:Random ботом були обрані ті, які створені не раніше 1 січня 2011 (виключенням є статті 1436, 1836, 1936, які додано до вибірки невипадково). По них було отримано наступні дані:

Де:

  • title — назва статті
  • date — дата створення статті
  • pop — відвідуваність за 12 місяців від лютого 2010 до січня 2011
  • size_s — розмір тексту у символах
  • size_b — розмір тексту у байтах
  • is_d — стаття належить до типу «багатозначні терміни»
  • iwiki — кількість інтервікі посилань зі статті
  • refs — кількість посилань на статтю
  • links — кількість внутрішніх посилань зі статті
  • imag — кількість малюнків у статті (конструкцій типу [[Файл: … ]])
  • bot — стаття редагувалася виключно ботами
  • year — стаття є статтею про рік.
Модель

Модель для регресивного аналізу побудовано на наступних припущеннях:

  • при збільшенні розміру статті лінійно збільшується відвідуваність статті через лінійне зростання інформативності
  • при доданні нових слів у статтю виникає ефект збільшення кількості пошукових комбінацій, за якими можна знайти статтю. Цей ефект чинить нелінійне до розміру статті збільшення популярності статті
  • при збільшенні розміру статті частота додання нових слів у статтю зменшується (закон Хіпса)
  • два попередніх ефекти частково врівноважують один одного
  • занадто короткі статті можуть не з'являтися на перших сторінках пошукових систем
  • статті, на які посилаються інші статті, є популярнішими
  • статті з ілюстраціями є популярнішими
Аналіз

Аналізуємо наведені дані в статистичному пакеті STATA:

* Одразу відкидаємо статті створені пізніше січня 2010
drop if date>="2010-02" 
* Генеруємо натуральний логарифм відвідуваності
gen lpop = log(pop)
* Генеруємо чистий розмір: розмір у символах без очікуваної кількості символів у інтервікі
gen size_c = size_s - iwiki*(7+length(title))
* Оцінюємо модель
reg lpop size_c iwiki imag bot
vif

Отримуємо наступну регресію (всі параметри статистично значимі, мультиколінеарності немає):

------------------------------------------------------------------------------
        lpop |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      size_c |   .0000996   .0000188     5.29   0.000     .0000624    .0001367
       iwiki |   .0180857   .0028677     6.31   0.000     .0124271    .0237443
        imag |   .2789515   .0726161     3.84   0.000     .1356632    .4222398
         bot |  -1.170051   .2768036    -4.23   0.000    -1.716248   -.6238532
       _cons |   5.098489   .0883892    57.68   0.000     4.924077    5.272901
------------------------------------------------------------------------------

Однак проаналізувавши графік залежності логпопулярносі (lpop) від чистого розміру (size_c):


помічаємо, що залежність між змінними не є лінійною. Це підтверджується наступними регресіями:

reg lpop size_c iwiki imag bot if size_c>2000
reg lpop size_c iwiki imag bot if size_c>4000

— зі збільшенням порогу знижується коєфіцієнт при size_c.

Відтак, генеруємо логарифм чистого розміру статей та проводимо нову регресію:

gen lsize_c = log(size_c)
reg lpop lsize_c iwiki imag bot
vif

— усі параметри знову виявляються статистично значимими, мультиколінеарність не виникла. Але залежність стала лінійнішою:


Із графіка помічаємо, що спостереження поділяються на дві групи — до символів та понад. Регресуємо:

reg lpop lsize_c iwiki imag bot if size_c<2000
reg lpop lsize_c iwiki imag bot if size_c>2000

Справді — отримуємо дві різні оцінки. Для малих статей (<2000 символів чистого тексту):

lpop ~ -.0751066*lsize_c + .0209184*iwiki + .2745386*imag - 1.057415*bot

однак параметри lsize_c та iwiki виявляються статистично незначимими, тому вилучивши їх отримуємо остаточну закономірність:

lpop ~ .0216376*iwiki - 1.135947*bot 

Для «не малих» статей (>2000 символів чистого тексту) отримуємо закономірність:

lpop ~ .8016047*lsize_c + .0119115*iwiki + .2346847*imag - 1.093695*bot

параметр bot виявляється статистично незначимим. Вилучивши отримуємо:

lpop ~ .8531931*lsize_c + .0117708*iwiki + .2396645*imag

При збільшенні порогу:

reg lpop lsize_c iwiki imag if size_c>4000
reg lpop lsize_c iwiki imag if size_c>6000

отримуємо подібні результати.

Тепер згенеруємо параметр «відвідуваність на символ» (питома популярність) та проаналізуємо за двома класами статей — «статті про роки» та «багатозначний термін»:

gen vps0 = pop/size_c
reg vps year
reg vps year if id>3
reg vps year if size_с>500
reg vps is_d

В двох останніх випадках параметри вийшли статистично значимими. Результати регресій вказують на те, що статті про роки в 1,6—2,2 рази відвідуваніші на символ чистого тексту ніж усі інші статті, у той час як статті типу «багатозначний термін» в 5,7 разів відвідуваніші на символ чистого тексту ніж усі інші.

Тепер проаналізуємо «відвідуваність на символ» за двома визначеними вище класами статей — «малими» та «не малими» — в залежності від чистого розміру:

reg vps size_c if size_c<2000
reg vps size_c if size_c>2000

В першому випадку залежність виявляється негативною та статистично значимою, в другому — позитивною та незначимою всупереч тому, що змінна vps залежить від size_c за побудовою. Відтак збільшення розміру «не малої» статті не зменшує питомої відвідуваності.

Тепер з'ясуємо від чого залежить «відвідуваність на символ» у великих статтях. Побудувавши знову регресію за всіма змінними та покроково вилучивши зайве отримуємо регресію:

reg vps imag refs if size_c > 2000

та наступну закономірність (усі параметри значимі):

vps ~ .0393166*imag + .0001176*refs
Висновки
  • статті за популярністю досить чітко поділяються на дві групи — «малі» та «не малі», межа між якими лежить приблизно у 2000 символах тексту без інтервікі (3800 байт без інтервікі)
  • на відвідуваність «малих» статей в середньому мало впливає розмір. Додаткові 32 інтервікі підвищують популярність малої статті вдвічі, малі статті створені виключно ботами в 3,1 рази менше відвідувані за інші
  • для «не малих» статей збільшення об'єму тексту статті (без інтервікі) вдвічі підвищує відвідуваність в 1,7 рази, наявність трьох ілюстрацій чи 5,8 інтервікі підвищують відвідуваність «не малої» статті вдвічі (інакше кажучи — збільшення тексту статті вдвічі і додання однієї ілюстрації збільшує відвідуваність «не малої» статті вдвічі)
  • для «не малих» статей додання однієї ілюстрації підвищує питому відвідуваність та додає 39 відвідувань на кожні 1000 символів чистого тексту на рік. Додання 9 посилань на статтю в середньому додає 1 відвідування на кожні 1000 символів чистого тексту на рік.
Додаткові висновки
  • завищена питома відвідуваність (понад 0,1—0,17 відвідувань на символ на рік) у малих статтях може вказувати на «дефіцит інформації» у цих статтях — такі статті слід доводити до «критичного розміру» у 3800-4000 байт (без інтервікі) адже статті до цього розміру викликають враження неповноти та поганої якості укрВікі загалом. Відтак, пріоритетним напрямком можна вважати розширення статей про роки (середня питома відвідуваність таких статей у вибірці — 1,33)
  • «не малі» статті з завищеною питомою відвідуваністю можна використовувати для ефективного збільшення відвідувань та/чи ефективного покращення образу укрВікі серед читачів
  • для цілей популярності важливе підвищення кількості нових слів у статті при її розширенні, відтак бажаним є розкриття якомога різноманітніших аспектів у одній статті, вживання багатого лексикону.
Відкриті питання
  • поведінка питомої популярності у великих статтях (понад 20000 символів) — який максимальний обсяг статті є ефективним?
  • як оцінити майбутню питому популярність відсутньої статті?

--Α.Μακυχα 10:03, 14 лютого 2011 (UTC)[відповісти]