Обговорення користувача:Pavlo Shevelo/Проект «Зв'язність»/ПоЗ

До уваги читачів

Ця сторінка є збірником відповідей на найпопулярніші запитання щодо проекту «Зв'язність», перш за все щодо програмних засобів (ботів), що забезпечують досягнення мети проекту.

Цю інформацію призначено переважно для "просунутих"[1] (advanced) користувачів україномовної Вікіпедії та, зокрема, найактивніших учасників проекту.

Збірка постійно поповнюється шляхом додавання до неї нових запитань та (дещо :) згодом) — і відповідей на них, відтак радимо заглядати сюди час від часу. Відповідно і Ви можете задати своє запитання, якщо (увага, це — суттєво) Ви не знайшли необхідної інформації у вже наведених відповідях. Якщо Ви вирішите[2] додати своє запитання, то щодо технічного боку справи дійте так само, як ви зазвичай ставите запитання іншому користувачу на його сторінці обговорення[3].

Оскільки зараз експерти, яким до снаги відповідати на запитання з цієї тематики, є російськомовними, то відповіді наводимуться так, як на них відповідав експерт — російською[4], а ставити запитання можна[5] і українською.

Будь ласка, додавайте нові теми знизу. Додати…

Краткий курс "анатомии" «Голема»

Запитання

Будь ласка, розкажіть (в розумінні "загальної картини") як влаштовано та функнціонує програмне забезпечення, що використовується в проекті «Зв'язність». --pavlosh ҉ 17 червня 2009

Вкратце работу бота можно описать следующим образом: скрипт[6] запускается примерно раз в день вручную специально обученным человеком[7] - «ботоводом». Далее скрипт подключается к базе данных тулсервера, в которую в реальном времени реплицируется вся-вся-вся техническая информация из проектов Фонда Викимедиа, кроме текстов статей (и изображений). Далее скрипт копирует таблицу ссылок конкретного раздела в пользовательскую базу владельца аккаунта на тулсервере, и начинает её анализировать. В процессе анализа выявляются тупиковые статьи[8] и изолированные статьи [9]; списки и тех, и других бот сохраняет в создаваемые им файлы. Файлы эти потом скачиваются с тулсервера специально обученным ботоводом, который использует их как списки-задачи в AWB в паре с соответствующими настройками; ботовод, пользуясь этими списками, снимает и расставляет шаблоны {{Безвихідна стаття}} и {{Ізольована стаття}}

Сразу замечу, что от момента сбора информации и до момента установки шаблона, таким образом, проходит некоторое время - обычно, небольшое, но минут 40. Иногда из-за этого получается так, что шаблон "тупиковая статья" ставится на статью, которая тупиковой не является, но ошибки эти очень редки и естественным образом исправляются при следующем запуске бота (который пишет названия таких статей в список статей, с которых надо снять шаблон). Когда-нибудь, в светлом будущем, из этого процесса будет исключен AWB, шаблоны будут ставиться автоматически, сразу после получения информации, и с проверкой, актуальна ли еще полученная информация - помощь в написании этой части бота приветствуется :)

Кроме того, что списки изолированных статей пишутся в файлы, они сохраняются и в базе данных сайта проекта. В статье, на которой стоит шаблон "изолированная статья", появляется ссылка на страницу сайта, посвященную этой статье. Страница сайта содержит краткую справку о том, что такое изолированная статья, а также несколько видов предположений, как сделать так, чтобы статья перестала быть изолированной (эти предположения бот создает, также анализируя базу данных). Как только мы сделаем украинскую версию сайта, я отвечу на все вопросы, касающиеся этих подсказок. Добавлю, что бот также умеет составлять рейтинг авторов изолированных статей.


Помимо вычисления и пометки изолированных статей, бот занимается разрешением двойных перенаправлений через pywikipedia. Выполняется эта работа автоматически, где-то в середине сбора информации об изолированных статьях, с помощью интернационального скрипта, написанного на python. Это такой же стандартный скрипт, как и все интервики-боты, опробованный сотнями разделов :) Если два перенаправления ссылаются друг на друга, бот предлагает их удалить, выставляя соответствующий случаю шаблон.


В качестве "побочного", но очень важного продукта анализа базы ссылок бот составляет страницу по толкованию страниц разрешения неоднозначностей.

Страницы разрешения неоднозначностей сами по себе очень нужны, но, надеюсь, не вызывает сомнений, что если читатель по ссылке из текста переходит не на ту статью, о которой думал человек, ставивший ссылку, а на страницу разрешения неоднозначностей - ситуация плоха[10]. Страница на сайте проекта «Связность» содержит список статей разрешения неоднозначностей, на которые ссылаются другие статьи; в идеале, этот список должен быть пуст. При этом бот Связности - умный, и он знает, что если со статьи Пушкин есть ссылка Пушкин, и со статьи Пушкин есть ссылка на Пушкин, то ошибки нет, и все так и должно быть; такие ссылки бот не считает за нарушение этики ссылания ;) В нашем списке - только то, что требует исправления. Кроме того, на странице приведен индекс пренебрежения правилом толкования; о нем существует отдельная страница в вики, позволю себе ее не пересказывать.

Последняя важная страница проекта — структура дерева категорий. Проект «Связность» предполагает, что среди категорий должен быть порядок, и условиями порядка видятся соблюдение транзитивности и сохранение работоспособности. Например, перенаправления в пространстве имён категорий не работают, поэтому их существование считается ошибкой. Бот составляет список перенаправлений в пространстве имён категорий, и проект «Связность» предлагает администраторам иногда в этот список заглядывать и категории-перенаправления удалять.

Образец одного из существовавших в рувики циклов
Занимающая основную часть страницы "ёлка"[11] — это развертка графа категорий. Верхушка ёлки (_1) должна содержать лишь одну категорию (в украиноязычной Википедии это категория Головна)[12].

В идеале, эта "ёлка" должна выглядеть как треугольник. Лишние (свыше трёх) "углы" на ней — это кольца в категоризации, нарушения транзитивности (Примеры решённых циклов, существовавших ранее в рувики)

-- Львова Анастасія 17 червня 2009 (UTC)

додаткові запитання (уточнення відповіді)

Щиро вдячний за відповідь. Наскільки я зрозумів, потрібна робота виконується двома ботами. Поясніть, будьласка, який з них є «Голем» а який — «РобоСтася». В цьому контексті цікаво, що це Голем редагує у нашій Вікіпедії, то ж прошу прокоментувати бо з вашого пояснення можна зробити висновок, що "він" редагувань у Вікіпедії не робить. Аналогічно, хоч досі «РобоСтасею» ще не здійснено жодних редагувань статей прохання на якомусь прикладі показати, як може виглядати здійснюване "нею" редагування з простановки згаданих вами шаблонів ({{Безвихідна стаття}} и {{Ізольована стаття}})--pavlosh ҉ 23:48, 18 червня 2009 (UTC)Відповісти

Под "големом" в описании имеется ввиду скрипт-основа проекта. Использовать этот скрипт могут разные пользователи тулсервера, и, соответственно, правки теоретически могут вноситься от имён разных ботов (если скрипт запускает Машиах, то правки будут делаться от имени бота Голем, если скрипт запускаю я - правки будут делаться от имени бота РобоСтася), но принцип будет одинаков, и имя этому принципу - Голем :) При этом, конечно, когда проект начнёт работать, путаницы и "двоеботия" не будет - определить, кто является ответственным ботоводом в украиноязычном языковом разделе можно будет, посмотрев значение шаблона {{On duty for connectivity}} (текущее значение: lvova). Пока же проект работает в тестовом режиме, и мы не расставляем и не снимаем шаблоны, лишь учётная запись Голем, работая в отладочном режиме, публикует статистику; пример того, как будет выглядеть работа бота РобоСтаси после окончательного старта проекта, можно посмотреть на примере её вклада в рувики. Львова Анастасія 09:50, 19 червня 2009 (UTC)Відповісти


Примітки

  1. Таких, що прагнуть зрозуміти ("грокнути") суть проекту, потребують збагнути, як то кажуть, "що і до чого", щоб діяти максимально свідомо, відтак — найбільш ефективно.
  2. Уважне вивчення усіх вже наведених відповідей перед тим, як задавати запитання є дійсно суттєвим, то ж просимо Вас діяти відповідно.
  3. Найзручніше використовувати звичну кнопку «+» (так, ту що вгорі, поряд з кнопкою «редагувати»)
  4. Щоб при перекладі не втратити посуттєвих нюансів, що містяться у відповіді.
  5. Якщо не маєте побоювань, що експерт не зрозуміє тонкощів запитання із врахуванням, що автоматичний переклад досі не є ідеальним інструментом (бо погано "вивчив" наш словник). Якщо маєте такі побоювання - запитуйте краще російською
  6. написанный Машиахом на perl
  7. Покамест в украиноязычной Википедии (как и в русскоязычной) это, скорее всего, буду я
  8. то есть статьи, из которых нет ссылок на другие статьи; при этом не учитываются ссылки на "календарные" статьи и на страницы разрешения неоднозначностей - подробнее об этих понятиях можно прочесть по ссылкам.
  9. Статьи, на которые нет ссылок из других статей; при этом подробнее с понятием тоже стоит ознакомиться в вики, так как существуют и такие изолированные статьи, на которые есть ссылки
  10. Пример был приведен на /subpage.
  11. да простят меня математики и отнесутся с пониманием девушки :)
  12. Собственно, в вершине "ёлки" перечислены некатегоризованные категории — логично, что некатегоризованной может быть не больше одной категории

Сайт «Голема»

Запитання: для чого призначено сайт і яку корисну інформацію він містить

В своїй відповіді щодо загальних принципів функціонування «Голема» ви згадали про сайт проекта. Розкажіть, будьласка, детальніше, для чого слугує цей сайт (та, зокрема, загадана вами база даних). Прохання детальніше зупинитися на тому, яку корисну для себе інформацію може отримати користувач зі сторінок (тобто файлів, документів тощо) цього сайту. --pavlosh ҉ 19:42, 19 червня 2009 (UTC)Відповісти
Повернутися на сторінку користувача «Pavlo Shevelo/Проект «Зв'язність»/ПоЗ».