Обговорення користувача:Pavlo Shevelo/Проект «Зв'язність»/ревизия/othersections

<h2>текущее состояние проекта</h2>
<p>В настоящий момент решены следующие задачи:</p>
<ul>
 <li>Список тупиковых статей в соответствии с данным выше определением</li>
 <li>Список статей-сирот в соответствии с данным выше определением</li>
 <li>Все найденные типы изолированных кластеров размером не больше заданного и цепочки
     из таких кластеров</li>
</ul>

<p>Кое-что из найденного по ходу дела:</p>
<ul>
 <li>Список перенаправлений на перенаправления, который почему-то более полон, чем
     список, собираемый MediaWiki</li>
 <li>Список ошибочных перенаправлений (содержащие после "магического слова"
     незакомментированный текст, содержащий ссылки)</li>
 <li>Статистика видов изолированных кластеров по типам цепочек</li>
 <li>Данные для выборки изолированных статей по авторам и категориям</li>
 <li>Советы по усыновлению изолированных статей путём разрешения ссылок на страницы
     значений, а также советы, основанные на подглядывании за интервики.</li>
</ul>

<h2>что не так</h2>
<p>Отлично работает для 300 000 статей, но для :en слишком прожорлив в
смысле потребления ресурсов.</p>
<p>Для установки и снятия шаблонов в настоящий момент используется AWB.
Эта проблема решится, когда моя тупая бошка превозможет задачу управления шаблонами
на perl, или, возможно, если более светлые головы сделают это за меня.</p>

<h2>сподвигайлово</h2>
<p>
Движок MediaWiki среди прочего собирает два списка: страницы-сироты и тупиковые страницы.
Посмотрим, насколько они хороши.
</p>
<p>
Важно прежде всего понимать, в чём заключается разница между страницами и статьями.
Страница — это всё, в главном пространстве имён, что не является перенаправлением,
включая страницы значений. Под статьями обычно мы понимаем меньшее — страницы за
исключением всех страниц значений.
</p>
<p>
MediaWiki считает, что страница доступна по ссылкам, если на неё есть ссылка хотя бы
ещё из одной страницы. Даже если это ссылка из другого пространства имён (например, если
обсуждался текст или вопрос об удалении данной страницы) или со страницы значений 
(на которые не должно быть ссылок, а значит страницы значений не помогают повышению
доступности по ссылкам).
</p>
<p>
Движок MediaWiki также не распознаёт ссылки из списков, предназначенных для координации
работ и хронологических статей. Редко такие ссылки могут быть причиной перехода по ним.
Впрочем можно выработать любые правила по мере повышения требований к качеству
связей.
</p>
<p>
Размышляя о связности, мы можем интересоваться не только страницами-сиротами. Возможны
группы, состоящии из двух, трёх и более статей, доступные по ссылкам друг из друга,
но не доступные не из статей, не входящих в группу. Такие статьи называют изолированными
статьями, а группы изолированными кластерами (сильно связными компонентами графа).
Кластеры могут быть доступны по ссылкам друг из друга, и также могут существовать целые
цепочки изолированных кластеров, не доступные по ссылкам из статей вне этой цепи. 
Движок MediaWiki не распознаёт никаких изолированных кластеров кроме страниц-сирот.
</p>
<p>
Похожая ситуация складывается с поиском тупиковых страниц. Движок проверяет лишь,
содержит ли статья ссылку. Куда ведёт эта ссылка MediaWiki не распознаёт, хотя это
может быть как ссылка на другую статью, так и ссылка из служебного шаблона,
повествующего о проблемах на странице.
Ссылки на страницы значений также считаются.
</p>
<p>
Анализ связности статей даёт авторам возможность сделать их статьи лучше, привлекая
к ним внимание других, будь то читатели, или авторы других статей.
</p>
<p>
Ещё одна причина к анализу связности - попытка решить эту задачу необычным образом,
не прибегая к реализации алгоритмов на традиционных для этого языках программирования,
работающих по экспортируемым данным. Для повышения актуальности получаемого анализа
необходимо избегать пересылки слишком больших порций данных и запускать приложение
ближе к актуальной базе данных Википедии. Таким образом, пишем на SQL. Пока ещё никто
не делал этого на SQL. Here we go.
</p>
Повернутися на сторінку користувача «Pavlo Shevelo/Проект «Зв'язність»/ревизия/othersections».