Форум — Статистика Филиала
Создатель: wd:deleted-1440737 wd:deleted-1440737
Дата: 11:38 24.05.2015
Сообщений: 5
Краткое описание:
Различные данные и статистика о страницах,пользователях, ревизиях, голосах и т.д.
Статистика Филиала
wd:deleted-1440737 wd:deleted-1440737 11:38 24.05.2015

Добрый день.
В рамках своего проекта SCPper, о котором я уже писал раньше, я создал набор скриптов, которые умеют индексировать викидотовские сайты, а полученную информацию сохранять в базу данных. С оной базой данных я впоследствии могу проделывать всякие непотребства, в частности получать разнообразную статистику как по одному сайту, так и по всем сайтам скопом. Собственно, это она (статистика) и есть.
Сразу обмолвлюсь, что система ещё может давать погрешности, например, при автоматическом определении переводов. На данный момент единственный способ определить, что статья является переводом статьи с другого сайта - убедиться, что имена статей, используемые в адресной строке браузера, совпадают, и та, другая статья была создана раньше. Это приводит к некоторым ошибкам, когда, например, scpfoundation.ru/news будет считаться переводом scp-wiki.net/news. Есть надежда, что в будущем удастся привлечь сообщество к исправлению таких ошибок, но пока что довольствуемся тем, что имеем.
Кроме того в статистике учитывались только страницы из категории _default, то есть, к примеру, декоммы сюда не попали.
Итак, непосредственно статистика Российского Филиала.

1799 членов сайта.
3589 страниц.
Из них - 813 оригинальных созданных 104мя авторами.
И 2776 - переводов созданных 116ю переводчиками.
Всего на сайте было сделано 36410 ревизий 382мя пользователями.

Статистика голосов

Всего на сайте на момент индексирования было 44505 голосов, 42729 из которых принадлежат пользователям, являющимся членами сайта на данный момент.

Позже постараюсь добавить ещё занятную статистику, если придумаю, какую именно. Кроме того, принимаются заказы от любопытствующих.

Re: Статистика Филиала
wd:Owl-Thrower wd:Owl-Thrower 19:50 24.05.2015

Опа на, я топовый голосовальщик!

Re: Статистика Филиала
wd:deleted-1402828 wd:deleted-1402828 20:58 24.05.2015

Отлично поработали, 59! Хотя, по-моему, в "оригинальные статьи" что-то постороннее засчиталось. Я вроде 83 не-перевода создать ещё не успел.

А насколько часто планируется делать такие обзоры?

Re: Статистика Филиала
wd:deleted-1440737 wd:deleted-1440737 02:46 25.05.2015

Спасибо. Приятно осознавать, что трудился не зря. На самом деле, теперь, когда весь код уже написан, выводить готовую статистику - дело плёвое. Не знаю, имеет ли смысл подводить итоги каждый месяц, учитывая, что сайт не самый большой и активный, но можно раз в квартал или год, например. Если удастся реализовать всё задуманное, то должен вообще появиться небольшой сайт, где любой желающий сможет посмотреть свежую статистику по любому из сайтов SCP.
С погрешностями, увы, поделать сейчас ничего не могу. Перебирать 3500+ статей вручную и проверять, являются ли они переводами или нет - занятие весьма трудоёмкое.

Re: Статистика Филиала
Gene-R Gene-R 21:23 24.05.2015

И вправду, работа проделана изрядная.
Сам пытался проделывать такую. Дело осложняется тем, что у нас есть две-три сотни статей, опубликованных не их авторами и/или доведённых до ума другими людьми. Также есть десятка три служебных страниц и несколько примеров коллективного творчества.

Re: Статистика Филиала
wd:deleted-1440737 wd:deleted-1440737 03:46 25.05.2015

Да, к сожалению, неточностей хватает. В случае с английской вики отсеять системные или информационные страницы можно хотя бы по тегам. В случае с другими сайтами всё сложнее, потому что каждый придерживается своего формата и своих правил относительно тегов, подписей, и т.д. Если мне не изменяет память, то на одном из сайтов переводчик и оригинальный автор указываются в самой статье, прямо под текстом. Опять же, у англиков есть таблица переопределения авторства, которую могут использовать всевозможные скрипты и боты. Кроме того, на волне переводов с иноязычных сайтов у них сейчас идёт обсуждение о том, чтобы расширить таблицу таким образом, чтобы она включала в себя информацию о переводчиках, статьях, написанных в соавторстве, и т.п.
Впрочем, даже если выделить такой набор правил и уточнений для каждого сайта в отдельности, то реализовать их и, самое главное, поддерживать - весьма муторная задача.
Однако, как я уже говорил выше, есть другая идея. Вся эта база данных изначально создавалась для того, чтобы мой плагин для Хрома мог оперативно вытаскивать оттуда нужную информацию и статистику по каждой отдельно взятой странице или автору. Если не возникнет никаких проблем с хостингом и идея всё-таки дотянет до своей реализации, то у людей, имеющих этот плагин, внизу страницы будет появляться информация о ней. И там же будет кнопочка, которая позволит сообщить мне о том, что информация эта некорректна (страница [не] является переводом, страница является системной и её не надо учитывать, автор неверен и т.д.). Пока что моя основная надежда на то, что этот вариант сработает и найдутся сознательные граждане, готовые эти ошибки репортить.

Re: Статистика Филиала
wd:deleted-1402828 wd:deleted-1402828 08:03 25.05.2015

Я не очень умею в программирование, так что извините, если ерунду скажу, но. Скрипт смотрит, есть ли на англовики статья с таким названием и если есть, то записывает её в переводы, а если нет - то в оригинал? В таком случае, всё объясняется тем, что в мой "оригинал" записались переводы с французского и польского, а также материалы ГОК, МКиД и Библиотеки.

А, кстати. Deleted Account - это ж Dugond наш. Может, стоит поправить, а то выглядит, как всеми любимый Unknown Artist.

Re: Статистика Филиала
wd:deleted-1440737 wd:deleted-1440737 13:41 25.05.2015

Вы частично правы. =)
Для системы все сайты равноправны и оригинал статьи определяется только по дате создания. Поэтому переводы между любыми проиндексированными сайтами определяются корректно при условии, что названия страниц совпадают. В частности, "Путешественник", "Сыны нации" и "Книга писем" считаются оригиналами для рувики, и переводами для английский.
А вот сайт-спиноффы у меня действительно не проиндексированы, поэтому переводы с них считаются самостоятельными статьями. Впрочем, это легко исправить, если мне кто-нибудь подскажет список таких сайтов.

Под катом список Ваших страниц на рувики, считающихся оригинальными. Сразу уточню, что я привожу этот список просто для утоления любопытства. Увы, времени, чтобы руками исправлять отдельные ошибки, у меня сейчас нет.

Некоторые страницы действительно переведены с сайтов-спиноффов, оригиналы других были удалены, а, например, у польских статей просто не совпадает название, поскольку поляки свой суффикс ставят перед номером объекта, а не после него.

По второму пункту. Есть два удалённых аккаунта с высокой активностью. Один из них (id 1367412) является автором таких страниц, как "SCP-2998", "SCP-2317 - Дверь в другой мир", "SCP-1968 - Тор глобальной ретропричинности", другой - "SCP-206-RU - Путешественник", "SCP-001:O5", "Предложение доктора Клефа". Если скажете, кто есть кто, то могу поправить, благо тут немного.

Re: Статистика Филиала
wd:deleted-1402828 wd:deleted-1402828 14:42 25.05.2015

Есть два удалённых аккаунта с высокой активностью.

И тот, и другой - это Dugond. "Путешественника" он написал в первое пришествие, "Тор ретропричинности" перевёл во второе. Ждём третьего, чего уж.

Из списка же "моих оригиналов" моими являются:

Венок Кетеров, Скелетики, Лекция о меметике в искусстве, Память, Время, Эскулап, Устранение одобрено, Приказ, Игра в вопросы. То есть, то, что можно найти чуть ниже моего ника в разделе "рассказы". Остальное - переводы, перенос с Полигона чужих работ, помещение объектов в архив, а также всякие архивы новостей.

Re: Статистика Филиала
wd:deleted-1440737 wd:deleted-1440737 14:20 13.04.2016

И снова здравствуйте.
В прошлый раз я сказал:

Если удастся реализовать всё задуманное, то должен вообще появиться небольшой сайт, где любой желающий сможет посмотреть свежую статистику по любому из сайтов SCP.

В этот раз я подтверждаю, что да, удалось. Если и не всё задуманное, то хотя бы частично. Результатом трудов стал вот этот сайт: http://scpper.com/
На сайте можно, выбрав интересующий вас филиал, посмотреть статистику по всему филиалу, а также по каждой странице и пользователю в частности. Можно, например, узнать на каком месте в общем рейтинге находится автор, как менялся рейтинг страницы (начиная с лета прошлого года), историю голосования пользователя и т.д.
Увы, проблема с определением того, где переводы, а где оригиналы осталась, и, соответственно, с тем, является ли пользователь, создавший страницу, автором или переводчиком. Вручную перебирать все статьи и проверять у меня нет ни желания, ни времени.
Надеюсь, несмотря на эти недостатки сайт окажется небесполезным. Если есть у вас появятся какие-то вопросы, то можете изучить мини-FAQ (правда, он на английском) или задать их в этой теме. Также принимаются предложения, пожелания, критика и нецензурная брань.

Re: Статистика Филиала
wd:iavev wd:iavev 18:51 13.04.2016

Ого, у меня 6 ранк! Да, проблема с тем, что у нас рассказы не имеют тега "ru", в подобном и проявляется, ибо 33 оригинала у меня отродясь не было, а статистика подсчитывает туда и созданные технические страницы, и переводы (особенно проблема с рассказами с тегом БС. Может, попробовать все статьи с этим тегом автоматически вынести в раздел "переводы"?). Не уверен, что работает, но можно попробовать также все страницы, не имеющие тегов, также записывать как переводы, или же технические, если таковая страница тега "рассказ" или "объект" не имеет (списки объектов, архивы новостей и т.д.).

Re: Статистика Филиала
wd:deleted-1440737 wd:deleted-1440737 03:45 14.04.2016

Небольшое пояснение по механизму.
Есть две параллельных классификации: статус страницы (Status) и её тип (Kind). Чтобы всё было совсем красиво и корректно, нужно, чтобы обе классификации были заполнены верно.
Статус на данный момент имеет два варианта: оригинал и перевод.
Тип имеет 10: объект из основного списка (SCP), рассказ (tale), шутка (joke) … техническая страница (service), прочие (other) и неизвестно (unknown).
Технические страницы не учитываются в рейтинге и не отображаются в профиле автора, для остальных пока всё работает одинаково. Таким образом страница может быть одновременно, например, и технической, и переводом. На данный момент я решил, что лучше учесть лишние страницы, чем чего-то недоучесть, поэтому все страницы, насчёт которых нет уверенности, записываются не в технические, а в прочие.

В случае с английской вики заполнить оба поля не было проблемой, поскольку все, или почти все, страницы снабжены тегами, по которым я смог автоматически назначить соответствующие поля. Некоторые переводы пришлось подправить руками, но на английской вики их всего 20 штук, так что это не беда. В случае с русскоязычным филиалом в этом плане всё обстоит хуже, поскольку даже беглый осмотр показывает, что есть технические и обычные страницы, которые с первого взгляда неотличимы друг от друга, например вот и вот. Немного спасает, что для переводов проставляется тот же тип страницы, что и для оригиналов, но это возвращается нас к проблеме, как определить, где перевод, а где оригинал.

Может, попробовать все статьи с этим тегом автоматически вынести в раздел "переводы"

Это можно попробовать. И другие аналогичные правила.

Re: Статистика Филиала
Gene-R Gene-R 07:10 14.04.2016

к проблеме, как определить, где перевод, а где оригинал

Можно так: если на англовики есть страница с таким же адресом, у неё не стоит тег ru и при этом она старше нашей - это их оригинал.
Несовместимость будет по протоколу экспериментов 261 и тем статьям, которые англики удалили, а мы ещё нет.

Re: Статистика Филиала
wd:deleted-1440737 wd:deleted-1440737 07:28 14.04.2016

Именно так сейчас и происходит. Я сравниваю URL'ы страниц на разных сайтах, а при совпадении ищу самую старую страницу. Подход, увы, несовершенен и даёт сбои по вышеперечисленным причинам, на статьях с БС (и, может, с других спин-оффов), также может давать ложные совпадения на некоторых страницах, например, главной. Я не думаю, что в условиях викидота можно полностью автоматизировать распознавание переводов, не прибегая к тотальной расстановке тегов, но можно попытаться снизить процент ошибок, воспользовавашись некоторым набором правил. У меня есть идея добавить на сайт функцию, позволяющую отправить отчёт о неверном авторстве или статусе страницы, чтобы я потом мог одобрить или отклонить предложенные изменения, но:
1) Есть сомнения, что кто-то вообще будет этим заниматься. В конце концов, это сторонний ресурс, на который с вики нет ссылок, и, наверное, не будет. По крайней мере, на английской вики ко мне никто из организаторов с таким предложением не обращался. А без подобной ссылки посещаемость сайта будет не очень большой.
2) Это ощутимый объём работы, особенно, учитывая, что данный сайт - вообще мой первый опыт в веб-разработке. Так что, если я до этого доберусь, то не в ближайшее время.

Re: Статистика Филиала
wd:SunCat wd:SunCat 17:16 13.04.2016
версия страницы: 2, Последняя правка: 20 Сен. 2023, 00:24 (414 дня назад)
Пока не указано иное, содержимое этой страницы распространяется по лицензии Creative Commons Attribution-ShareAlike 3.0 License.