Новый проект о ТГ-каналах Калужской области начинаем с анализа сети цитирования ТГ-каналов СМИ. Материал содержит доступный для скачивания рейтинг 80 ТГ-каналов калужских СМИ, построенный по индивидуальной методике на основе первичных данных (никакого TGStat).
В начале апреля мы переключились на Телеграм-каналы Калужской области.
Сначала на небольшой выборке из 36 каналов мы провели первые эксперименты, рассмотрев использование в постах наречий и эмодзи (🦌🌺🐰🦐🍺🍬).
Пришло время повысить ставки и масштабировать проект до нашей исходной задумки. Мы хотим проанализировать ТГ-каналы Калужской области, авторы которых в силу статуса имеют полномочия или даже обязанность влиять на общественное мнение по широкому кругу вопросов. Наши герои – депутаты, госслужащие, журналисты, руководители организаций, члены общественных советов и иные публичные персоны, претендующие на принадлежность к касте “представителей”.
В итоге мы выбрали 504 ТГ-каналов (см. “Критерии отбора”) и выгрузили 799,407 постов, из которых:
55,552 являются репостами,
726,726 содержат текст (остальное – картинки),
315,095 содержат emoji,
323,583 содержат URL-адреса,
138,986 содержат #тэги,
В таблице ниже для каждого из каналов показаны основные характеристики.
Получившейся выборкой мы очень довольны 😇 и собираемся её активно использовать для поиска ответов на самые разные вопросы, а начнем с главного:
Кто
“…такой Джон Голт?”здесь Царь Горы?
Близкие по духу каналы мы решили объединить в тематические группы (внимательный читатель мог заметить в таблице выше столбец “Группа каналов”):
ВЛАСТЬ 36 каналов: администрация Губернатора КО и Правительство КО.
Вынуждены вникать в локальные проблемы и бороться за достижение целевых показателей.
МУНИЦИПАЛЫ 327 каналов: официальные паблики администраций и руководителей районов и поселений).
Тоже вынуждены вникать и бороться, но согласно ст. 12 Конституции РФ в пределах своих полномочий самостоятельны и не входят в систему органов государственной власти.
НАДЗОР 8 каналов: Прокуратура, МВД, СК, Роспотребнадзор, и т.д).
Хотя они тоже органы государственной власти, но им важны не столько цели, сколько методы.
ОБЩЗАК 13 каналов: члены Законодательного собрания, общественных советов и комиссий, и т.д.).
Следят за приматами права и соблюдением Конституции.
МОЛОДЁЖЬ 9 каналов: молодёжные парламенты, думы, советы, творческие аквариумы, и т.п.)
Рисуют будущее, куют из себя новые кадры.
БИЗНЕС 15 каналов: ГЧП, ТПП, АИРКО, АРРКО, и т.д.)
Почти как МОЛОДЁЖЬ, только игры для взрослых и деньги не нарисованные.
СМИ 88 каналов:
В этих синдикатах непросто разобраться. Постарались включить как минимум по несколько СМИ из каждого района.
СТОЛИЦА 4 канала.
Актив “мягкой силы” Калужской области (вместе с Хохулей).
ИДЕОЛОГИЯ 4 канала.
Фокус на сложных вопросах или задачах партийного строительства.
Критерий 1 В выборку не включены тематические каналы – паблики библиотек, больниц, учебных заведений, домов творчества, избирательных комиссий и т.д. Даже если их авторы иногда отвлекаются от рабочих вопросов, мы решили не забивать выборку объявлениями про выдачу учебников или викторину в клубе “ЗАЗО”?
Критерий 2 Мы старались не включать каналы с совсем маленьким количеством подписчиков, за исключением тех, которые представляют небольшие поселения.
Критерий 3 Каналы, паразитирующие на низких нравах или призывающие к всяким глупостям, отметались без колебаний.
Один из популярных способов измерения крутости журнала связан с цитированием. Если в канале А размещен репост или какая-то иная гиперссылка на публикацию из канала Б, можно считать что в копилку канала Б прибавилась удельная единица признания (+1). Таким образом, чем больше канал цитируют и репостят, тем выше его авторитет.
Правда, есть одна особенность – несколько каналов, объединенных общими интересами, могут договориться “тереть друг другу спинку по очереди”. Конечно, все эти картельные штучки давно научились определять. У нас все данные на руках, поэтому мы можем обращать внимание не только на общее количество цитирований (канала Б), но также и на количество цитирующих каналов (подобных каналу А). Ну а если почуем неладное, хиршемерку достанем.
Рассмотрим 3 типа цитирования и их особенности.
Репосты легко выделить из массива данных с указанием сведений об исходном (процитированном) посте (дата, время, название канала).
Важная особенность от других типов цитирования – в 1 посте может быть только 1 репост.
Если автор хочет процитировать несколько сообщений, тогда он поставить в тексте одного своего поста любое количество ссылок на оригинальные посты других авторов.
Такие ссылки несложно выделять из постов и мы будем их также использовать для анализа цитирования.
Это самый сложный для анализа тип цитирования, когда автор поста не оставляет гиперссылку на ТГ-канал, а ограничивается упоминанием персоны.
Такие цитирования сложно выделять из текста и ещё сложнее привязывать к профилю реальной персоны, потому что в тексте автора цитаты могут назвать как угодно. Если ФИО распространенные (Ольга Петрова, Сергей Иванов, и т.д.) шансы некорректной привязки упоминания к персоне начинают увеличиваться, поэтому приходится анализировать контекст (используя упомянутые рядом названия организаций и специфичные термины).
Для построения рейтингов мы ограничимся только 1 и 2 типом цитирования.
Единственная дилемма – приравнивать ли ссылки к репостам?
Репост подобен признанию в любви – адресно и безоговорочно. Посты, набитые гиперссылками, подобны бездушному свайпингу.
Если придерживаться такого подхода к оценке влияния, то можно за репост давать 1 балл, а за ссылку 1/m, где m – количество ссылок в посте. Или же любое упоминание считать просто упоминанием и учитывать с весом равным 1. Мы попробуем оба способа.
Царь горы – игра СМИ. Это единственная группа, чья заинтересованность в упоминаниях и цитированиях влияет на доход.
Мы начнем с построения рейтинга на основе цитирований между ТГ-каналами группы СМИ (как одни СМИ цитируют другие СМИ). Поехали!
Ниже приведен фрагмент таблицы цитирований с участием ТГ-канала “Сухарик лайф”
Видим, что канал “Сухарик лайф” чаще всего цитировался каналом “Организатор_медиа_Сухиничи” и цитировал чаще всего тоже его. А вот “Моя Калуга”, которая 15 раз процитировала “сухарика”, радостей взаимного цитирования не познала.
На основе аналогичных данных мы для ТГ-каналов СМИ построили рейтинг.
Строки отсортированы по убыванию N_цит_ТГК5, но в интерактивной таблице выше, нажав на название столбца, можно пересортировать строки по значениям любого другого столбца.
Резюмируем:
по количеству цитирующих ТГ-каналов (N_цит_ТГК) лидирует НИКА. В том числе и по количеству ТГ-каналов, которые цитировали не менее 5 раз - НИКУ любят, ценят, цитируют. Идущие следом – канал Евгения Серкина, Калуга 24 и КГВ.
по значению индекса Хирша (h-index) вперёд выходит канал Евгения Серкина. Но это, конечно, мы ему помогли тем, что включили в выборку много обнинских каналов, которые хотят-не хотят, любят-не любят, а всё же цитируют ES!.
по общему количеству цитирования вперед вышли “Калужские новости”, которых цитировали всего 9 других ТГ-каналов группы СМИ (для сравнения НИКУ - 50!), но 4 из них цитируют ТГ-канал “Калужские новости” постоянно, что и определяет значение показателя “Сумма”.
Значения показателя Сумма2 (с удельным весом ссылок) позиции лидеров не меняло. Мы предполагаем, что у СМИ не принято цитировать другие каналы в виде прямых ссылок – или репост, или никак. И всё же в выборке СМИ встречаются ТГ-каналы, для которые значения Сумма и Сумма2 существенно различаются – “КО_лужа”, “Сорок_А” и “ПроходяМиМо”. Их нередко цитировали в постах со множественными ссылками, поэтому при сложении с удельным весом (1/кол-во ссылок) формируется более низкий итоговый балл (Сумма 2), чем при подсчете, который игнорирует различия между репостами и ссылками (Сумма1).

Расположение кружков и их цвет на иллюстрации – результат работы алгоритма, оно не отражает ни географию СМИ, ни их организационные или экономические связи, а учитывает лишь наличие у каналов истории цитирований (в любую сторону). Каналы находятся ближе друг к другу, если у них много общих “партнёров по цитированию”. Например, “ES! - канал Евгения Серкина” находится близко к каналам “Типичный Обнинска” и “Обнинск 040”, а “В Обнинске” к “ЧП Обнинск”. Несмотря на “условный характер” отражения, алгоритм позволяет в общей картине увидеть группы “связанных” каналов.
Если судить только по цитированию внутри группы СМИ, то на титул Царя Горы претендуют 2 ТГ-канала: НИКА и ES!-канал Евгения Серкина.
Однако, победа в категории “СМИ цитирует СМИ” – это хоть и должно греть душу, но ещё не победа.
В следующей части мы покажем, какие СМИ цитируют ТГ-каналы из групп ВЛАСТЬ, ОБЩЗАК и МУНИЦИПАЛЫ. А потом займемся и всеми остальными группами.
Продолжение следует…
Нравятся наши материалы? 👉 ТГ-канал Regina Lab
Telegram Калужской области. Часть 1. Царь горы // Блог Regina Lab. - 2024. - URL: https://reginaobninsklab.github.io/posts/kaluga-tg-citations/. - Дата публикации: 13 апреля 2024 г.
Если не указано иное, то статья целиком и составляющие её текст, иллюстрации и данные могут использоваться на условиях публичной лицензии Creative Commons CC BY 4.0 Deed Attribution 4.0 International.
См. соответствующий раздел на странице “О проекте”.
Allaire J, Xie Y, Dervieux C, McPherson J, Luraschi J, Ushey K, Atkins A, Wickham H, Cheng J, Chang W, Iannone R (2023). rmarkdown: Dynamic Documents for R. R package version 2.22, https://github.com/rstudio/rmarkdown.
Ooms J (2023). magick: Advanced Graphics and Image-Processing in R. R package version 2.8.2, https://CRAN.R-project.org/package=magick.
Pedersen T (2024). patchwork: The Composer of Plots. R package version 1.2.0, https://CRAN.R-project.org/package=patchwork.
Qiu Y, details. aotifSfAf (2022). sysfonts: Loading Fonts into R. R package version 0.8.8, https://CRAN.R-project.org/package=sysfonts.
Qiu Y, details. aotisSfAf (2023). showtext: Using Fonts More Easily in R Graphs. R package version 0.9-6, https://CRAN.R-project.org/package=showtext.
Wickham H (2022). stringr: Simple, Consistent Wrappers for Common String Operations. R package version 1.5.0, https://CRAN.R-project.org/package=stringr.
Wickham H (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York. ISBN 978-3-319-24277-4, https://ggplot2.tidyverse.org.
Wickham H, François R, Henry L, Müller K, Vaughan D (2023). dplyr: A Grammar of Data Manipulation. R package version 1.1.2, https://CRAN.R-project.org/package=dplyr.
Wickham H, Henry L (2023). purrr: Functional Programming Tools. R package version 1.0.1, https://CRAN.R-project.org/package=purrr.
Wickham H, Hester J, Bryan J (2023). readr: Read Rectangular Text Data. R package version 2.1.4, https://CRAN.R-project.org/package=readr.
Wickham H, Seidel D (2022). scales: Scale Functions for Visualization. R package version 1.2.1, https://CRAN.R-project.org/package=scales.
Wickham H, Vaughan D, Girlich M (2023). tidyr: Tidy Messy Data. R package version 1.3.0, https://CRAN.R-project.org/package=tidyr.
Wilke C, Wiernik B (2022). ggtext: Improved Text Rendering Support for ‘ggplot2’. R package version 0.1.2, https://CRAN.R-project.org/package=ggtext.
Xie Y (2023). knitr: A General-Purpose Package for Dynamic Report Generation in R. R package version 1.43, https://yihui.org/knitr/.
Xie Y (2015). Dynamic Documents with R and knitr, 2nd edition. Chapman and Hall/CRC, Boca Raton, Florida. ISBN 978-1498716963, https://yihui.org/knitr/.
Xie Y (2014). “knitr: A Comprehensive Tool for Reproducible Research in R.” In Stodden V, Leisch F, Peng RD (eds.), Implementing Reproducible Computational Research. Chapman and Hall/CRC. ISBN 978-1466561595.
Xie Y, Allaire J, Grolemund G (2018). R Markdown: The Definitive Guide. Chapman and Hall/CRC, Boca Raton, Florida. ISBN 9781138359338, https://bookdown.org/yihui/rmarkdown.
Xie Y, Dervieux C, Riederer E (2020). R Markdown Cookbook. Chapman and Hall/CRC, Boca Raton, Florida. ISBN 9780367563837, https://bookdown.org/yihui/rmarkdown-cookbook.
Yu G (2023). ggimage: Use Image in ‘ggplot2’. R package version 0.3.3, https://CRAN.R-project.org/package=ggimage.