Telegram Калужской области. Часть 1. Царь горы

сми телеграм рейтинг цитирования

Новый проект о ТГ-каналах Калужской области начинаем с анализа сети цитирования ТГ-каналов СМИ. Материал содержит доступный для скачивания рейтинг 80 ТГ-каналов калужских СМИ, построенный по индивидуальной методике на основе первичных данных (никакого TGStat).

В начале апреля мы переключились на Телеграм-каналы Калужской области.

Сначала на небольшой выборке из 36 каналов мы провели первые эксперименты, рассмотрев использование в постах наречий и эмодзи (🦌🌺🐰🦐🍺🍬).

Пришло время повысить ставки и масштабировать проект до нашей исходной задумки. Мы хотим проанализировать ТГ-каналы Калужской области, авторы которых в силу статуса имеют полномочия или даже обязанность влиять на общественное мнение по широкому кругу вопросов. Наши герои – депутаты, госслужащие, журналисты, руководители организаций, члены общественных советов и иные публичные персоны, претендующие на принадлежность к касте “представителей”.

В итоге мы выбрали 504 ТГ-каналов (см. “Критерии отбора”) и выгрузили 799,407 постов, из которых:

В таблице ниже для каждого из каналов показаны основные характеристики.

Получившейся выборкой мы очень довольны 😇 и собираемся её активно использовать для поиска ответов на самые разные вопросы, а начнем с главного:

Кто “…такой Джон Голт?” здесь Царь Горы?


Группы каналов

Близкие по духу каналы мы решили объединить в тематические группы (внимательный читатель мог заметить в таблице выше столбец “Группа каналов”):


Критерии отбора

Критерий 1 В выборку не включены тематические каналы – паблики библиотек, больниц, учебных заведений, домов творчества, избирательных комиссий и т.д. Даже если их авторы иногда отвлекаются от рабочих вопросов, мы решили не забивать выборку объявлениями про выдачу учебников или викторину в клубе “ЗАЗО”?

Критерий 2 Мы старались не включать каналы с совсем маленьким количеством подписчиков, за исключением тех, которые представляют небольшие поселения.

Критерий 3 Каналы, паразитирующие на низких нравах или призывающие к всяким глупостям, отметались без колебаний.

Рейтинги

Один из популярных способов измерения крутости журнала связан с цитированием. Если в канале А размещен репост или какая-то иная гиперссылка на публикацию из канала Б, можно считать что в копилку канала Б прибавилась удельная единица признания (+1). Таким образом, чем больше канал цитируют и репостят, тем выше его авторитет.

Правда, есть одна особенность – несколько каналов, объединенных общими интересами, могут договориться “тереть друг другу спинку по очереди”. Конечно, все эти картельные штучки давно научились определять. У нас все данные на руках, поэтому мы можем обращать внимание не только на общее количество цитирований (канала Б), но также и на количество цитирующих каналов (подобных каналу А). Ну а если почуем неладное, хиршемерку достанем.

Рассмотрим 3 типа цитирования и их особенности.

Тип 1. Репост

Репосты легко выделить из массива данных с указанием сведений об исходном (процитированном) посте (дата, время, название канала).

Важная особенность от других типов цитирования – в 1 посте может быть только 1 репост.

Тип 2. Ссылка

Если автор хочет процитировать несколько сообщений, тогда он поставить в тексте одного своего поста любое количество ссылок на оригинальные посты других авторов.

Такие ссылки несложно выделять из постов и мы будем их также использовать для анализа цитирования.

Тип 3. Упоминание

Это самый сложный для анализа тип цитирования, когда автор поста не оставляет гиперссылку на ТГ-канал, а ограничивается упоминанием персоны.

Такие цитирования сложно выделять из текста и ещё сложнее привязывать к профилю реальной персоны, потому что в тексте автора цитаты могут назвать как угодно. Если ФИО распространенные (Ольга Петрова, Сергей Иванов, и т.д.) шансы некорректной привязки упоминания к персоне начинают увеличиваться, поэтому приходится анализировать контекст (используя упомянутые рядом названия организаций и специфичные термины).

Для построения рейтингов мы ограничимся только 1 и 2 типом цитирования.

Единственная дилемма – приравнивать ли ссылки к репостам?

Репост подобен признанию в любви – адресно и безоговорочно. Посты, набитые гиперссылками, подобны бездушному свайпингу.

Если придерживаться такого подхода к оценке влияния, то можно за репост давать 1 балл, а за ссылку 1/m, где m – количество ссылок в посте. Или же любое упоминание считать просто упоминанием и учитывать с весом равным 1. Мы попробуем оба способа.

СМИ-СМИ

Царь горы – игра СМИ. Это единственная группа, чья заинтересованность в упоминаниях и цитированиях влияет на доход.

Мы начнем с построения рейтинга на основе цитирований между ТГ-каналами группы СМИ (как одни СМИ цитируют другие СМИ). Поехали!

Ниже приведен фрагмент таблицы цитирований с участием ТГ-канала “Сухарик лайф”

Видим, что канал “Сухарик лайф” чаще всего цитировался каналом “Организатор_медиа_Сухиничи” и цитировал чаще всего тоже его. А вот “Моя Калуга”, которая 15 раз процитировала “сухарика”, радостей взаимного цитирования не познала.

На основе аналогичных данных мы для ТГ-каналов СМИ построили рейтинг.

Строки отсортированы по убыванию N_цит_ТГК5, но в интерактивной таблице выше, нажав на название столбца, можно пересортировать строки по значениям любого другого столбца.

Резюмируем:

Расположение кружков и их цвет на иллюстрации – результат работы алгоритма, оно не отражает ни географию СМИ, ни их организационные или экономические связи, а учитывает лишь наличие у каналов истории цитирований (в любую сторону). Каналы находятся ближе друг к другу, если у них много общих “партнёров по цитированию”. Например, “ES! - канал Евгения Серкина” находится близко к каналам “Типичный Обнинска” и “Обнинск 040”, а “В Обнинске” к “ЧП Обнинск”. Несмотря на “условный характер” отражения, алгоритм позволяет в общей картине увидеть группы “связанных” каналов.

Планы

Если судить только по цитированию внутри группы СМИ, то на титул Царя Горы претендуют 2 ТГ-канала: НИКА и ES!-канал Евгения Серкина.

Однако, победа в категории “СМИ цитирует СМИ” – это хоть и должно греть душу, но ещё не победа.

В следующей части мы покажем, какие СМИ цитируют ТГ-каналы из групп ВЛАСТЬ, ОБЩЗАК и МУНИЦИПАЛЫ. А потом займемся и всеми остальными группами.

Продолжение следует…


Нравятся наши материалы? 👉 ТГ-канал Regina Lab


Поделиться

Ссылка для цитирования

Telegram Калужской области. Часть 1. Царь горы // Блог Regina Lab. - 2024. - URL: https://reginaobninsklab.github.io/posts/kaluga-tg-citations/. - Дата публикации: 13 апреля 2024 г.

Права

Если не указано иное, то статья целиком и составляющие её текст, иллюстрации и данные могут использоваться на условиях публичной лицензии Creative Commons CC BY 4.0 Deed Attribution 4.0 International.

Отказ от ответственности

См. соответствующий раздел на странице “О проекте”.

Софт

Allaire J, Xie Y, Dervieux C, McPherson J, Luraschi J, Ushey K, Atkins A, Wickham H, Cheng J, Chang W, Iannone R (2023). rmarkdown: Dynamic Documents for R. R package version 2.22, https://github.com/rstudio/rmarkdown.

Ooms J (2023). magick: Advanced Graphics and Image-Processing in R. R package version 2.8.2, https://CRAN.R-project.org/package=magick.

Pedersen T (2024). patchwork: The Composer of Plots. R package version 1.2.0, https://CRAN.R-project.org/package=patchwork.

Qiu Y, details. aotifSfAf (2022). sysfonts: Loading Fonts into R. R package version 0.8.8, https://CRAN.R-project.org/package=sysfonts.

Qiu Y, details. aotisSfAf (2023). showtext: Using Fonts More Easily in R Graphs. R package version 0.9-6, https://CRAN.R-project.org/package=showtext.

Wickham H (2022). stringr: Simple, Consistent Wrappers for Common String Operations. R package version 1.5.0, https://CRAN.R-project.org/package=stringr.

Wickham H (2016). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York. ISBN 978-3-319-24277-4, https://ggplot2.tidyverse.org.

Wickham H, François R, Henry L, Müller K, Vaughan D (2023). dplyr: A Grammar of Data Manipulation. R package version 1.1.2, https://CRAN.R-project.org/package=dplyr.

Wickham H, Henry L (2023). purrr: Functional Programming Tools. R package version 1.0.1, https://CRAN.R-project.org/package=purrr.

Wickham H, Hester J, Bryan J (2023). readr: Read Rectangular Text Data. R package version 2.1.4, https://CRAN.R-project.org/package=readr.

Wickham H, Seidel D (2022). scales: Scale Functions for Visualization. R package version 1.2.1, https://CRAN.R-project.org/package=scales.

Wickham H, Vaughan D, Girlich M (2023). tidyr: Tidy Messy Data. R package version 1.3.0, https://CRAN.R-project.org/package=tidyr.

Wilke C, Wiernik B (2022). ggtext: Improved Text Rendering Support for ‘ggplot2’. R package version 0.1.2, https://CRAN.R-project.org/package=ggtext.

Xie Y (2023). knitr: A General-Purpose Package for Dynamic Report Generation in R. R package version 1.43, https://yihui.org/knitr/.

Xie Y (2015). Dynamic Documents with R and knitr, 2nd edition. Chapman and Hall/CRC, Boca Raton, Florida. ISBN 978-1498716963, https://yihui.org/knitr/.

Xie Y (2014). “knitr: A Comprehensive Tool for Reproducible Research in R.” In Stodden V, Leisch F, Peng RD (eds.), Implementing Reproducible Computational Research. Chapman and Hall/CRC. ISBN 978-1466561595.

Xie Y, Allaire J, Grolemund G (2018). R Markdown: The Definitive Guide. Chapman and Hall/CRC, Boca Raton, Florida. ISBN 9781138359338, https://bookdown.org/yihui/rmarkdown.

Xie Y, Dervieux C, Riederer E (2020). R Markdown Cookbook. Chapman and Hall/CRC, Boca Raton, Florida. ISBN 9780367563837, https://bookdown.org/yihui/rmarkdown-cookbook.

Yu G (2023). ggimage: Use Image in ‘ggplot2’. R package version 0.3.3, https://CRAN.R-project.org/package=ggimage.