Рубрики
2020 Аналитика Весь мир Россия Технологии и разработка

Новостной агрегатор глазами Павла Дурова

11 мая Telegram объявил второй этап конкурса по созданию новостного агрегатора. Конкурс должен закончиться 25 мая, победители разделят призовой фонд в $100 тысяч.

Условия конкурса — очень интересный документ. Фактически это техническое задание, сквозь которое просвечивают черты новостного продукта Павла Дурова.

Технологии нас интересуют мало, поэтому мы не будем уделять внимания нагрузочным и иным требованиям к продукту (в частности, запрету на сетевые соединения, предпочтению С++, отказу от внешних зависимостей или конфигурации серверов).

Гораздо интереснее парадокс: чтобы сделать хороший новостной агрегатор, ты должен понять, что такое новость. Понимая, что такое новость, ты неизбежно отбрасываешь часть заметок. То же самое касается, например, категорий. Нельзя без потерь разделить мир на категории, и подобная попытка обречена на провал. Более того, две разные новости в категории с разной силою к ней притягиваются. Как в «Хазарском словаре»: «Разница между двумя „да“ может быть большей, чем между „да“ и „нет“».

Всей отрасли уже было весело и страшно, когда мы видели, как «Яндекс.Новости» объясняли, что такое хороший, а что такое плохой новостной заголовок (страшно стало, когда это оказалось всерьез). Это все тот же сервис, который одной рукой запрещает кликбейт, а другой ставит в пятерку на главной странице заголовки вроде «Воробьев рассказал, какие ограничения снимут в Подмосковье 18 мая».

Поэтому у журналистов были завышенные ожидания, когда в июне 2019 года Павел Дуров написал:

В свое время мы организовали “Ноев ковчег” для лучших разработчиков ВКонтакте, пригласив их на работу в Telegram. В этом году мы хотим дать такой же шанс разработчикам Яндекса, которые занимаются сервисами рекомендации контента. Устройство таких сервисов, как “Яндекс.Новости”, впечатляет в техническом отношении, однако ограничено цензурой и русскоязычным рынком.

Telegram обладает количеством данных и технологиями, которые позволяют создать подобный сервис рекомендаций новостей в глобальном масштабе — и без политической цензуры.

Он пригласил специалистов Яндекса работать в Telegram, заявив, что «денежное вознаграждение в Telegram несопоставимо выше, чем в Яндекс или Google, но надеюсь, не это станет главной мотивацией. У нас есть шанс создать первый в истории интернета эффективный и свободный агрегатор новостей».

Дуров тогда же поделился видением трехэтапного запуска свободного новостного агрегатора:

  • (уже есть на июнь 2019) Статистика по 6000 изданий, позволяющая алгоритмически вычислять наиболее релевантный контент;
  • (дата не указана) Блок с рекомендуемыми статьями после просмотра статей в Instant View;
  • (дата не указана) отдельный сервис с ежечасной подборкой и глобальным поиском по всем новостям мира;
  • (дата не указана) «параллельно с рекомендацией текстов мы займемся и рекомендацией наиболее актуальных видеозаписей».

Опубликованные условия конкурса, позволяют утверждать, что новостной агрегатор по-дуровски обладает следующими характеристиками.

  • Он работает с текстом, а не видео, следов «параллельной работы» пока нет.
  • Он работает с русским и английским языками. По описанию кажется, что российский рынок для сервиса важнее.
  • Русские новости должны быть актуальны для российского читателя («С начала года в Минское агентство по госрегистрации обратились более 100 тыс. посетителей» — не актуально, «Скандальный разговор Трампа и Зеленского» — актуально). Есть намек («на данном этапе конкурса…»), что ситуация изменится.
  • Сюжеты в английском разделе должны быть актуальны для широкого круга международных читателей (Yogi Adityanath asks high-level teams to camp in Agra, Meerut, Kanpur — не актуально, Xbox exec says it ‘set some wrong expectations’ for Xbox Series X game reveals — актуально)
  • Он умеет отделять новости от неновостей.
  • Новости описывают события, изменения и происшествия в широком смысле, происходящие в данный момент или случившиеся в недавнем прошлом (относительно момента публикации).
  • Новости бывают семи категорий: Society (общество), Economy (экономика и бизнес), Technology (технологии, потребительская электроника), Sports (спорт и киберспорт), Entertainment (все развлечения), Science (здоровье и наука), Other (все остальное).
  • Новость очень редко должна помещаться более чем в одну категорию и никогда не помещается более чем в три.
  • Рубрика Other должна быть единственной присвоенной. Туда попадают прогнозы погоды, эзотерика, гороскопы. Это не написано, но кажется, что новости из этой категории будут с большой вероятностью пессимизированы.
  • Новости объединяются в сюжеты, из рекомендаций неясно, должен ли заголовок сюжета конструироваться или выбираться из новостей, входящих в кластер.
  • Новости в сюжете могут собираться и ранжироваться за любой период от 5 последних минут до 30 дней.

Что все это значит?

  • Если через несколько месяцев запустится новостной агрегатор имени Дурова, в новостных редакциях моментально начнут оптимизировать под него контент.
  • Вполне возможно, что у Дурова есть невероятной мощности идея о новостной агрегации, но сейчас на это не похоже: конкурс описывает попытку построить аналог Яндекс.Новостей с очень урезанными возможностями (и точно — с меньшим числом источников, а также сигналов — что критично для точности рекомендательной системы).
  • Неясно, как система будет бороться с цензурой, если Telegram сейчас медийно захвачен огромным количеством провластных каналов, которые легко смогут производить тысячи новостных статей для попадания в сюжеты под новостями идеологических противников.
  • Уже сейчас правила составлены достаточно своеобразно. Видно, что их писал человек с опытом затыкания самых разных дыр в агрегационном продукте. Кроме упомянутых прогнозов погоды запрещено включать в сюжет агрегационные статьи («Главные новости за выходные»), предлагается пессимизация как инструмент для работы с новостями (в частности, при возврате новостей, неактуальных для раздела) и т.п.

«Свободный новостной агрегатор», насколько можно судить, не то чтобы плохо продуман, но находится в самом начале продуктового становления.

Скажем, если блок с рекомендуемыми статьями в конце заметок Instant View запустится, текущая схема кластеризации начнет давать сбои, особенно в регионализации. Ведь если в тексте новости что-то заявил региональный губернатор, текущий алгоритм сможет заглянуть только к соседям по кластеру и рубрике. Реальная проблема — вычленить имена и названия, отыскать связи с другими, а затем отправить запрос на новости, связанные с ними. Это отдельный продуктовый слой, над которым работа еще не началась — все-таки Яндекс.Новостям понадобилось 20 лет (!), чтобы развиться до текущего состояния.

Рубрики
2017 2018 Must Reads Аналитика Весь мир Журналистика данных США Тенденции

Журналисты проанализировали 1340330 слов Трампа. Всё плохо

Дональд Трамп говорит все больше и врет все чаще. К такому выводу пришли журналисты канадской газеты The Toronto Star, проанализировав 1340330 слов Трампа, произнесенных и написанных им во время президентства.

Им пришлось проверить каждое слово Трампа, для чего они воспользовались сайтом Factba.se, отслеживающим все публичные комментарии президента Соединенных Штатов.

Журналисты обнаружили, что за время президентства тот выдал 1972 ложных утверждения. Или, если измерять в словах — 68928 слов неправды. В целом это прекрасный образчик журналистики данных, совмещенной с полномасштабным расследованием.

Сотрудники The Toronto Star подчеркивают, что не называют все 1972 утверждения ложью, так как она может оказаться ненамеренной и проистекать, например, из невежества.

Результаты исследований

В 2017 году Трамп делал в среднем по 2,9 ложных утверждения в день. В 2018 году этот показатель вырос до 5,1 утверждения. Вот как росло со временем их число:

 

Количество ложных утверждений Трампа. Разбито по неделям
Количество ложных утверждений Трампа. Разбито по неделям

 

В 2018 году президент США произносит и пишет на 20% больше слов, чем в 2017.

Количество слов, произнесенных и написанных Трампом в неделю
Количество слов, произнесенных и написанных Трампом в неделю

Этим дело не ограничивается. Ложные утверждения становятся все более и более ложными. В начале 2017 года лишь 3,8% слов Трампа входили в состав ошибочных или ложных заявлений. Другими словами, на каждые 26 слов правды приходилось одно слово вранья.

В 2018 году ситуация ухудшилась. Теперь соотношение — 14 к 1, то есть 7,3% слов входят в состав предложений, содержащих неправду.

Вот как растет плотность лжи в заявлениях Трампа.

Плотность ложных заявлений Трампа.
Плотность ложных заявлений Трампа.

Фальшивые утверждения Трампа неравномерно распределяются по видам его деятельности. За полтора года он говорил неправду в речах 648 раз, в интервью — 380 раз, произносил ложные утверждения в рамках неформальных комментариев на мероприятиях 369 раз, лгал в твиттере 330 раз, а на пресс-конференциях — 192 раза.

Рубрики
2014 2018 Must Reads Аналитика Аудитория Весь мир Данные Россия Социальные медиа Тенденции Цифровая реклама

Медиатренды Чемпионата мира по футболу

mohamed_hassan / Pixabay

Чемпионат мира по футболу 2018 года — первый по-настоящему цифровой. Несмотря на то, что телевизор остается основным каналом потребления матчей, за четыре года изменилось многое.

Как пользователи Сети смотрят ЧМ
Данные IPSOS

Изменилась и сама структура телесмотрения. Телевизор редко смотрят выделенно, он больше не владеет нашим вниманием безраздельно.

Почти каждый телезритель что-то делает во время просмотра, причем зачастую это никак не связано с темой передачи: мы бродим по социальным сетям, читаем почту, отправляемся в виртуальный шоппинг. Удивительно, но любая цифровая активность, связанная с телепередачей, оказалась в хвосте рейтинга «вторых занятий».

Одновременно с телепросмотром я…
Данные GlobalWebIndex

Чемпионат мира привлекает внимание не только телезрителей, но и бизнеса. Чтобы футбол смотрели, в каналах просмотра должна быть высокая деловая активность. Мы видим, что в ряде регионов рекламные расходы сильно растут.

Рост рекламных расходов в мире
Данные: Dentsu Aegis

Рост рекламных расходов в Азии и Тихоокеанском регионе в 2018 году во многом связан с резким увеличением трат на китайских миллениалов — активных потребителей всего, включая товары и услуги, связанные с фанатской тематикой.

Рубрики
2018 Аудитория Весь мир Гостевой пост Пользовательский контент Социальные медиа США

Как я майнил карму на Reddit чужими мемами, и что из этого вышло

Ведущий канала «Медиаборщ!» и редакционный директор Tribuna Digital Андрей Боборыкин попробовал абьюзить Reddit и перед баном успел вывести на главную страницу два ворованных мема. О своем опыте эксплуатации «главной страницы интернета» он рассказывает в гостевом посте.

Андрей Боборыкин. Фото: Ната Боровик, Телекритика
Андрей Боборыкин. Фото: Ната Боровик, Телекритика

Рубрики
2018 Весь мир Виртуальная реальность Дополненная реальность США Тенденции

Дайджест 20. Опыт FT, HBR и стратегия YouTube

Дайджест важных отраслевых кейсов, находок и новостей. В ролях: Facebook, Google, The Financial Times, HBR, YouTube, Netflix, NowThis, The Wall Street Journal и многие другие.

geralt / Pixabay

Рубрики
2018 Must Reads Аналитика Аудитория Бренд Весь мир Инструменты Кейсы Медиастратегии Монетизация мобильных продуктов Платный контент Повестка Презентации Рассылки Редакционные метрики Россия США Тенденции Традиционные и цифровые медиа

Почтовые рассылки как медийный продукт

В начале мая я (Саша Амзин) выступил в питерской Охта Lab с благотворительной лекцией о почтовых рассылках как медийном продукте. Я публикую здесь немного сокращенную презентацию с объяснениями и надеюсь, что вы поможете детям. Это очень просто — надо лишь зайти на svetdeti.org и перевести рублей пятьсот.

Рубрики
2018 Весь мир Видеопроизводство Документы Мобильные продукты Персонализация Повестка Россия Стриминг и прямой эфир

Официальный список ресурсов Google для издателей

В офисе Google 17 мая Наталья Ростовцева провела семинар, посвященный перезапуску Google News. «Мы и Жо» публикует официальный список ресурсов Google для помощи издателям. Такой список получили все участники семинара.

Публикуемый перечень немного отличается от оригинала оформлением. В нем содержатся гиперссылки (в списке они были даны в виде URL), курсивом даны небольшие редакторские пояснения «Мы и Жо». В своей основной части перечень остался неизменным.

Google Search

  1. Help and Support
  2. Google Webmaster Central Help Forum: на английском языке, на русском языке
  3. Справочный центр поиска
  4. Часто задаваемые вопросы от веб-мастеров
  5. Дополнительные справочные ресурсы

Google News Initiative​ — сборник всех проектов и инициатив Google для издателей, включая программы финансовой поддержки изданий (в России пока недоступны). 

Google News

  1. Help Center
  2. Webmaster Forum
  3. News Publisher Center Help
  4. Google News Producer Help Center
  5. Web content из старых Google News. Вы можете обратиться в службу поддержки (поддерживаются только пять языков)
    Как попасть в Featured раздел в Киоске [для России пока недоступно]
  6. Как активировать АМР в RSS потоке
  7. RSS content in producer, адрес поддержки: ​producer-support@google.com

Google Assistant

  1. Conversational actions
  2. Каталог Google Assistant

AMP

  1. Официальный сайт проекта
  2. Официальный блог проекта
  3. Поддержка по АМР
  4. Инструкция по валидации
  5. Онлайн валидатор

PWA

  1. Progressive Web Apps
  2. Your First Progressive Web App
  3. Mobile Web Video Playback
Рубрики
2018 Аудитория Весь мир Видеопроизводство Кейсы Медиастратегии Монетизация мобильных продуктов Оптимизация США Тенденции

Дайджест 19. Миллионы Facebook, миллиарды Apple и будущее платного контента

Дайджест новостей медиа за 19 неделю года. В ролях: Apple, Bloomberg, Facebook, Google, Twitter, Wirecutter, The Economist,  The Onion, TicToc и многие другие.

Рубрики
2018 Must Reads Аналитика Аудитория Весь мир Маркетинговые метрики Медиастратегии Мобильные продукты Оптимизация Посещаемость и KPI Редакционные метрики Редакционные процессы

5 типов онлайнового чтения

Не все виды чтения одинаково полезны для издателя. Пользователи не только по-разному потребляют информацию на различных устройствах, но также по-разному понимают материалы и вовлекаются.

Nieman Lab приводит результаты исследования Нира Гринберга (Nir Grinberg), постдока в Harvard Institute for Quantitative Social Science, где выделяются пять видов чтения.

Распределение данных о сайтах в наборе данных Гринберга
Распределение данных о сайтах в наборе данных Гринберга

Рубрики
2018 Автоматизация Аудитория Большие данные Весь мир Кейсы Мобильные продукты Персонализация Тенденции

Google перезапустил агрегатор Google News

Google 8 мая полностью обновил платформу Google News. Если раньше новости были организованы по кластерному принципу (список источников по той или иной теме), то теперь механизм агрегатора использует алгоритмы искусственного интеллекта и машинного обучения.

Новый Google News