Рубрики
2020 Аналитика Весь мир Россия Технологии и разработка

Новостной агрегатор глазами Павла Дурова

У журналистов были завышенные ожидания, когда в июне 2019 года Павел Дуров пообещал сделать первый в истории интернета эффективный и свободный агрегатор новостей.

11 мая объявил второй этап конкурса по созданию новостного агрегатора. Конкурс должен закончиться 25 мая, победители разделят призовой фонд в $100 тысяч.

Условия конкурса — очень интересный документ. Фактически это техническое задание, сквозь которое просвечивают черты новостного продукта Павла Дурова.

Технологии нас интересуют мало, поэтому мы не будем уделять внимания нагрузочным и иным требованиям к продукту (в частности, запрету на сетевые соединения, предпочтению С++, отказу от внешних зависимостей или конфигурации серверов).

Гораздо интереснее парадокс: чтобы сделать хороший новостной агрегатор, ты должен понять, что такое новость. Понимая, что такое новость, ты неизбежно отбрасываешь часть заметок. То же самое касается, например, категорий. Нельзя без потерь разделить мир на категории, и подобная попытка обречена на провал. Более того, две разные новости в категории с разной силою к ней притягиваются. Как в «Хазарском словаре»: «Разница между двумя „да“ может быть большей, чем между „да“ и „нет“».

Всей отрасли уже было весело и страшно, когда мы видели, как «Яндекс.Новости» объясняли, что такое хороший, а что такое плохой новостной заголовок (страшно стало, когда это оказалось всерьез). Это все тот же сервис, который одной рукой запрещает кликбейт, а другой ставит в пятерку на главной странице заголовки вроде «Воробьев рассказал, какие ограничения снимут в Подмосковье 18 мая».

Поэтому у журналистов были завышенные ожидания, когда в июне 2019 года написал:

В свое время мы организовали “Ноев ковчег” для лучших разработчиков ВКонтакте, пригласив их на работу в Telegram. В этом году мы хотим дать такой же шанс разработчикам Яндекса, которые занимаются сервисами рекомендации контента. Устройство таких сервисов, как “Яндекс.Новости”, впечатляет в техническом отношении, однако ограничено цензурой и русскоязычным рынком.

Telegram обладает количеством данных и технологиями, которые позволяют создать подобный сервис рекомендаций новостей в глобальном масштабе — и без политической цензуры.

Он пригласил специалистов Яндекса работать в Telegram, заявив, что «денежное вознаграждение в Telegram несопоставимо выше, чем в Яндекс или Google, но надеюсь, не это станет главной мотивацией. У нас есть шанс создать первый в истории интернета эффективный и свободный агрегатор новостей».

Дуров тогда же поделился видением трехэтапного запуска свободного новостного агрегатора:

  • (уже есть на июнь 2019) Статистика по 6000 изданий, позволяющая алгоритмически вычислять наиболее релевантный контент;
  • (дата не указана) Блок с рекомендуемыми статьями после просмотра статей в Instant View;
  • (дата не указана) отдельный сервис с ежечасной подборкой и глобальным поиском по всем новостям мира;
  • (дата не указана) «параллельно с рекомендацией текстов мы займемся и рекомендацией наиболее актуальных видеозаписей».

Опубликованные условия конкурса, позволяют утверждать, что новостной агрегатор по-дуровски обладает следующими характеристиками.

  • Он работает с текстом, а не видео, следов «параллельной работы» пока нет.
  • Он работает с русским и английским языками. По описанию кажется, что российский рынок для сервиса важнее.
  • Русские новости должны быть актуальны для российского читателя («С начала года в Минское агентство по госрегистрации обратились более 100 тыс. посетителей» — не актуально, «Скандальный разговор Трампа и Зеленского» — актуально). Есть намек («на данном этапе конкурса…»), что ситуация изменится.
  • Сюжеты в английском разделе должны быть актуальны для широкого круга международных читателей (Yogi Adityanath asks high-level teams to camp in Agra, Meerut, Kanpur — не актуально, Xbox exec says it ‘set some wrong expectations’ for Xbox Series X game reveals — актуально)
  • Он умеет отделять новости от неновостей.
  • Новости описывают события, изменения и происшествия в широком смысле, происходящие в данный момент или случившиеся в недавнем прошлом (относительно момента публикации).
  • Новости бывают семи категорий: Society (общество), Economy (экономика и бизнес), Technology (технологии, потребительская электроника), Sports (спорт и киберспорт), Entertainment (все развлечения), Science (здоровье и наука), Other (все остальное).
  • Новость очень редко должна помещаться более чем в одну категорию и никогда не помещается более чем в три.
  • Рубрика Other должна быть единственной присвоенной. Туда попадают прогнозы погоды, эзотерика, гороскопы. Это не написано, но кажется, что новости из этой категории будут с большой вероятностью пессимизированы.
  • Новости объединяются в сюжеты, из рекомендаций неясно, должен ли заголовок сюжета конструироваться или выбираться из новостей, входящих в кластер.
  • Новости в сюжете могут собираться и ранжироваться за любой период от 5 последних минут до 30 дней.

Что все это значит?

  • Если через несколько месяцев запустится новостной агрегатор имени Дурова, в новостных редакциях моментально начнут оптимизировать под него контент.
  • Вполне возможно, что у Дурова есть невероятной мощности идея о новостной агрегации, но сейчас на это не похоже: конкурс описывает попытку построить аналог Яндекс.Новостей с очень урезанными возможностями (и точно — с меньшим числом источников, а также сигналов — что критично для точности рекомендательной системы).
  • Неясно, как система будет бороться с цензурой, если Telegram сейчас медийно захвачен огромным количеством провластных каналов, которые легко смогут производить тысячи новостных статей для попадания в сюжеты под новостями идеологических противников.
  • Уже сейчас правила составлены достаточно своеобразно. Видно, что их писал человек с опытом затыкания самых разных дыр в агрегационном продукте. Кроме упомянутых прогнозов погоды запрещено включать в сюжет агрегационные статьи («Главные новости за выходные»), предлагается пессимизация как инструмент для работы с новостями (в частности, при возврате новостей, неактуальных для раздела) и т.п.

«Свободный новостной агрегатор», насколько можно судить, не то чтобы плохо продуман, но находится в самом начале продуктового становления.

Скажем, если блок с рекомендуемыми статьями в конце заметок Instant View запустится, текущая схема кластеризации начнет давать сбои, особенно в регионализации. Ведь если в тексте новости что-то заявил региональный губернатор, текущий алгоритм сможет заглянуть только к соседям по кластеру и рубрике. Реальная проблема — вычленить имена и названия, отыскать связи с другими, а затем отправить запрос на новости, связанные с ними. Это отдельный продуктовый слой, над которым работа еще не началась — все-таки Яндекс.Новостям понадобилось 20 лет (!), чтобы развиться до текущего состояния.

Автор: Александр Амзин

журналист, медиаконсультант