Фейки попробуют выявить анализом структуры статьи

Фредерик Филлу (Frederic Filloux) в Monday Note рассказывает о проекте News Quality Scoring, призванном выявлять фейки по техническим характеристикам, а не с помощью трудоемкой проверки данных. Его статья основана на анализе 640 тысяч статей из 500 крупнейших американских сайтов и 850 их RSS-потоков.

Идея проекта заключается в том, что сайты, производящие фейки, обычно даже технически устроены хуже, чем настоящие. Эту разницу можно заметить с помощью автоматического анализа материалов.

Например, автоматическим способом в фейках сложно найти источник. Анализ данных домена помогает снизить рейтинг доверия в случае, если эти данные закрыты, а само имя зарегистрировано недавно.

Заголовок вполне возможно проверять на наличие кликбейтовых элементов. Это тоже влечет за собой штраф в общем рейтинге материала.

Филлу также предлагает ввести белый список проверенных авторов. Он считает, что такой список все равно уже существует или в ближайшее время будет создан крупнейшими платформами.

Фотографии без подписи или стоковые фото (что легко проверить автоматически) также снижают уровень доверия. То же касается видео. Вообще для фейковых текстов характерна плохая работа над визуальной частью.

Предполагается, что семантический анализ самого текста также может выявить низкое качество — в первую очередь, непропорциональное количество цитат, имен и т.п.

Также интересно изучить связанные истории. Настоящие издания обычно пишут много материалов на ту или иную тему. Статья без сопроводительных материалов подозрительна.

Наконец, Филлу в отдельный пункт выделяет автоматический анализ подвала — у настоящих изданий есть контактная информация или ссылка на соответствующую страницу.