Nautilus: об опасности «больших данных»

Nautilus опубликовал колонку об опасностях, которые таят в себе «большие данные». Зачастую тот факт, что выводы основаны на анализе большого корпуса данных, заставляют материал выглядеть значительнее. При этом не всегда такой анализ отражает реальность.

Приводится самый доступный пример — Google Ngrams, сервис, позволяющий отслеживать словоупотребление в английском (и не только) языке. Однако мало кто знает, что база данных Ngrams не выверена, не сбалансирована для того, чтобы делать далеко идущие выводы. Один из самых понятных недостатков — отсутствие влияния тиражей книг, хранимых в Ngrams, на вес слов. Условно, если dwarf встречается только в «Властелине колец», то оно засчитается один раз.

Другие сервисы тоже не безгрешны. Например, Google Flu Trends, предсказатель вспышек гриппа, полностью упустил свиной грипп (swine flu), однако ассоциирует с гриппом слово «снег» (snow).

Таким образом, следующий вызов журналистам — способность не только анализировать и интерпретировать данные, но и оценить их валидность и целостность.