Согласно новому исследованию, основанная на алгоритме система, которая идентифицирует контрольные лингвистические сигналы в фальшивых новостях, может предоставить новостному агрегатору и социальным сетям, таким как Новости Google, новое оружие в борьбе с дезинформацией.
Исследователи, которые разработали систему, продемонстрировали, что она сопоставима, а иногда и лучше, чем люди, в правильном определении поддельных новостей.
В недавнем исследовании система успешно обнаружила подделки в процентах от 76, тогда как процент успешных попыток у людей составлял 70. Кроме того, их подход к лингвистическому анализу может быть использован для выявления поддельных новостных статей, которые слишком новы, чтобы их можно было опровергнуть путем перекрестной ссылки их фактов на другие истории.
Рада Михальча, профессор компьютерных наук и инженерии в Мичиганском университете, который стоит за проектом, говорит, что автоматизированное решение может быть важным инструментом для сайтов, которые пытаются справиться с натиском фальшивых новостей, которые люди часто создают, чтобы генерировать клики или манипулировать общественным мнением.
Поймать фальшивые истории до того, как они приведут к реальным последствиям, может быть сложно, поскольку сайты-агрегаторы и социальные сети сегодня сильно зависят от редакторов-людей, которые часто не успевают за наплывом новостей. Кроме того, современные методы разоблачения часто зависят от внешней проверки фактов, что может быть затруднительно при использовании новейших историй. Часто к тому времени, когда история оказывается поддельной, ущерб уже нанесен.
Лингвистический анализ использует другой подход, анализируя поддающиеся количественной оценке атрибуты, такие как грамматическая структура, выбор слова, пунктуация и сложность. Он работает быстрее, чем люди, и его можно использовать с различными типами новостей.
«Вы можете представить любое количество приложений для этого на передней или задней части сайта новостей или социальных сетей», - говорит Михалча. «Это может предоставить пользователям оценку достоверности отдельных историй или целого новостного сайта. Или это может быть первая линия защиты на заднем конце новостного сайта, помечающая подозрительные истории для дальнейшего просмотра. Процент успеха 76 оставляет довольно большую погрешность, но он все же может дать ценную информацию, когда он используется вместе с людьми ».
По словам Михалчи, лингвистические алгоритмы, которые анализируют письменную речь, сегодня довольно распространены. Задача создания фальшивого детектора новостей заключается не в создании самого алгоритма, а в нахождении правильных данных для обучения этому алгоритму.
Поддельные новости появляются и исчезают быстро, что затрудняет их сбор. Это также входит во многие жанры, еще более усложняя процесс сбора. Например, сатирические новости легко собирать, но использование иронии и абсурда делает его менее полезным для обучения алгоритму обнаружения поддельных новостей, которые вводят в заблуждение.
В конечном счете, команда Михальчи создала свои собственные данные, краудсорсинг онлайн-команды, которая превратила проверенные подлинные новости в подделки. Именно так создается большинство фальшивых новостей людьми, которые быстро пишут их в обмен на денежное вознаграждение, говорит Михальча.
Исследователи нанимали участников с помощью Amazon Mechanical Turk и платили им за то, чтобы они превращали короткие, актуальные новости в похожие, но фальшивые новости, имитируя журналистский стиль статей. В конце процесса исследовательская группа получила набор реальных и поддельных новостей 500.
Затем они подали эти маркированные пары историй в алгоритм, который выполнял лингвистический анализ, обучая себя различать реальные и фальшивые новости. Наконец, команда превратила алгоритмы в набор данных реальных и фальшивых новостей, извлекаемых непосредственно из Интернета, что обеспечило процент успеха 76.
Подробная информация о новой системе и наборе данных, который использовалась командой для ее создания, находятся в свободном доступе, и Михалча говорит, что новостные сайты или другие организации могут использовать их для создания своих собственных поддельных систем обнаружения новостей. Она говорит, что включение метаданных, таких как ссылки и комментарии, связанные с данной новостной статьей в Интернете, может привести к дальнейшей оптимизации будущих систем.
Исследователи подробно опишут систему в документе, который они представят на 27-й Международной конференции по компьютерной лингвистике в Санта-Фе, штат Нью-Мексико.