信息扩散中存在着一些“丑小鸭”类型的信息。“丑小鸭”类型的信息初始阶段就与众不同,一经转发,便可成为网络中的流行信息。南京大学新闻传播学院硕士研究生张耀天作为一作在SCI期刊Physica A发表题为Peeking strategy for Online News Diffusion Prediction via Machine Learning的论文,致力于采用窥视策略通过观察信息扩散早期阶段的结构特征、找到信息扩散中的“丑小鸭”,并预测新闻的扩散规模和真实性。
一、窥视策略:一种“临近预测”的方法
当前的预测研究可分为两类:事前预测和事后预测。事前预测是一种可用于新闻传播问题的预测方法,仅基于新闻信息扩散开始前的可观察特征(即用户特征和内容特征)。相比之下,事后预测是在新闻开始传播后,将新闻信息扩散视作一个树状网络,并利用网络结构特征开展预测任务。随着时间的发展和网络结构的演变,事后预测未必会比事前预测表现得更加精准,尤其是对遥远的未来进行预测充满挑战。出于这样的考虑,有许多研究对很近的过去或不远的未来(小于一个季度)进行预测,被称为“临近预测”。
受临近预测的启发,张耀天等人的研究采用窥视策略分析了信息扩散的早期特征是否有助于预测新闻的传播规模和真实性。窥视策略是指基于机器学习算法,利用初始阶段的社会过程(包括结构特征、时变特征、用户特征和内容特征)数据预测最终的社会结果。需要强调的是,研究只使用了已被窥视的节点之间的结构信息。
研究设定了两种窥视窗口,第一个是用户窗口k,从k=5开始,一直到k=50,间隔值为5,取了十组用户;第二个是时间窗口t,从t=1开始,直到t=24,每小时取一组数据。除静态的用户和内容特征外,研究通过窥视给定的用户和时间窗口,提取了动态时间、深度、最大宽度和病毒扩散特性等信息扩散网络特征。随着信息的扩散,信息扩散深度、宽度和病毒结构特性不断发生变化。
研究使用了在2006年9月至2016年12期间,推特平台上传播的126301条新闻信息扩散,其中有82605条失实新闻,24409条真新闻和19287条混杂新闻。机器学习为预测新闻信息扩散规模提供了基础工具,研究应用线性回归、决策树、随机森林和XGBoost等四个算法构建机器学习模型。
首先,研究比较了事前策略在预测真实新闻、假新闻和混杂新闻信息扩散规模时的表现,发现真实新闻的预测性能最好,预测的准确程度可以达到0.506,假新闻的预测性能次之,模型仅能解释38.7%的方差。这表明基于事前策略的预测模型的解释程度非常有限。研究以随机森林算法为例,将基尼重要性作为特征重要性度量。用户验证状态始终是预测信息扩散大小的最重要特征。对于真实新闻预测而言,参与度是第二重要的特征;而对于假新闻的预测,关注者的数量是第二重要的特征。
随后,研究对窥视策略的预测能力进行了分析,基于窥视的模型相较于事前策略模型在性能上有显著的提升,可以解释模型90%甚至更高的方差。比较而言,随机森林和XGBoost算法在整体上表现得更加鲁棒、准确。信息扩散最大宽度特征始终是预测各类新闻信息扩散规模时最关键的特征,有助于发现在扩散早期哪些新闻更有可能成为流行信息。
为了进一步阐明信息扩散宽度的重要性,作者比较了新闻扩散的数据和树状BA网络模型生成的结果。结果表明:可以通过网络模型捕捉到新闻信息扩散的关键特征(最大宽度)。
二、结构特征对于甄别真假新闻具有局限性
一个关键发现是窥视策略并不适用于假新闻的探测工作。对于识别真假新闻而言,最重要的四个特征都是用户特征;内容特征的重要性仅次于用户特征。值得一提的是,信息扩散的结构特征远不如内容和用户特征重要。
综上,在预测信息扩散规模方面,采用窥视策略可以有效地识别信息扩散的“丑小鸭”;但是,在识别信息的真实性方面,既有的信息扩散的结构特征对识别虚假新闻贡献甚微,同时也为未来的研究指明了一个重要的方向。
论文信息如下:
Zhang Y., Feng M., Shang K.K. *, Ran Y., Wang C.J. * (2022) Peeking strategy for Online News Diffusion Prediction via Machine Learning. Physica A: Statistical Mechanics and its Applications.598:127357. http://dx.doi.org/10.1016/j.physa.2022.127357
本研究使用的数据来自于Vosoughi等人的研究The spread of true and false news online(https://www.science.org/doi/abs/10.1126/science.aap9559),数据的使用需要提交申请;所有绘图代码见:https://github.com/yaotianzhang/Peeking-Strategy。