目录
前言
设计思路
一、课题背景与意义
二、算法理论原理
2.1 机器学习
2.2 深度学习
三、检测的实现
3.1 数据集
3.3 实验及结果分析
最后
前言
?大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。
?对毕设有任何疑问都可以问学长哦!
选题指导:
最新最全计算机专业毕设选题精选推荐汇总
大家好,这里是海浪学长毕设专题,本次分享的课题是
?基于机器学习的虚假新闻识别系统
设计思路
一、课题背景与意义
随着一些电视剧的上映,社交媒体上涌现出大量关于该剧的褒贬不一的声音。然而,这种争议背后存在着一些虚假新闻和水军行为,导致公众无法分辨真实的观点和评论。虚假新闻不仅扰乱了公众对真实信息的判断,还对社会稳定和民主进程产生了负面影响。所以设计一个基于机器学习的虚假新闻识别系统,可以帮助公众更好地识别和辨别虚假新闻,提高信息素养和媒体素养。
二、算法理论原理
2.1 机器学习
SVM是一种具有扎实理论基础和强大泛化能力的方法,在文本分类、数据挖掘等多个领域都得到了广泛应用。文本分类任务中,SVM常用于将文本数据划分为不同的类别,例如情感分析、垃圾邮件过滤和新闻分类等。SVM通过将文本数据映射到高维特征空间,并找到一个最优的超平面来实现分类。它的泛化能力强,能够处理高维稀疏数据,并且对于小样本数据也能表现出色。还可以用于聚类分析、异常检测、回归分析等任务。通过选择合适的核函数和调整超参数,SVM能够适应不同类型的数据,从而提高挖掘模型的精度和鲁棒性。
决策树是一种基于树的监督学习分类算法,通过归纳算法生成可读规则和决策树,然后利用决策树对新数据进行分类。决策树由节点和分支组成,其中节点包括内部节点和叶子节点。在生成的决策树中,每个内部节点表示数据集中的一个特征,每个叶子节点代表数据集中的一种类别。决策树具有易于理解和实现的优点,能够处理各种数据类型和属性,且在较短时间内为大型数据提供可行的结果。然而,决策树在处理连续预测和具有时间序列的数据时可能面临困难,需要进行大量的预处理。
LDA主题模型是一种无监督学习算法。该模型将文档集中的多个章节以概率分布的形式进行分类,实现主题的聚类和文档的主题分析。LDA模型使用三层贝叶斯模型结构,包括文档、主题和词三部分,通过抽样过程生成文档中的主题和词的概率分布。LDA模型的训练不需要手动标记训练集,只需要文档集和指定的主题数量。它具有可解释性强的优点,可以为每个主题找到描述性的词语。LDA是常见的主题模型之一,在文本分析和主题挖掘领域得到广泛应用。
2.2 深度学习
BERT模型的核心是Transformer编码器,通过多头注意力机制、自注意力机制和残差连接操作,将输入文本中每个词语的语义向量转换为增强的语义向量。BERT使用MLM(Masked Language Modeling)和NSP(Next Sentence Prediction)两种预训练任务,实现多分类任务的学习。作为自然语言处理领域的重要模型,BERT基于先前的模型如ELMo、ULMFiT和GPT,为文本处理带来了巨大的进展。
LSTM旨在解决循环神经网络中的梯度消失和梯度爆炸问题。通过引入门控机制对循环神经网络的结构进行改进。一个LSTM单元包括输入门、输出门和遗忘门。遗忘门决定上一时刻的单元状态中哪些信息需要丢弃,利用sigmoid激活函数和输入进行乘积运算;输入门决定新的信息存入单元状态的位置,利用sigmoid激活函数确定存入位置,并通过tanh函数生成新的信息;最后,输出门计算当前单元的输出信息,过程与遗忘门和输入门类似。LSTM在序列建模方面具有优势,并且具备长期记忆功能。该算法简单易实现,解决了在长序列训练中的梯度问题,但在并行处理方面存在一定的缺点,计算过程相对耗时。
相关代码示例:
x = np.array([0.1, 0.2, 0.3, 0.4]) # 输入向量h_prev = np.array([0.5, 0.6, 0.7, 0.8]) # 上一时刻的隐藏状态c_prev = np.array([0.9, 1.0, 1.1, 1.2]) # 上一时刻的单元状态# 遗忘门计算wf = np.random.randn(4, 4) # 遗忘门的权重矩阵bf = np.random.randn(4) # 遗忘门的偏置向量f = sigmoid(np.dot(wf, h_prev) + np.dot(wf, x) + bf) # 遗忘门的输出# 输入门计算wi = np.random.randn(4, 4) # 输入门的权重矩阵bi = np.random.randn(4) # 输入门的偏置向量
三、检测的实现
3.1 数据集
数据集来源包括两部分:一是公开数据集中整理的现有微博谣言数据,二是从微博平台未收集的谣言数据。公开数据集采用了公开的微博谣言数据集,该数据集包含了从新浪微博社区管理中心的不实信息板块采集的谣言信息。然而,由于公开数据集中的数据主题较为广泛,不具有针对性,利用爬虫技术从新浪微博社区管理中心的不实信息板块获取了最新的谣言数据。
3.3 实验及结果分析
微博内容的真实性可以从两个方面进行判断:一是通过微博内容本身进行分析,二是通过微博发布者的个人信息进行判断。微博用户的个人信息包括注册时填写的信息以及账号运营后产生的其他信息。谣言的传播者可能是水军、机器人账号或微博小号,它们通常信息不完整,缺乏个人描述,粉丝数、关注数和发布微博数也较少。从微博用户中提取了注册时间、信用情况等12个特征用于分析,具体特征内容可参考表格。通过综合分析微博内容和发布者的个人信息,可以对微博内容的真实性进行初步判断。
为了增加谣言的传播力度,谣言制造者通常会通过谣言的文本内容来激发强烈的情绪或负面情感,以引起更多人的关注。这类谣言常常使用惊叹号、问号等标点符号以及表情符号,以表达强烈的情感,如惊讶、愤怒等,并通过@某些微博大V的方式来扩大谣言的影响力。基于微博文本内容的特征,可以提取表情符号、质疑词等特征。
在社交平台上,一条消息的传播过程形成了一种树状结构,被称为传播树,可以表示为T = <V,E>。在传播树中,根节点代表消息的发帖用户,其他节点代表消息在传播过程中被转发的用户。边表示用户之间的转发关系,例如,从用户u0到用户u1存在一条边,表示用户u1转发了用户u0的消息。
通过对1020条谣言原文本数据进行词云分析,我们提取了词频较高的关键词,并绘制了词云图。从图中可以观察到一些引人注目且具有煽动力的词或词组,如“垃圾”、“演技差”、“糟糕”等,这些词引起了广泛的关注和大量的讨论。特别是在电视剧热播期间,人们对电视剧的实际情况非常关注,尤其关注电视剧的质量(例如豆瓣评分)和剧情的发展趋势。这说明在电视剧热播期间,人们对繁花电视剧的质量非常关注,也关注演员是否能够还原原著主人公的形象。
谣言和非谣言在传播趋势方面存在显著差异。谣言的转发时间持续更长,并且存在多个转发的爆发点;而非谣言在发布几小时内会产生转发的爆发点,之后转发量逐渐减小,并且通常不会再次出现爆发点。
创作不易,欢迎点赞、关注、收藏。
毕设帮助,疑难解答,欢迎打扰!