基于微博的信息热度评价与预测分析

微博信息评价预测分析 摘 要 微博已成下非常热门社交媒体平台是庞关信息分享和话题交流平台人们线上社交活动发挥着不可替代作用由络信息鱼龙混杂所以通了微博热机制进而研究微博热和预测微博热门程研究容对监控预测微博舆情有重要借鉴义。

主要以新浪微博作研究对象首先进行爬取工具选取随通分析信息传播特征从微博用户、容与传播三方面提炼影响微博热主要因素并提取关键指标建立热体系评价指标运用因子分析法建立微博热评估模型得到各微博信息维表达式以及热计算公式对数据进行整理分析终对其结进行排序和对比发现模型比较合实际情况表明模型具有较高准确性。

随又提出了基 优化 B 神络话题热门预测模型

构建出话题热门程序列模型预测模型输入依照优化预测模型完成了对话题热门程值预测

实验结表明基 优化 B 神络话题热门预测模型能够很模拟话题热门程变化趋势对现实具有定指导义。

关键词微博;因子分析;热评价模型;B神络预测模型 br b b vr lr l lr, bg b r rg xg lr, l l l rrlbl rl l v, g vl l x b rk r, rl rg rg rr b rblggg r rblggg lr, rl rr r rg rblggg bl r g B b, rl rl l l r, rg lzg rr r r r b r, r rg r g b, xr k r bl vl x, b vl l bl b g r l , g rblg r xr ll rl r rg l, rg, ll rl, l r l l , l gr r , b B rl rk z l r r gr r l lr r r l rg z r l, r lr l xrl rl z B rl rk l ll l g r gr, r gg g rl Krb;r l; vl l;B rl rk;r l 目 录 摘 要 br 绪 论 选题背景及义 选题背景 研究义 国外研究现状 热评价研究现状 热门话题预测现状分析 3 3 研究容 3 组织结构 预备知识 5 爬取工具选取 5 热评价研究 5 媒体与用户关 5 媒体影响力 6 3 容丰富程 6 话题效性 7 3 热门预测算法 7 3预测依据 7 3 基算法B神络 7 结 8 3 热评价模型建立 9 3微博登录与信息爬取 9 3建立热评价模型 0 33通热排序对模型进行检验 5 3结 6 预测模型建立 7 热门微博判断指标 7 结合算法B 神络热门预测模型 8 算法原理 8 模型实验环境与数据获取 9 3 预测模型参数设置 9 预测结与分析 0 3 结 结 论 3 参考献 绪 论 选题背景及义 选题背景 微博简称微型博客009 年由新浪客户端开始发行使用,它主要是基关机制通广播式信息扩散向众发表实信息

08年月3日微博官方公布08年四季财审计报告报告说明激烈行业竞争微博用户数仍然持续飞涨用户活跃进步提升。

08年微博客户端线上活跃用户约增加了7000万左右月总用户已达到6亿平每日活跃用户突破亿。

显而易见微博已成下非常热门社交媒体平台是庞关信息分享和话题交流平台用户可以通册登录完善更新人信息这平台用户可以参与热门话题讨论了下发生事件还可以即分享己所做所想其推送次数多浏览次数高动次数多微博会被推送热门微博微博更重信息效性、言论由性以及传播广泛性所有用户可以了并参与到事讨论所以微博舆情预警以及政与社会信息传播方面影响力日益增。

微博平台任何用户都可以由发布容还可以对其他用户发送容发表己评论并发另外由近些年视频信息传播愈发火热图像处理技术也变得更加成熟传播信息鱼龙混杂可靠程有待考量是了微博热机制并对微博进行评估与预测,对监控预测微博舆情推动传播真实有效信息营造活跃健康社交平台具有重要作用。

研究义 微博信息热评估曝光高、数量或者动数较高容信息比较容易成热门微博平台包括“热排行榜”和“热门话题”等对每位用户进行推送还会根据热对热门微博进行排序。

分析了影响热门微博传播些因素拟建立热评价模型热门微博预测模型通计算热门微博热与热门程变化趋势对话题热监控与预测从而可以更加有效缩平台面信息与虚假信息传播围使众浏览到更多真实可靠政信息

结合微博信息容和用户行主要运用因子分析法建立微博热评估模型微博进行量化处理随利用 B 神络学习建立了热门微博预测模型判断微博容能否成热微博并判断热门程变化趋势。

研究促进真实政信息传播研究平台商品营销推送以及推动政府对舆情监测与预警等方面提供了可以借鉴理论与实践依据。

国外研究现状 热评价研究现状 关络信息热评估研究X l利用图形化法模拟新闻寻确定了热门话题与新闻容相应系并考虑新闻效性利用衰退函数进行多次迭代对不新闻类型设置不速率参数终得出容热计算公式[]。

不少学者曾基微博传播主体角展开热研究包括对微博运营策略以及用户系等方面进行探讨[]。

微博容热研究l和Glr分别对微博关机制以及用户扩散式系做了分析发现微博热与用户动程和容推送对象有关[3]。

郑斐然等人研究得到了种可以万千微博主题信息提炼新闻主题容方法主要原理是通提取容与新闻有关关键结合词组出现频率对容进行聚类分析从而挖掘指定话题[56]。

张鲁民等人提出了对突发事件实现舆情监控种方法通建立情感模型通初始聚类扩散群集算法对事件进行检测与监控[7]。

v 等人基微博容性质创造了推特突发事件监测、容合并及信息跟踪等算法[8]。

g等人提出 r Rk算法原理是基博主粉丝数量与发博率对目标用户进行影响力分析基础上挖取了推特平台上与热门容有关若干用户[9]。

l 等人给定数据基础上综合考虑了微博发数、赞数、评论数、被提及数等衡量容热[0]。

衡量微博热研究重心应该放微博容与用户行两方面其用户不仅指发布者还指该用户所面向粉丝群体。

尽管平台会根据部排序机制对所有微博进行排序包括首页热以及指定话题排名等但缺是其并不知道其排序热计算原理以及热差距产生原因基运用因子分析法建立了微博热评估模型得出热计算公式将热进行量化并得出了新排序结与原排序进行对比。

热门话题预测现状分析 对各类热门话题预测学术界般主要采取以下两种预测方法种是指比较型线性预测方法但仅仅适合对平稳曲线进行预测不适合预测多种类型热门话题

二种是指基非线性理论建立预测模型该种分析方法更具系统性与智能性如支持向量机可以对数据进行广义线性分类致实现非线性拟合不足处是会常陷入局部优无法得到全局优[]。

等人选取了话题类型、粉丝人数等属性,基主成分分析法提炼了影响用户动行主要因素,并建立了精确较高因子图模型用户进行了合理预测[3]。

刘功申等人通定量计算用户微博影响对已有算法进行优化可以凭借微博发出者用户属性预测微博是否会被量发进而给出舆情预警[5]。

张敬基话题热提出微博预测算法结合多维数据建立回归预测模型实现对话题预测[7]。

gl根据传染模型多层络传播原理建立预测模型预测话题走向并详细地阐述了信息扩散传播规律以及信息相作用。

因B神络面对比较错综复杂问题上收敛速慢处理长而且很容易收敛到局部优值,不能达到全局优[8]。

对上述问题许多研究者提出了相关改进方法。

颜俊等基遗传算法优化 B 神络预测模型利用光伏输出等原理提高了算法收敛速进而提高了预测效率与精但并改进结局部优这缺陷[9]。

丁硕与巫庆辉通对比多种优化算法渐近函数分析各改进算法对不数据规模分析效发现每种算法都有适用围各适用围逼近效接近良。

周爱武等通利用优样集相关原理改进了原始算法缩短了算法运行迭代次数也降低但算法身仍然有局限性[0]。

3 研究容 研究基微博客户端运用爬虫软件l 爬取工具采集5话题热门微博相关数据就容、用户传播三角运用因子分析法建立微博热评估模型并验证模型准确性。

随利用 B 神络研究基算法热门微博预测算法通实例验证热话题预测结可靠性。

组织结构 共包括四下面介绍每主要容 绪论 简要从微博评价热门预测选题背景、研究义进行了简要阐述对话题评价预测国外研究现状以及课题研究容与流程进行了概括。

二 预备知识 部分阐述了研究开始前要了预备知识包括爬取工具选取热评价热门预测等方面理论知识奠定了全理论基础。

三 热评价模型建立基爬取热门微博数据运用因子分析法提取重要因素建立热体系评级指标就容、用户传播三角运用因子分析法建立微博热评估模型基该模型对容热进行排序对比实行热评估模型验证。

四 建立了结合算法基B神络热门微博预测模型首先分析热门话题表现形式运用算法原理将进行预测微博信息模型输入完成对微博热门程与趋势预测进行了实际检验。

预备知识 进行实际操作前首先对涉及到基础理论知识进行简单介绍。

爬取工具选取 微博相较其他涉及功能比较齐全所以对微博页面容进行爬取并非易事除外其反爬虫技术更先进半爬虫工具无法快速获取到目标信息但总说其数据格式比较统综上我们基微博运行机制借助技术与手段可以快捷地爬取到微博指定容及相关数据。

络爬虫原理是基爬虫语句对目标信息进行获取而近年反爬虫技术发展迅速由获取信息也变得没那么容易。

爬取数据往往会遇到各种各样拦截比如常见“03 rb“错误它表示器已识别出爬虫并拒绝处理用户请。

而l 技术是以种非常直观方式访问浏览器技术包括定位元素、动操作键盘鼠标提交页面表单、抓取所信息

l爬虫原理是先识别所爬取容L码通其所提供方法定位到所信息结位置,并获取其容。

利用工具安装l和对应浏览器驱动以便进行续数据爬取。

评价研究 分析微博热门话题热前要了影响热若干因素如下 媒体与用户关 这里媒体包括新闻媒体、娱乐媒体等是首发信息媒体诸如央视新闻、新浪媒体等。

话题报道信息数量是影响媒体关关键因素发布该话题信息数目越多可以反映各媒体对话题关越高是会引起更多媒体重视传播围变广众量也会明显增多话题热门话题几率就增加。

络代前人们基通报纸、期刊杂志、电视或收音机等方式了当下热门事获取政信息

而络代到传统媒体了避免淘汰进入了新媒体代型建立了己平台新媒体代热门信息报道并非全是首发很程上是参考并发了其余媒体事报道。

所以某话题报道频率越高各媒体发频率越高就越能说明媒体关程就越可能成热门

用户关也是衡量话题热关键因素。

用户用户是指各类事报道者。

微博信息包括了用户量发数评论数等数据可以反映用户对该信息或者该话题关程还可以接反映话题用户影响围与程。

某位用户浏览某条信息若觉得有趣或者有所想还可能会被到微信和bk等其他社交平台上该信息又会其他络平台上传播

除外传播信息不仅可以通线上传播还可以通生活人际关系进行扩散。

例如用户了报道认非常新奇有趣分享或讲述给朋友B,而B可能又会将该条信息讲述给她其他朋友。

上述是指话题二次传播通这种非线性络式传播话题可以被众知晓知晓人数越多击量也会越越话题会有比较几率评热门话题

用户评论与发从侧面可以反映出众对某话题兴趣程有利社交平台预测进行多次传播几率进而衡量话题热。

媒体影响力 媒体影响力是定微博热二要素般说媒体指每独立且普遍信息传播者他们以各种类型线上方式向粉丝用户推送下信息或推广商品信息

事件相关微博容会有很多媒体平台进行发评论但是不媒体其传播围与影响力都不尽相。

般说微博信息传播呈树状传递些加v用户微博发出通粉丝和动不断扩影响力而且粉丝数量越多传播围就会越广量与动数也会越高会比较容易成热话题

般说媒体是指通现代和电子手段向多数人或特定人传递规性和非规性信息私人、公共、普遍和独立传播者。

事件相关微博容会不媒体用户复制传播但不体媒体传播能力和影响程不。

3 容丰富程 微博平台上用户发布信息几乎没有限制很多用户发布容比较随有是对日常生活记录有是倾诉悲喜遭遇有是对事思考评论。

根据上随机调报告显示5%“加V用户”会发布新锐观、事评论等377%会微博上分享日常369%“加V用户”会常发布些专业领域知识而仅仅只是发不加以任何评论用户较少只有769%并且越是可以表达己思想微博用户越会引起人们评论发与关。

话题效性 话题热衡量依据是各类媒体报道数量与用户关程若某话题被评热门话题话题下必定有许多关该话题信息

般情况下热门话题里面所讨论事件都是近或者下发生事件用户或者表达己立场或者发表己见。

因新发布新信息热比前发布信息热要高随着描述事件慢慢人们对事件讨论热会逐渐下降。

话题是收集量已发表信息话题是收集每新闻报道热和。

般说热门话题用户描述当前事件并报告近事件 3 热门预测算法 3预测依据 新浪微博近年已成被人们广泛使用社交媒体平台话题形成与不断传播终可成热门话题

对平台上每条微博信息都包括以下七部分用户、发送、容(包括图片与视频)、评论数、发数和赞数以及量。

微博粉丝与发布者动行(包括主观性评论、发与赞)都可以反映用户对该话题兴趣程。

这些动行对预测微博传播趋势有重要义它可以衡量某条微博热门程。

因新浪微博了提高用户效率使用户快速获取到热门信息按照定标准对所有热门微博按规律进行排序该标准是综合考虑微博所有容信息得到包括热榜与热门话题等根据其是否排行榜或热话题所有微博可以分非热门微博热门微博

显而易见要判断某条微博是否热门就要分析微博所有信息特征所以可以依据信息增益原理按照微博所有信息特征衡量其热门预测微博能否成热门或者判断热门微博变化趋势。

3 基算法B神络 上世纪八十年代 ll与Rlr提出B神络这概念该算法拥有非线性映射能力等优势只要输入层输入信隐含层处理由输出节产出输出信若输出信并达到预期期望就会通入误差调整权值将误差分摊给每隐含单元及进行参数修正重新计算结直到得到期望输出结。

B神络可以复杂非线性函数全局优值算法身采用局部优化策略缺是算法容易陷入局部优。

而粒子群优化算法(简称)具有良局部开采能力 通改变粒子学习模式提高迭代速快速更新粒子位置从而确立可使全局优粒子且操作简单收敛速快获取结效与精俱佳。

可以将B神络嵌入到算法提升局部能力实现与B神算法优势补终完成B神络预测模型构建。

结 首先对全涉及到基础理论知识进行了简单介绍。

对爬取工具选取选择运用l 技术爬取热门微博还分析了影响话题热门程些因素对预测方法依据与实现方法也做了基阐述。

3 热评价模型建立 3微博登录与信息爬取 通使用l 动化工具 rx 浏览器通定位审元素通无头模式到用户名,密码L码,调用l定位按钮节进行登录。

核心代码 # g 8 r l r brvr …… # l_b rvr_l_b_x(“[@l'_b_ b_3x']“) l_blk() r '登录成功' 登录微博访问微博页面通下面核心代码指定热门微博容,研究主要包括新闻、体育、娱乐、情感、学习五种热门话题话题爬取条热门微博相关信息

核心代码 rb () rvr g( “爬取结束\’ 到热门微博进行信息爬取,数据爬取前首先要确定所要获取信息包括用户名、容、发布、发量、评论数和赞数都可以用分析微博热门情况以及用户画像等。

根据相关献只使用正则表达式和串操作就可以获取到所段容核心代码如下 rvr _ l_b_x(‘’v[@ l ‘B_rr _bg lrx’]”) ……   vl x 图3 爬取结 由爬取结图3我们可以直接获得新闻类热门话题条发布容、发布发量、评论数、赞数等数据信息

3建立热评价模型 基抓取五种类型热门微博数据从用户、容与传播三角提炼了建立热评价模型7参考指标根据原始数据进行相关性分析建立基因子分析法热评价模型得出热值计算公式并对计算结进行整理分析对各类热门微博结按热值进行排序和对比分析模型准确性。

表3 微博评价模型参考指标 微博评价体系 热影响因素 考量因素 指标含义 容热影响力 图片充实 微博图片数量 数充实 微博数量与00相比 发布长 从发出到记录数据隔 发布者热影响力 粉丝数量 记录数据粉丝数量 动数 近30天发布容产生动行数据统计指标 发博率 发博数量和活跃天数比值 传播热影响力 发数 某条微博发数量 评论数 某条微博评论数量 赞数 某条微博赞数量 由表3首先围绕容热影响力、发布者热影响力、传播热影响力三维结合爬取微博原始数据信息提出了包括量、发数、赞数、评论数、博主粉丝数、发博次数、发布长、与图片数量等参考因素。

考虑到发数、评论数、赞数这三原始数据数值较不利数据处理与分析拟通动数与重传播率反映微博传播热动数综合考察了赞数、被发数、被评论数和博曝光数等信息可以直接反映发博带友动与传播情况外重传播率主要结合发评论数与量其数值含义发并评论数 量可以有效地考量传播热。

由我们确立了七因子指标针对容热选取参考指标充实、图片充实以及传播长;针对发布者热选取参考指标粉丝数与发博率;针对传播热选取参考指标重传播率与动数。

下面进行数据预处理根据获得相对应各微博因子数据初步建立微博评价体系。

从09年月日新浪微博平台用分别爬取了关新闻、体育、学习、情感、娱乐五热门话题前五条微博并将参考指标进行处理加工由初步形成了比较完善微博热体系评级体系如下3七因子指标记录与处理结 表3 五种话题类型热门微博指标数据 话题类型 热门微博 粉丝数(万) 传播长() 充实 图片充实 发博率 重传播率 动数(万) 新闻 8396 5 55 007 5373 新闻 633 078 9 8 008 06 新闻 3 55 3 096 3 385 007 69 新闻 5 9 07 38 006 80 新闻 5 365 9 08 36 005 005 体育 06 96 0 9 6 00 9 体育 05 8 098 9 5 003 86 体育 3 036 7 3 3 3 00 67 体育 56 78 07 3 00 69 体育 5 35 5 089 7 00 539 学习 690 05 038 9 00 3 学习 76 38 09 9 68 00 5 续表3 五种话题类型热门微博指标数据 话题类型 热门微博 粉丝数(万) 传播长() 充实 图片充实 发博率 重传播率 动数(万) 学习 3 6 8 05 9 05 00 93 学习 89 0 9 6 000 08 学习 5 6 67 0 9 9 000 7 情感 96 8 063 3 53 00 693 情感 5 97 08 56 00 7 情感 3 666 38 3 83 003 88 情感 6 08 76 00 07 情感 5 5 0 7 00 6 娱乐 668 8 08 007 639 娱乐 73 73 035 386 005 37 娱乐 3 57 75 08 35 003 36 娱乐 396 5 06 9 3 003 73 娱乐 5 7 3 096 9 85 00 755 由表3我们计算得到了了5条热门微博七因子指标具体数据对五种话题类型五条热门微博按照出现次序进行计算基以上七指标详细数据开始进行因子分析。

进行因子分析前首先要确定变量相关性因要先进行K 与Brl检验。

其K检验统计量是通比较变量简单相关系数和偏相关系数反映变量相关性其取值越接近越说明变量相关性较强。

当K09说明表示非常适合进行因子分析07<K<09则说明比较适合进行因子分析K06则说明相关性较弱因子分析法失效。

Brl球状检验原理判断相关阵变量独立性若变量相独立就无法变量提取公因子也就无法利用因子分析法建立模型

其数值越且伴随概率00就说明数据集适合使用因子分析法建立模型

首先软件选择分析工具栏降维选项进行K 与Brl检验检验结如表33 表33 K 和巴特利特检验 K 取样适切性量数 08 巴特利特球形检验 近似卡方 5397 由 显著性 0003 由检验结得到K值08Brl检验统计量观测值5397显示值005说明各变量具有相关性可以说明因子分析适合用建立模型

下表3方差释结图3碎石图 表3 方差释结 成分 初始特征值 提取荷平方和 总计 方差分比 累积 % 总计 方差分比 累积 % 365 503 503 365 503 503 66 3079 758 66 3079 758 3 79 30 86586 79 30 86586 80 685 9338 5 3 55 97893 6 09 35 9938 7 053 76 00000 提取方法主成分分析法。

图3 碎石图 按照累计方差分比不少80%和特征值不少标准提取了3公因子由表3可以得到3公因子可以累计释信息86586%各因子分别释信息503%3079%和30%。

根据碎石图前面三因子特征值不所以提取了三因子即微博信息维、、3分别代表微博信息微博博主信息微博传播信息

我们已得到三维权重再根据各维数据就可以通以下公式计算热 (3) 如公式(3)表示提取因子数量 代表 因子其相关数据则代表 因子所占权重。

计算热指数我们要根据成分得分矩阵分析每公因子成分构成。

下表35成分得分系数矩阵结 表35 成分得分系数矩阵 成分 3 粉丝数(万) 57 06 00 动数(万) 6 39 66 发博率 087 3 738 充实 95 80 0 图片充实 3 3 038 传播长() 38 33 807 重传播率 50 6 3 提取方法主成分分析法。

表35通比较每行相关系数可以直观看出公因子与哪些指标相关性较高。

表展示了7指标成分系数得分分别代表三微博信息维、、。

代表微博信息维指代博主信息包括粉丝数量、动数量、发博率;代表二微博信息维指代微博信息包括与图片充实; 代表三微博信息维用指代微博传播信息包括传播长、重传播率等。

是我们得到各微博信息维计算公式 微博信息维 (3) 二微博信息维 (33) 三微博信息维 (3) 根据三公因子方差贡献率和各公因子指标体系维表达式根据公式(3)得到微博热计算公式(35) (35) 33通热排序对模型进行检验 由上式(35)可以得到每条热门微博综合热结外根据热对五种类型热门话题5条微博进行了重新排名如下表36。

表36 热门微博热计算结与重新排名 话题类型 热初始排名 新排名 3 新闻 33 97 08 5678 新闻 3 36507 3053 06 3056 新闻 3 365 37 05 8 新闻 077 3 03 0836 新闻 5 5 868 335 07 9305 体育 838 585 069 70689 体育 7756 67 0 6575 体育 3 3 8638 596 33 607 体育 5 7 05 57 体育 5 3867 85 5389 学习 95 3863 057 7385 学习 76 37 06 636 学习 3 3 33 385 0 7 学习 55 3556 058 966 学习 5 5 90589 378 065 838 情感 0789 5 03 73693 情感 675 59 059 6677 情感 3 53 75 066 73 情感 3 977 753 0 9675 情感 5 5 858 97 038 3588 娱乐 377006 86 07 07556 娱乐 96665 33 056 869 娱乐 3 3 7703 337 065 775 娱乐 667 378 07 657 娱乐 5 5 77059 539 053 56395 从表36得出基新浪微博热门按顺序截取五类热门话题又热计算得出了五类话题热门微博真实热排序对比发现与截取微博热排序致相。

信息维看新闻类与娱乐类微博信息维值较即博主影响力较导致计算得出热值较高与实际情况也是相。

新闻类、学习类、娱乐类二信息维值较说明这几类热门微博容表示都比较充实。

总体热值比较结新闻类娱乐类体育类情感类学习类与实际情况基相由可以看出建立模型可以比较准确反映微博真实热问题。

3结 基爬取热门微博数据通分析信息传播特征提炼影响微博热主要因素并提取重要因素建立热体系评级指标运用因子分析法提取重要因素建立热体系评级指标就容、用户传播三角运用因子分析法建立微博热评估模型得到各微博信息维表达式以及热计算公式对数据进行整理分析终对其结进行排序和对比发现模型比较合实际情况表明模型具有较高准确性。

预测模型建立 热门微博判断指标 形成热门话题用户对类事件进行量发与评论且容观要集。

由可以根据微博容和博主特征对微博传播特征预测发数评论数以及赞数进而判别其能否成热门微博

微博容和博主特征复杂性以及对微博传播影响非线性和不确定性 B 神络算法拥有非线性映射能力等优势只要输入层输入信隐含层处理就可以输出节产出输出信应用围十分广泛。

其拓扑结构包括输入层、隐层和输出层拟采用型三层 B 络结构如图。

进行预测拓扑结构 对微博赞行其可以反映用户话题关程和对容认可程而发行可以说明条微博传播围评论行则可以反映用户话题参与这些用户行都可以说明条微博热门程。

因选取热门微博平讨论数量、平发量、平评论数、平赞数衡量微博热门程。

各指标通以下公式进行计算 () 其分别发量评论数赞数由选取各项指标综合构建出反映容热量公式公式如下 +++++ + () 根据式()我们得到了容热门量值随将该量值根据先存储序列代表 隔热门量值序列 与前观测值关系诶非线性映射如公式(3) (3) 结合算法B 神络热门预测模型 B 神络算法目是全局优值但B神络算法是局部进行优化策略调整其缺是算法容易陷入局部优。

算法具有良局部开采能力通改变粒子学习模式提高迭代速快速更新粒子位置从而确立可使全局优粒子效与精俱佳。

如将B神络嵌入到算法就可以提升局部能力优化原算法初始权值和与阈值基训练集对B 神络实行训练从而实现与B神算法优势补从而完成预测模型构建故结合算法建立了B 神络热门预测模型

算法原理 结合算法建立B 神络热门预测模型步骤如下 步骤 由上提到微博评价指标根据公式(5)计算微博热门量值将该量值根据先存储序列由构建模型数据训练集。

输入层将作输入值以作神络输出值。

步骤 对粒子位置与速进行初始化设置函数变量数粒子种群规模迭代次数粒子空与位置信息

步骤 3定义适应函数并计算得到全部粒子适应值。

步骤 判断V 和X是否超出设定围。

步骤 5及更新粒子速与位置当达到设定迭代次数或差值满足界限输出输出次全局优如达到条件则重复进行步骤。

步骤 6从每粒子到优寻全局优。

将输出作参考B 神络输入层输入权值与初始阈值。

步骤 7基上述数据训练集建立B 神络预测模型计算预测误差通不断迭代修正权值直到可以进行输出。

步骤 8按照热顺序预测下阶段预测值l+。

通不断调整位置与参数多次迭代可以到全局优从而获取B 神络输入层输入权值与初始阈值就可以结合算法构建B神络预测模型实现对话题预测

模型实验环境与数据获取 是三研究基础上基lb仿真工具建立预测模型根据上通爬虫技术获取五种类型热话题微博信息由原因对每种类型前两条微博按照公式()得到序列构建结合算法B神络预测模型进行预测分析然并对这些热门微博变化趋势与变化程进行分析。

3 预测模型参数设置 算法通不断调整位置与参数多次迭代可以到全局优并确定终参数从而获取输入层输入权值与初始阈值。

选取适应函数采用了lbkl函数使用该函数首先要进行参数设置我们将粒子种群规模确定0加速常数设定粒子运动速限制5迭代次数00将粒子位置限定。

图是随粒子迭代次数增加适应值变化 图 粒子适应值 由图可以看出随着迭代次数增加粒子适应值首先是迅速下降到十五代适应值趋稳定这说明迭代次数越高粒子适应值越性能会越。

将B神络结构设置将粒子学习速率设置默认优值,按照精化原理选择合理训练数据集规模。

B神络隐含层节数会对预测结产生比较影响般说隐含节数越误差首先会降低到达优值误差又会随节数增长变所以要从实际研究目出发选取对预测结产生误差隐含节数 拟通结合献验与具体实验操作定隐含层节数目以使误差化。

首先进行仿真实验先将隐含层节数初始值设定成观测区设定节数累次增观察平误差值变化情况。

每取隐含层节都要进行多组独立试验提高实验准确性降低偶然因素影响。

实验结表明隐含层节数不平相对误差也随波动如下图3。

图3 不隐含层节数 值变化图 根据图3隐含层节数取5预测结平相对误差。

预测结与分析 根据平相对误差(简称)判断预测模型准确性通以下公式得 () 式()代表热指数预测值热指数实际值。

由关系对三五类话题前两热门微博使用B神络模型模拟话题热变化预测下阶段热指数。

话题被推送热门热门程并不会保持不变而是会随增或降低且不热门程指数变化率也会存差异。

相隔短变化率可能会较相隔长变化率会越。

量化两者系引入话题热门程增长率衡量微博热门程变化趋势计算公式如下 (5) 式(5)值含义预测与前隔热门趋势增长率算数平值 隔预测值隔。

其可以定程上反映热门微博趋势变化趋势与变化程值正可以反映话题热门趋势值0说明该微博热门指数仍会上升值0则说明该微博热门指数会下降通分析数值我们可以衡量微博热门程变化。

公式(5)能够衡量不隔对当前热门程值影响程相隔影响程越相隔短影响程越。

我们根据上热门话题相关信息结合 算法建立了B 神络热门微博预测模型基该模型对五种话题下阶段热变化趋势进行预测并计算得到预测值根据公式(5)得到每条微博热门程增长率从而可以分析得到微博热门指数变化趋势与变化程结合实际情况进行对比分析得出相应结论。

如下表 我们基预测模型记录了热门微博趋势预测如下数据信息

热门微博趋势预测情况 热门微博 热门程 变化趋势 变化强 下降 03389 5793 963 上升 03389 68 5998 3 上升 03560 7837 6853 下降 0573 7765 767 5 上升 08 36689 366 6 上升 063 9837 9687 7 下降 0007 9335 9337 8 下降 085 578 56 9 上升 0379 957 8568 0 下降 05 39535 38355 由表我们得到了微博热门指数变化趋势、变化程以及预测值实际值。

我们可以直观看到预测值与实际值误差较。

根据热门程增长率可以比较准确反映出微博热门程变化趋势与变化强。

比如根据对表预测结分析新闻类话题二条微博热门趋势相反且新闻类二条微博上升程较条微博下降程更可以预测新闻类二条微博下阶段会成新闻类条热微博验证发现与实际相可以反映建立预测模型 可以比较准确预测热门程变化趋势。

3 结 利用 算法较优全局特提出了结合算法B神络微博热门预测模型

通熟练掌握算法与B神络算法步骤基lb仿真工具完成实验参数设置与隐含层节数选取构建序列模型确定模型输入值终得到了微博热门指数变化趋势、变化程以及热门程指数预测值。

验证发现预测结与实际相合可以反映建立预测模型可以比较准确预测热门程变化趋势。

结 论 研究容主要是以新浪微博背景展开微博己成我们日常生活必不可少社交工具已成了信息传播平台。

微博热曝光高、数量或者动数较高容信息比较容易成热门微博平台包括“热排行榜”和“热门话题”等对每位用户进行推送还会根据热对热门微博进行排序分析了影响热门微博传播些因素拟建立热评价模型热门微博预测模型通计算热门微博热与热门程变化趋势对话题热监控与预测

主要成有 ()运用爬虫工具爬取了五类话题热门微博结合用户影响力、容影响力、传播影响力并基因子分析法建立了微博评价模型

选择因子指标我们还另外增加了重传播率、动数两指标建立了比较完善合当前微博热体系评级指标从09年月日新浪微博平台用分别爬取了关新闻、体育、学习、情感、娱乐五热门话题前五条微博并将参考指标进行处理加工获得了相对应各微博因子数据通因子分析得到各微博信息维表达式以及热计算公式对数据进行整理分析终对其结进行排序和对比表明热评估模型模型具有较高可信。

()弥补B神路算法容易陷入局部优缺陷提出了结合算法B神络微博热门预测模型

分析了热门微博判断指标确定了通熟练掌握算法与B神络算法步骤基lb仿真工具完成实验参数设置与隐含层节数选取构建序列模型确定模型输入值终得到了微博热门指数变化趋势、变化程以及热门程指数预测值。

验证发现预测结与实际相合可以反映建立预测模型可以比较准确预测热门程变化趋势次研究对现实情况预判具有定指导义。

参考献 [] lbr R, g , Brb L rrr k lr lx rk[] r, 000, 06(679) 378 [] Lr K, G R r g rl r gg r l rk[] r , 05,5 6676 [3] g Z, G g, Kk rg rg bvr l rk[] rg 9 rl r r Klg g r, , 00 633636 [] Zr V, Kv , kr Rl l r rg r l r[] , rl r L rl llg , 06 59597 [5] , Zg , g g lzg rl r r rg r l r[] r rl r Bg g rv l r , 05 7886 [6] Z X, Zg XG, GQ, l l Rrl Lk l rk[] l , 03, 9(7) 0307 [7] l Rr rk rr l rl r lr, r, 07 5 [8] Glr , r rrl rr r r rv l rl r l g, 0067 [9] 付豪社交络信息传播实证分析及应用[] 南京南京邮电学硕士论, 07 07 [0] 郑斐然, 苗夺谦, 张志飞, 等 种微博新闻话题检测方法[] 计算机科学, 0,39() 38 [] 张鲁民, 贾焰, 周斌, 等 种基情感线突发事件检测方法[] 计算机学报, 03, 36(8) 659667 [] 何跃, 蔡博驰 基因子分析法微博热门评价模型[] 统计与策, 06(8) 55 [3] 宋蕾, 张培晶 基L主题建模微博舆情分析系统研究[] 络安全技术与应用, 0() 5 6 [] v ,r Brkg rkg r[] r 9 b llg llg g lg ('0), rk , 00 03 [5] 王长宁, 陈维勤, 许浩 对微博舆情热门程监测及预警指标体系研究[] 计算机与现代化, 03() 69 [6] 赵晓航 基情感分析与主题分析“微博”代突发事件政府信息公开研究——以新浪微博“天津爆炸”话题例[] 图情报工作, 06, 60(0) 0 [7] 刘功申, 孟魁, 谢婧 种微博预警算法[] 计算机科学, 0, () 3337. [8] Zg Z, L g, L Zgg, lllbl r l lgr b r r [] rl r Rr vl, 03, 50(6) 778. [9] g, G g r q rl bk rg rl rk r[] r grg, 009, 6() 9903. [0] 连芷萱, 兰月新, 夏雪, 刘茉, 张双狮 基首发信息微博舆情热预测模型[] 情报科学, 08, 36(09) 07 [] []

2 次访问