公安网网络流量大数据分析知识讲义

公安络流量数据分析 和管控项目 目录  项目概述   项目背景   思路  3 项目目标 5  建设原则 7  参考标准 7  可靠性及可用性 7 3 安全性 8  成熟性 8 5 先进性 8 6 可扩展性 8  架构描述 8  整体架构 8  功能架构 9  应用层   接口层  3 分析层   数据层  5 基础设施层  6 数据可视化  7 数据交换  8 流量采集 3 9 运维管理 3 0 安全管理 3 3 平台建设 3 3 业门户功能  3 业功能  3 门户管理功能  3 业功能 6 3 应用识别 6 3 流量展示及异常流量识别 7 33 流量智能调 9 3 用户画像  35 应用关关系 7 36 应用画像 9 37 精准推送 33 38 行识别 35 33 数据可视化 37 3 数据处理分析组件建设 38 3 数据模块建设要 39 3 数据分析算法库建设要 39 33 分布式存储建设要 6 3 分布式并行处理建设要 6 35 实存分析处理建设要 6 36 实分析结询建设要 6 35 L工具建设 6 36 实流量数据收集建设 7 37 基础设施建设 7 38 数据交换组件 7 39 安全管理 7 30 运维管理 9  数据采集建设 9  采集器部署要★ 9  采集器数据采集方案 50 3 流量控制调能力要 50  采集器性能及可靠性 5  项目概述  项目背景 目前运行管理面临以下三方面挑战  流量分布不 流量分布不体现忙闲流量差距较、区域性流量差距较和流入流出差距较。

造成类问题主要原因不是链路不足而是数据分布不。

因现有扩容链路是拥塞问题办法优是效明显升级链路拥塞能够得到有效缓但是无法从根类问题。

应用质量保障不到位 随着应用不断发展部分业系统围和可靠性要提出了新要。

方面随着应用广泛使用上系统数量、种类和系统数据量幅增加。

背景下按照原有络设计承能力和数据发机制上无法发挥现有络传输能力和利用带宽易发生络拥塞和质量下降等情况。

另方面业系统质量和要已不满足畅通率指标而对络传输质量、带宽保障和延迟等提出了新要。

现有运维手段无法满足类保障要。

3 络管控手段有限效性不强 随着应用快速发展络容也发生更性变化。

从初提供数据传输管道到提供更络传输质量保障。

目前主干络流量管控、调方面存不足传统Q要络全程部署精准低、调整围广、工作量无法满足现阶段运营管理

尤其是针对突发流量导致络拥塞、络设备或者链路故障导致传输能力下降、临提出固定、固定区域络保障要等问题没有高效流量调和管控手段。

即使发现问题无法精准管控和调。

思路 针对运行管理面临应从三方面进行具体容如下 ? 首先应该做到能够准确了流量分析链路流量都有哪些数据应用、每应用流量、段、质量如何、这应用哪些系统和用户以及详细流量信息便开展流量调和应用保障策略制定。

? 其次应该能够准确预测流量这预测不是简单通现有今年流量数据和曲线测算明年流量而是通对应用分类针对各应用流量、段和质量测算每应用流量趋势再通汇总可以精准评估出每条链路每段流量和趋势。

方面可以更精准预测流量链路扩容和络流量调提供更精准数据支持另方面也可以重应用保障策略提供准确数据支持。

? 再次应该能够准确管控流量

管控不是关停相关也不是按照传统络策略采取丢包式牺牲策略。

而是通对不应用络制定不调和管理方案。

例如对络延迟较敏感实类应用提供较高带宽保证传输质量对络速不敏感应用按照段或者按照带宽利用率动态限制占用带宽保证应用正常使用前提下合理利用带宽对备份类和非工作段数据传输调到非忙传输对地数据丰富推送相关地信息避免异地询或者下占用广域等 ? 做重应用和保障工作。

方面是通精准流量预测和智能调和管控确保提供足够可靠络另方面按照应用关关系对应用所整应用和组提供所关和保障。

通定制行识别还可以应用提供更广泛和保障。

3 项目目标 项目目标包括两方面业目标和建设目标其业目标包括三方面智能化流量趋势分析、全流量智能调和重应用智能化保障 项目业目标 精准流量趋势分析 ) 能够对指定链路、指定某应用或某类应用数据挖掘算法智能化进行指定周期(例如五年)指定段(例如全天段、或者白天段)流量趋势预测; ) 能通系统可视化能力用户可通界面选择操作(例如界面上选择指定周期、指定段)进行分析结图形化展示。

整业场景要使用业模型应用画像流量预测。

整业场景实现使用分析方法有  ? 简单统计类链路指定段流量、指定应用指定段流量用户访问量跨域访问量等 ? 数据挖掘类链路流向趋势链路应用分布 应用用户地域分布; ? 智能分析应用画像分类 流量预测。

流量智能调 ) 全流量规划通应用画像流量可视化能力可以从整体分析全络流量现状通看链路流量流向信息链路上具体应用分类情况可以指定整络整体流量规划。

通实分析数据和预测数据进行流量控制规则生成分析方法统计类包括链路流量趋势链路流向趋势链路应用分智能分析类包括全流量趋势预测应用分类。

) 根据规划生成流量策略检测如链路流量不合流量规划则采用精准推送方式提醒流量使用者。

流量规划策略可包括流量分段使用带宽要应用分地域使用带宽要链路带宽阈值要。

3) 紧急情况流量管控当络发生拥塞或预测络发生拥塞则通知用户或直接对采集器下发流量控制策略可以对低价值应用进行控制或疏导(R打标签通策略路由发)对高价值应用进行业策略保证(配置Q策略) ) 整业要使用业模型流量趋势分析应用画像、精准推送、流量智能管控。

应用智能化保障 ) 通对应用系统分析对整应用系统使用带宽情况支撑应用系统带宽使用情况进行分析对采集器下发Q策略对应用系统对外提供带宽和支撑应用系统使用带宽进行保障。

) 整分析采用统计方法是应用带宽使用情况支撑系统带宽情况。

采用挖掘和智能分析方法是应用关系流量趋势预测。

3) 整业要使用业模型流量趋势分析应用画像流量智能管控。

项目建设目标  ? 构建络数据分析平台基领先数据处理技术实现对海量络流量数据存储、统计分析和深学习;实现针对络流量数据数据挖掘和深分析模型和算法库; ? 建立模型库通数据分析方法设计合趋势和研究方向络流量数据分析模型并通通数据分析算法库将业模型固化实现支撑络运维工作发展。

? 构建基全易部署高性能数据采集器采集器要支持海量数据提取及预处理能力支持完善包检测及丰富定义能力满足数据平台数据采集要。

? 通系统建设提供丰富功能系统提供数据分析用户画像应用画像关关系分析等功能提供检测信息推送流量管理等主动控制功能。

通关键项进行综合评分提供全面信息化程展现。

相关工作要对全量络数据应用信息进行相应梳理、归类采用数据技术和理念进行深分析可以获得新有价值信息发现其规律和趋势挖掘数据价值将络运维工作带入新领域。

方面运维思路上将从关“络通断”传统运维管理提升到关“络流量容”智能化、精细化络管理;另方面将从原有故障事处理被动响应化故障事前预测通趋势分析结合智能管控手段有效避免异常出现实现络运维主动性预防。

建设原则 络数据分析平台应利用当前主流数据技术构建严格遵循国相关标准技术上领先系统具备高可靠性、高安全性和高可用性软件架构成熟应用技术和模式具有先进性平台具备动态扩展能力。

参考标准 络数据分析平台必须遵循相关国和行业标准规包括但不限如下列表。

? 《国信息化“九五”规划和00年远景目标(纲要)》 ? 《国信息化领导组关我国电子政建设指导见》(办发[00]7) ? 《电子政工程技术指南》(国信办[003]) ? 《电子政标准指南》国信办和国标准委员会00年5月 ? 《电子政标准化指南?总则》(国标委高新[00]) ? 《信息系统安全等级保护定级指南》GB 0008 ? 《信息系统安全保护等级基要》GB 39008 ? 《信息系统安全等级保护实施指南》GB 505800 ? 《信息系统等级保护安全设计技术要》GB 507000 ? 《计算机信息系统安全保护划分准则》GB7859999 ? 《信息系统安全等级保护测评准则》送审稿 ? 《涉及国密计算机信息系统安全保密方案设计指南》国保密局00年月 ? 《涉及国密计算机信息系统安全保密技术要》国保密局000年7月 ? 《计算机软件工程规国标准汇编》 GB856788 ? 《计算机软件产品开发件编制指南》 GB 8567988 ? 《计算机软件说明编制指南》 GB 9385988 ? 《计算机件分类与代码》 GB 37099 ? 《软件工程术语》 GB 57995  可靠性及可用性 络数据分析平台可靠性包括整体可靠性、数据可靠性和单设备可靠性三层次。

数据平台分布式计算、分布式存储架构从整体系统上提高可靠性降低系统对单设备可靠性要。

可用性是通冗余、高可用集群、应用与底层设备松耦合等特性体现。

数据分析平台规划设计、设备选型配置量采用了硬件设备冗余、络链路冗余、应用容错等手段充分保证了整体系统可用性。

3 安全性 遵循行业安全规设计安全防护保证数据分析平台安全。

重保障络安全、主机安全、虚拟化安全、数据保护。

成熟性 从架构设计、软硬件选型和管理三方面设计络数据分析平台方案采用规模商用实践检验架构方案和软硬件产品选型采用合L规管理方案保障方案成熟性。

5 先进性 合理利用数据技术先进性和理念先进性动态部署等先进技术与模式并与络数据分析业相结合确保先进技术与模式应用有效与适用。

6 可扩展性 支撑络数据分析平台要根据业应用工作荷进行弹性伸缩基础架构应与业系统松耦合这样业系统进行容量扩展只增加相应数量硬件设备即可实现系统灵活扩展。

架构描述  整体架构 项目整体架构图如下图所示首先由络流量采集器采集实流量数据通实流量数据收集模块将实采集流量数据存储地通数据平台L工具完成数据清洗、装换装至数据处理平台进行处理分析

数据处理技术构建合智能络管理数据分析模型包括用户画像应用画像、关系分析流量预测、精准推送和定制行识别等对络流量数据进行数据分析借助专业可视化组件完成数据分析结展现。

图系统整体架构设计图 通专业数据交换组件实现络数据分析平台其他业系统和省厅平台数据交换实现数据共享和有效利用。

运维管理和平台安全对络数据分析平台至关重要通专业安全管理模块和运维管理模块实现平台软硬件体化运维管理和全方位、端到端、立体安全管理体系。

数据处理和分析组件是平台建设核心该项目采用业界成熟、标准、量案例验证成功技术路线。

作业界数据事实标准平台将基生态系统实现数据分析处理采用并行数据库技术实现分析结快速检和可视化展现满足络监控可视化分析

功能架构 络监控数据分析平台功能架构如下图所示基系统整体架构设计络监控数据分析平台功能主要包括五层基础设施层、数据层、分析层、接口层和应用层以及五支持功能组件构成安全管理、运维管理数据可视化、数据交换和流量采集。

平台基主流数据技术构建合主流云架构开发要满足部信息心云架构开发要。

各部分主要功能简述如下 图 系统功能架构设计图 基础设施层主要提供基计算、存储和络考虑平台开放性和兼容性支持云平台构建兼容合业界主流开放式云架构。

数据层是数据平台核心主要提供数据分析处理存储和计算组件。

首先通实流量收集模块将采集器实采集数据收集成流量数据件写入器形成流量数据缓存库;通专业L工具将采集流量数据进行清洗、换进数据平台形成流量监控基础库以供上层业分析使用。

根据数据分析业将基础库数据进行集成处理形成专业主题库包括流量专题库、用户专题库和应用专题库;依据上层统计和数据挖掘、机器学习要提供专业数据包括R V QLB QL等;提供针对专题库数据管理功能能够对数据质量进行管理包括元数据管理数据质量管理数据提取规则等。

分析层主要用实现络监控数据分析业包括业模型和算法管理

模型主要包括用户画像应用画像、关系分析流量预测、精准推送和定制行识别。

算法管理主要提供基数据分析算法包括趋势预测、特征分析、关规则、分类分析、聚类分析、性化推荐等。

接口层主要用提供数据访问接口用分析结可视化展现包括B数据总线、b接口和QL接口等支撑上层业门户可视化展现。

应用层主要用提供上层业门户对分析结可视化展现包括应用精准推送、络流量预测分析、行识别、应用关系分析

要提供门户基管理功能。

运维管理模块主要用平台整体运维管理包括软硬件安装部署、系统全访问监控、硬件和软件参数配置、性能优化、告警管理、升级扩容等。

安全管理主要用构筑整体络监控数据平台安全防护主要功能包括用户管理访问控制、日志管理管理数据加密、容灾备份等。

数据可视化组件用分析结展现平台提供两种数据展示方式报表展现、图形化展示。

数据交换组件主要用满足平台对其他业系统和省厅平台数据交换实现数据共享和有效利用。

主要包括数据导入、数据导出两功能模块。

数据采集主要用络流量数据采集和协议析。

主要功能模块包括络流量采集、协议析、流量数据实发送。

应用层 应用用户提供统门户和应用集成实现络数据分析各项业功能其主要功能包括两方面业功能和门户管理功能。

业功能提供上层业门户对分析结可视化展现包括 应用精准推送、络流量预测分析、行识别、应用关系分析应用画像、定制行识别等。

门户管理功能如统待办任工作台、统消息提醒、统预警信息等等。

基该产品集成各类应用系统可实现权限管理、账管理、单登录、线助、应用日志和审计、门户性化等基标准规上持续改善用户体验。

接口层 接口层主要用提供数据访问接口用分析结可视化展现包括B数据总线、b接口和QL接口等支撑上层业门户可视化展现。

业门户访问数据分析结可以通接口层提供访问接口直接访问数据分析结。

3 分析层 分析层主要用实现络监控数据分析业包括业模型和算法管理

模型主要包括用户画像应用画像、关系分析流量预测、精准推送和定制行识别。

算法管理主要提供基数据分析算法包括趋势预测、特征分析、关规则、分类分析、聚类分析、性化推荐等。

数据层 数据层是数据平台核心主要提供数据分析处理存储和计算组件。

首先通实流量收集模块将采集器实采集数据收集成流量数据件写入器形成流量数据缓存库;通专业L工具将采集流量数据进行清洗、换进数据平台形成流量监控基础库以供上层业分析使用。

根据数据分析业将基础库数据进行集成处理形成专业主题库包括流量专题库、用户专题库和应用专题库;依据上层统计和数据挖掘、机器学习要提供专业数据包括R V rkQLB QL等;提供针对专题库数据管理功能能够对数据质量进行管理包括元数据管理数据质量管理数据提取规则等。

数据层由以下部分组成 ? 实流量数据收集收集采集器实采集流量数据写入器形成流量数据缓存库。

? 流量数据缓存库存储采集组件实采集络流量数据供L工具使用。

? 数据L处理用流量数据清洗、换和装。

主要用流量数据预处理和加。

? 流量监控基础库主要用存储基流量数据流量数据全集。

? 专题库根据数据分析业将基础库数据进行集成处理形成专业主题库包括流量专题库、用户专题库和应用专题库。

? 数据数据分析模型和算法提供基数据包括R V rkQLB QL等数据访问

? 数据管理根据数据应用要对汇聚数据进行组织、管理和高效率运算 ? 基数据架构数据组织与计算根据数据应用要对汇聚数据进行组织、管理包括元数据管理数据质量管理数据提取规则等。

5 基础设施层 基础设施层主要提供基计算、存储和络考虑平台开放性和兼容性将支持两种方式构建基础设施采用主流云架构包括华云、阿里云、云等;种采用独立硬件提供包括计算存储器、独立络设备等。

6 数据可视化 数据可视化组件用分析结展现平台提供两种数据展示方式报表展现、图形化展示。

7 数据交换 数据交换组件主要用满足平台对其他业系统和省厅平台数据交换实现数据共享和有效利用。

主要包括数据导入、数据导出两功能模块。

8 流量采集 数据采集层对整平台提供数据支撑通多种方式获取丰富数据

采集层可以通专用络数据采集器采集络数据通管系统获得络管理数据可以通络设备获取络设备日志。

采集器部署部省市三级数据心及络出口可以获取用户应用数据

专用高性能采集器采用深报检测()技术对络数据进行实分析抽取。

通专用采集器实分析处理将络数据进行千分信息整理根据业要将数据按照指定格式上送到数据仓库。

9 运维管理 运维管理模块主要用平台整体运维管理包括软硬件安装部署、系统全访问监控、硬件和软件参数配置、性能优化、告警管理、升级扩容等。

0 安全管理 安全管理主要用构筑整体络监控数据平台安全防护主要功能包括用户管理访问控制、日志管理管理数据加密、容灾备份等。

3 平台建设 该项目用构建络数据分析平台通专业络流量数据包采集工具获取络运行数据数据分析技术进行专业数据统计和算法分析进行可视化展示支撑业发展。

总体架构如下图所示 图3系统总体架构设计图 总体上项目建设可分业门户、业功能数据处理分析L处理分析基础设施数据采集实流量数据收集数据交换模块数据可视化安全管理运维管理等。

具体描述如下 3 业门户功能 3 业功能 业门户主要用对分析结可视化展现包括应用精准推送、络流量预测分析、行识别、应用关系分析

要提供门户基管理功能。

3 门户管理功能 门户管理功能如统待办任工作台、统消息提醒、统预警信息等等。

基该产品集成各类应用系统可实现权限管理、账管理、单登录、线助、应用日志和审计、门户性化等基标准规上持续改善用户体验权限管理

其安全管理要将通统安全管理模块建设。

权限管理 权限管理是信息系统信息安全基础设施重要组成部分是信息系统授权管理体系核心。

权限管理功能主要包括  组织机构管理当前组修改和询,对下级组增加、删除、修改、询以及对组用户、角色、维护;  用户管理实现用户增加、删除、修改、询、权限询、用户授权以及更换用户所组等功能; 3 角色管理实现角色增加、删除、修改、询以及权限分配、角色许可维护;  管理完成增加、删除、修改、询以及下级增加、删除、修改、询,许可维护; 5 菜单管理实现选菜单修改以及其下级菜单增加、修改、删除功能;  统账管理 对目前各系统账进行统管理旦建立账户管理系统以新建系统将会直接使用账户管理系统并通系统完成用户身份认证和用户信息询等功能。

统认证支持证、密码等方式原系统密码变更不会影响单登录。

单登录 支持和两种平台下应用系统单登录支持B、 架构系统集成。

用户次登录门户便可以很方便登录到其他系统而无须重复输入用户名和密码从而真正实现了组织无障碍漫游。

应用日志与审计  提供审计功能以日志形式记录用户操作。

通设置“是否审计”参数可以记录用户对这些敏感(用户增加、删除、授权等等)访问情况如访问、类型、用户用户组、用户地等;  提供期日志备份机制。

系统提供按、部门、用户、地、行等条件对各类日志功能。

通看用户访问日志对登录平台用户操作进行监督、管理以便出现问题及保证系统正常运行; 3 通授权访问控制功能只对有权限访问审计信息角色分配审计相关记录用户对审计信息操作日志防止审计信息被人修改、伪造和删除保证审计信息准确性;  性化门户 提供统访问界面、访问形式实现多系统信息集成支持每用户根据己喜定制门户   线助 系统提供每菜单(功能模块)线助功能便指导用户操作  通知公告 系统提供线发布公告、任提醒功能系统首页统展示公告、任提醒、提示性消息等 3 业功能 3 应用识别  应用识别介绍 链路流量包各类应用用户应用请信息或应用应用户情况反馈信息如何识别各流量包背应用以及分类哪些流量包是应用它们有哪些共特征或者性差异不流量包又是通什么样算法或者逻辑归结应用这是应用识别畴要事情。

只有通应用识别各流量包才能到业体也才有流量分析业价值才能实现系列应用刻画、用户刻画才能挖掘应用应用关系才能分析应用数据特征并保驾护航才能流量智能调提供依据。

总而言应用识别是络流量数据分析与管控业基础。

应用识别价值 对每流量包识别了哪应用基础上才能更开展系列基流量应用分析并重应用和保障工作提供信息支持。

应用识别模型构建 鉴流量包数量庞若要实监控每条件流量并且进行识别不但做不到很实效也会使得数据平台很部分耗费应用识别动作上系统可根据数据平台耗费状况空闲段动开启识别程序也可以因特殊情况要由人工启动识别程序。

应用识别涉及算法 ) 对每流量包进行应用识别; ) 可智能启动识别程序也可根据性化要设置启动与周期; 3) 应用识别核心算法根据流量流量特征流量发生等要素构建应用鉴别规则。

) 对每识别出应用进行入库处理随即要与已报备应用进行比对筛选出报备应用以供人工确认;  应用识别输出 ) 提供数据列表展示每根据流量数据识别出应用

) 提供人工确认信息录入功能记录与保存人工确认信息; 3) 应用报备数据项可根据部门要确定报备信息项如包括应用应用名称、应用围、应用部署硬件环境、集群方式、用途、与其他应用明确关系等等。

3 流量展示及异常流量识别  流量展示介绍 流量展示功能是要准确展示流量统计出各链路流量都有哪些数据应用、每应用流量、段、这应用哪些系统和用户以及详细流量信息。

尤其重要是对某些候异常流量及识别继而可以进行相应链路调整防止引起更络故障。

流量展示价值 流量展示管理者观察和了链路流量情况提供直观方式便开展流量调和应用保障策略制定。

异常流量对络运行影响很对络突发流量或异常流量及识别及调整 有利增强络稳定性避免络拥塞。

流量展示模型构建 通系列统计算法结合、地域、次数等维表现应用链路用户三关对象流量情况。

异常流量识别有单独监控展示。

流量展示涉及算法 ) 以应用主体以日周月周期统计上行流量下行流量连接次数连接用户数连接常; ) 以用户主体以日周月周期统计上行流量下行流量连接次数连接应用数连接长; 3) 以链路主体以日周月周期统计上行流量下行流量应用数承用户数;  流量展示输出 ) 全国流量分布图展示公安部与各地数量值; ) 钻取每条链路、表现出该数量值下各数据量值; 3) 钻取每条链路、表现出该数量值下各类应用占比; ) 钻取每条链路、表现出给数量值下流量排名0应用名称。

5) 实现前天与7日线比较图表。

6) 异常流量相关信息展示。

33 流量智能调   流量智能调介绍  随着信息化进程推进整络流量及容都呈现了爆发式增长。

目前络存了量应用覆盖各岗位。

但部分区域出现了流量拥塞和络质量下降情况。

流量导致带宽不足但是这种带宽不足表现相对忙带宽不足和非忙带宽空闲并存。

如何这类问题目前主要手段是链路扩容但当我们带宽从0扩到00扩到G甚至扩到0G络依然出现忙拥塞等带宽不足情况。

数据分析技平台建设给我们对这问题带了新思路可以根据络流量预测分析结对络进行有效规划针对量潮汐类应用我们就可以规划些数据备份类、系统更新类应用数据量传输无白天或者夜限制)与潮汐类应用错峰使用安排晚上空闲段提升现有带宽利用率不增加带宽基础上提高各类应用络传输质量避免络拥塞。

还可以通络趋势分析可以预测络流量增长规模预测应用增长趋势指导续整体络规划。

流量智能调是指针对络由络流量不匀占用使得应用质量下降问题能够通络拥塞预测进行智能调提高络使用率优化应用质量。

流量智能调支持 ) 离线分析指定链路或指定应用(某或某类)历史数据得到链路拥塞模型能够通该模型进行拥塞预测根据预测结进行通知或动下发控制策略。

(预测模型可根据实际 结进行模型身修正。

) ) 实监控指定链路或指定应用(某或某类)络情况当检测到拥塞下发络控制策略。

这功能要期项目增加相应硬件设备才能提供。

流量智能调价值  ) 通络趋势预测分析提升现有带宽利用率不增加带宽基础上提高各类应用络传输质量避免络拥塞。

) 通络趋势预测分析可以预测络流量增长规模预测应用增长规模指导续整体络规划。

流量智能调模型构建   流量调涉及数据特征有 ) 日期 ) 地 3) 目地 ) 端口 5) 目端口 6) 协议类型 7) 区流入流量 8) 区流出流量 9) 区速率 0) 区速率 ) 区平速率 ) 区总访问人数 3) 区总访问次数 ) 每天繁忙区 5) 区总访问延 6) 区关超次数 7) 目地域标识 8) 区质量Q 9) 区输入包数 0) 区输出包数 ) 区输入节数 ) 区输出节数   将天络流量数据按照区定义(例如5分钟)划分多段分别计算每区段数据特征例如计算0800到0805流入流量、流出流量、速率、速率、平速率、总访问人数、总访问次数等。

3 将流量数据特征以“日期特征特征特征”形式表示其每行表示某天络流量数据记录对无属性特征行只有对具有属性特征每区;例如“端口”行只有;“平速率”按照5分钟划分天有88。

将多天络流量数据特征按照“日期特征特征特征”形式表示多条并通数据归化处理数值型矩阵。

5 离线分析指定链路或指定应用(某或某类)历史数据得到链路应用拥塞模型能够通该模型进行拥塞预测根据预测结进行通知或动下发控制策略。

(预测模型可根据实际 结进行模型身修正。

) 6 线实监控指定链路或指定应用(某或某类)络情况当检测到拥塞下发控制策略。

流量智能调涉及算法  ) 序列 ) V  流量智能调模型输出  流量智能调模型输出结 ) 区络参数+区络参数+…+区络参数 ) 其络参数建模程选择与属性相关数据特征例如流入流量、流出流量、速率、速率、平速率、总访问人数、总访问次数。

3) 当要预测某天某刻络拥塞只要输入指定刻所区。

3 用户画像  用户画像数据代性化技术型代表相比传统问卷调、购物篮分析数据次使得企业能够通便利地获取用户更广泛反馈信息进步精准、快速地分析用户行习惯、用户偏等重要信息提供了足够数据基础。

用户画像(rrl)完美地抽象出用户信息全貌可以看作企业应用数据根基。

用户画像介绍  所谓用户画像就是通关键词对用户特征进行描述例如 男3岁已婚络技术运维云。

这样串描述就是用户画像型案例。

如用句话描述即用户信息标签化。

以例如图38所示 随着数据代到信息呈井喷式增长如何快速准确从海量数据挖掘出每用户高维特征标签如海里捞针般艰难。

数据具有以下V特征 ) Vl海量数据规模(B BBZB) 尤其是非结构化数据超规模增长; ) Vl快速数据流和动态数据体系 数据增长快实分析而非事分析; 3) Vr多样数据类型件、电子邮件和视频等非结构化信息约占十年数据产生量90%; ) Vl巨数据价值对、行模式等预测分析传统思维下单位价值密低。

如何以低成方式快速海量数据挖掘出有价值信息是对并行计算基。

而所有数据分析都是要以人“用户”才是王道路数据平台通用户画像模型能更高效、更显著体现数据价值所。

数据分析平台用户画像能够提供以下功能 ) 用户偏挖掘及标签特征表示例如用户络技术牛人云; ) 正常用户、非正常用户划分和特征分析 即对所有用户进行聚类划分两类并对每类进行特征分析例如正常用户类别特征是单位访问应用次数阈值+每天线总长不超阈值B;相反就是非正常用户特征; 3) 跨域访问应用用户列表及分析例如陕西用户访问北京应用K; ) 基活跃用户划分例如 用户活跃0非常活跃 用户B活跃5普通活跃 用户活跃05不活跃  用户画像价值  用户画像核心工作是用户打标签打标签重要目是了让人能够理并且方便计算机处理如可以做分类统计喜欢刑侦技术用户有多少?喜欢刑侦技术人群男、女比例是多少?也可以做数据挖掘工作利用关规则计算喜欢刑侦技术人通常喜欢什么类型影视剧?利用聚类算法分析喜欢刑侦技术人年龄段分布情况。

) 通用户画像偏挖掘层面描述更精准推送用户感兴趣应用提供基础模型从而增强用户粘性。

) 通用户画像用户分类层面描述能够应用提供非正常用户列表进步高危人员分析提供数据支撑。

3) 通用户画像用户地域分析层面描述能够应用提供跨域访问用户列表进步跨域原因分析提供数据支撑。

用户画像模型构建  数据  构建用户画像是了还原用户信息因数据所有用户相关数据

体分静态数据和动态数据

静态数据  静态信息数据用户相对稳定信息主要包括人口属性(如性别、年龄、籍贯、血型、婚姻状态等)数据可直接从部库获取。

动态数据  动态数据用户不断变化行信息广义上讲用户打开页买了杯子;与该用户傍晚溜了趟狗白天取了次钱打了哈欠等等样都是用户行。

当行集到用户行就会聚焦很多例如浏览部官首页、云视频、发表关某项整改活动微博等等可看作用户行。

动态数据可通数据采集器从络采集析得到。

数据特征  用户画像数据特征有 ) 用户静态数据 ) 是否访问多类核心组件 3) 平每天访问应用数 ) 平每天访问次数 5) 用户活跃程 6) 平每天活跃段 7) 平每天流出流量 8) 平每天流入流量 9) 用户请客户端类型数 0) 用户客户端浏览器类型数 ) 用户归属地标识 ) 平每天跨域访问应用数 3) 平每天地域访问应用数 ) 平每天访问成功响应次数 5) 平每天访问非成功响应次数 6) 用户访问协议类型数 7) 平每天访问被拒绝次数 8) 平每天访问请超次数 9) 平每天访问返回错误请次数 0) 平每天访问返回无容次数 ) 平每天访问返回临重定向次数 ) 平每天访问返回禁止访问次数 3) 平每天访问返回执行失败次数 ) 平每天访问返回关超次数 5) 平每天访问返回部器错误次数 6) 平每天访问不可用次数 7) 每天关键词列表; 建模方法   用户偏标签 通事件模型描述次行;事件模型包括、地、人物三要素。

可以详细描述什么用户什么什么地做了什么事。

) 什么用户关键对用户标识用户标识目是了区分用户、单定位 ) 什么包括两重要信息戳+长。

戳了标识用户行如395950(精到秒);长了标识用户某页面停留。

3) 什么地用户接触。

对每用户接触包含两层信息应用 + 容。

应用rl链接(页面屏幕)即定位了应用地。

什么容每rl(页面屏幕)容。

可以是应用基信息应用类别、所属岗位、核心功能描述、关键词描述等等。

如人口库所有人口、请对每接触其定了权重;容定了标签。

) 什么事用户行类型对系统用户行类型分浏览、、评论收藏。

不行类型对接触容产生标签信息具有不权重。

如评论权重计5浏览计。

用户画像数据模型可以概括下面公式用户标识 + + 行类型 + 接触(+容)某用户因什么、地、做了什么事。

所以会打上标签。

用户标签权重可能随增加而衰减因定义衰减因子r行类型、定了权重容定了标签进步换公式标签权重衰减因子×行权重×子权重。

用户划分 ) 将用户画像数据特征以“用户特征特征特征”形式表示其每行数据表示用户该行“特征K”表示该用户K特征项例如可以是“平每天跨域访问应用数”。

) 将多用户数据特征按照“用户特征特征特征”形式表示多条并通数据归化处理数值型矩阵。

用户画像模型构建整体流程 ) 用户数据采集并处理 ) 用户数据特征抽取  ) 用户画像涉及到数据特征部分要通开发算子完成例如“是否访问多类核心组件”就要将用户访问所有应用信息通核心信息库数据映射进步计算该用户是否满足这项指标。

b) 用户画像涉及到数据特征部分要通报表统计结获取例如平每天访问应用数等。

) 用户画像涉及到数据特征用户归属地标识则要通地归属地信息库进行询; 3) 构建用户画像训练数据将多用户历史数据特征抽取数据归化等处理整理算法输入数据 ) 选择算法库算法进行模型计算 5) 通模型调优得到并保存模型  用户画像涉及算法  ) 用户分析 ) 分类算法 3) 聚类算法 ) 特征工程   用户画像模型输出  ) 用户画像模型输出结用户特征库 +用户活跃类别; ) 每行表示用户特征以“用户标识偏偏…,偏活跃类别”表示。

35 应用关关系   应用关关系介绍 分析挖掘应用部相依赖社团关系(例如防控系统依赖人口库、人口库依赖地方户籍库等)识别出每“社团”核心应用组件以及该应用组件有依赖其他应用

并且能够形象通图展示(例如树状)方式展示出。

例如“社团,核心组件出入境管理应用依赖组件人口库、逃人员库、绿卡系统、外国人管理系统”。

应用关关系价值  通应用依赖关系挖掘可以带以下功效 ) 识别 部系统核心应用组件进行重运维保障根据分析结合并、拆分应用系统提升应用用户体验(如两系统有较关性我们就可以作定整合便用户使用)。

) 可将具有关关系类应用主动推送给使用类某应用较多用户可以助用户更快捷到己所 3) 提升应用使用率达到推广热系统和先进系统目。

应用关关系模型构建  ) 应用关关系定义应用部业逻辑形成应用部依赖关系 + 应用访问而形成外部关关系。

) 罗列所有应用访问特性例如单向依赖双向依赖三角依赖、多跳依赖等关系。

3) 将具有关关系应用以有向边表示即“应用应用B关系依赖程”三段表示其每条数据表示条关系也就是图条有向边应用应用B表示图两顶而“关系依赖程”表示图边权值。

) 应用关关系数据特征表示形式  应用 应用B 关系依赖程  表示应用依赖应用B依赖程( 0 ) 应用关关系模型构建整体流程 ) 络数据采集并处理 ) 应用关关系数据特征抽取  ) 应用关关系数据特征方面要根据应用部逻辑原理得到应用部相依赖关关系。

b) 应用关关系数据特征另方面要根据应用访问外部关关系。

3) 将具有关关系应用以“应用应用B关系依赖程”形式表示有向边集合作算法输入数据; ) 选择图挖掘算法进行模型计算 5) 通模型调优得到并保存模型  图38 基图挖掘应用关系分析  应用关关系涉及算法  ) 有向图遍历 ) 社团发现 3) 关规则   应用关关系模型输出  ) 应用关关系模型输出结社团信息即社团编、社团lr、社团成员; ) 每行表示社团以“社团编、社团lr、社团成员社团成员…社团成员K”表示。

36 应用画像   应用画像介绍  所谓应用画像是指对所有应用从多维、多方向、多层面进行描述、分析、挖掘和展示。

例如基应用类别层面应用画像、基应用流量趋势预测层面应用画像

) 支持以下维应用流量趋势预测应用画像描述  ) 指定地域 ) 指定链路 3) 指定类别 ) 应用流量 5) 应用访问次数 6) 应用质量 ) 支持基应用类别划分应用画像描述例如将应用分视频类、数据备份类、请类、数据比对类等。

应用画像价值  ) 通应用分类模型当有新应用上线可进行分类预测用户推送相类型应用作基础数据模型

) 通应用流量趋势预测可作应用评价指标(例如应用活跃、应用热)也可以作针对每应用身发展趋势预测。

3) 通应用流量预测分析指导应用系统建设保证基础络更支撑上层应用

应用画像模型构建   应用画像涉及数据特征有 ) 是否系统 ) 是否核心组件 3) 是否全天候 ) 平每天访问人数 5) 平每天访问次数 6) 应用繁忙程 7) 平每天繁忙段 8) 平每天流出流量 9) 平每天流入流量 0) 平每天并发连接数 ) 应用支持客户端类型数 ) 应用支持客户端浏览器类型数 3) 平每天访问延 ) 应用归属地标识 5) 平每天跨域访问用户数 6) 平每天地域访问用户数 7) 平每天访问正常用户数 8) 平每天访问非正常用户 9) 应用支持协议类型 0) 平每天应用访问被拒绝次数 ) 平每天应用访问请超次数 ) 平每天应用访问返回成功次数 3) 平每天应用访问错误请次数 ) 平每天应用访问无容次数 5) 平每天应用访问无容次数 6) 平每天应用访问临重定向次数 7) 平每天应用访问禁止访问次数 8) 平每天应用访问返回执行失败次数 9) 平每天应用访问关超次数 30) 平每天应用访问部器错误次数 3) 平每天应用访问不可用次数  3) 地 33) 每天开关机 3) 地域标识 35) 目地域标识 36) 该类应用段因子 37) 该应用质量Q 38) 应用类别  将应用画像数据特征以“应用特征特征特征”形式表示其每行数据表示应用该行“特征K”表示该应用K特征项例如可以是“平每天跨域访问用户数”。

3 将多应用数据特征按照“应用特征特征特征”形式表示多条并通数据归化处理数值型矩阵; 应用画像模型构建流程 ) 应用访问数据采集并处理 ) 应用数据特征抽取  ) 应用画像涉及到数据特征部分要通开发算子完成例如“是否系统”要通核心信息库数据映射进步计算改应用是否满足这项指标。

b) 应用画像涉及到数据特征部分要通报表统计结获取例如平每天访问用户数等。

) 应用画像涉及到数据特征应用归属地标识则要通地归属地信息库进行询; 3) 构建应用画像训练数据将多应用历史数据特征抽取数据归化等处理整理算法输入数据;如是分类问题则要对应用类别打标签即形成训练数据集类别信息; ) 选择算法库算法进行模型计算 5) 通模型调优得到并保存模型 6) 如是分类或聚类算法可对知应用模型进行预测。

应用画像涉及算法  ) 基序列流量预测 ) 分类算法 3) 聚类算法 ) 特征工程  以下以分类算法流程例  图39 应用分类流程 ) 数据准备根据分类规则(例如视频类、备份类、类等)对现已有型应用打标签完成应用类别信息; ) 特征选择根据应用用户使用应用业理从采集数据集合提取和定义分类预测特征段形成训练数据集; 3) 模型训练选择合适分类算法完成对训练数据集分类训练并针对模型评估方法对模型进行调优输出分类模型; ) 分类预测对现类别知所有其他应用通分类模型预测该应用类别并将预测结展示或保存。

应用画像模型输出  应用画像模型输出结 ) 应用标识应用类别 区流量预测值+区流量预测值+…+区流量预测值 ) 每行表示应用应用以多模型组成。

37 精准推送   精准推送介绍  所谓精准推送就是指能将用户感兴趣应用信息或者系统配置规则信息或者系统管理人员手动配置信息能够准确实推送给目标用户

例如某用户对技术论坛 相关热词 云和县公安数讲义据分析

0 次访问