一种基于粗糙集的小型电子商务挖掘模型

[摘 要] 已有的数据挖掘模型大多是针对大型商务网站设计的,成本高,技术复杂,难于实现。

本文针对为数众多的小型电子商务网站,将粗糙集数据挖掘结合起来,建立了一个切实可行的参考模型,该模型能够有效地、自主地挖掘电子商务网站的运营状况和潜在的经济规律,从而为小型电子商务运营者提供决策参考。

[关键词] 数据挖掘粗糙集小型电子商务        一、 引 言      数据挖掘应用于小型电子商务,可发现客户新的购买倾向,设计投资战略,在会计系统中探测未经认可的开支,增加销售业务等,其目标为揭示小型电子商务网站的运营状况以及潜在的经济活动。

然而,为数众多的中小电子商务网站由于自身规模小、商业伙伴多、客户杂而多、产品周期短、可利用资金少等特点,很难实现针对大型商务网站设计的数据挖掘模型。

故建立一个适合于小型电子商务网站的切实可行的数据挖掘模型非常必要。

通常, 一个简单的小型电子商务系统包括以下几个基本功能:   1. 客户注册。

客户通过该功能提交相应的客户信息。

客户一般可分为两类:普通客户和会员客户

他们享有不同的权限,通常会员客户将享受一些优惠的价格、被邀请参加一些网站举办的活动等。

2. 客户登录。

主要进行客户身份认证,以确保是合法的客户

3. 在线商品浏览。

客户可了解商品的详细情况。

商品陈列如现实中超市的货架一样。

好的分类以及好的摆放次序都将影响销售业务。

4. 购物车。

实现超市购物车的功能。

客户一边浏览网站一边将欲购买的商品放入购物车。

5. 生成订单(购物单)。

客户选好商品后,系统按照客户购物车中的商品生成购物单。

6. 订单确认。

网站按照订单,计算出本次购买的购买清单和总金额后,让客户确认是否真的购买。

7. 在线支付。

客户确认订单后,可通过信用卡在线支付,支付成功后系统生成一份永久订单,并提交给订单处理系统。

8. 成交确认。

客户成功实现支付后,站点向客户发送E—mail以确认交易成功。

以上是电子商务的基本功能,除此之外,更需要一个高效、安全的数据挖掘工具, 挖掘潜在的、深层次的经济活动,为网站决策者提供各种分析数据和参考决策,如自动生成日报表、月报表等统计报表,以及客户行为变化、商品销售预测等。

电子商务环境下,供应商、仓储物流伙伴、客户之间要进行物流、信息流和资金流等经济活动, 数据挖掘可对物流数据、信息流数据、资金流数据进行综合挖掘

二、 基于粗糙集小型电子商务挖掘模型      数据挖掘的一般过程包括:数据采集数据清洗、挖掘算法确定、数据挖掘、模式解释及知识评价。

从理论研究到应用实现,涉及的技术主要有分类技术、聚类技术、粗糙集技术、统计技术和关联规则技术等。

粗糙集技术是处理知识的有效方法,已在众多领域得到广泛的应用。

这里,结合粗糙集,建立如图1所示的挖掘模型。

从图1中看到,采用的主要技术是粗糙集技术。

以下对其中的关键步骤作进一步的分析。

三、 小型电子商务网站数据采集      数据采集数据挖掘的基础。

电子商务网站数据分布在服务器端、代理端和客户端。

理论上讲,应采集到所有三处的数据,才能得到最完整的数据

但在实际中,由于实际情况的限制,几乎是不可能实现的。

具体分析如下:   1. 服务器端数据采集

服务器端客户行为可以被TCP/IP包监测器跟踪,以提取客户的请求信息。

服务器主要以Web日志的形式记录客户每一次的网页请求信息。

主要包括:客户标识、远程IP、请求日期和时间等,并且可以记录COOKIES和查询参数来描述各个不同客户行为

其优点是:能够实时采集数据;来自不同服务器的数据能被整合到唯一的日志中。

服务器端数据采集的缺点是:如果客户使用本地CACHE和代理(Proxy),则Web服务器仅能获取代理信息,而得不到客户的真正信息;同样, Web环境中有各种CACHE,Web日志记录可能不准确。

这些都将导致信息的不完整以及信息量的不足。

2. 代理端数据采集

许多网络服务商通过CACHE为客户提高导航速度,它通过海量的Web Servers来采集客户数据

代理不仅可以采集多个客户行为,还可以采集多个网站行为

代理端数据采集适合有大量静态页面的网站

代理端数据采集的缺点是:多个客户使用同一个代理服务器的环境下,如何标识某个客户,如何识别属于该客户的会话和使用记录,此问题在很大程度上影响挖掘质量。

3. 客户数据采集

客户端通过JavaScript、Java Applets或修改过的浏览器记录数据

但JavaScript不能记录客户所有的行为,而Java Applets可以记录客户的所有行为,但效率低。

客户数据采集的缺点是:客户可能会在浏览器设置中关闭JavaScript、Java Applets功能;涉及客户的个人隐私信息,需要客户配合。

综上所述,对于电子商务网站而言,尽管有多种数据采集源,但实现起来比较困难,而且所得数据是很不完整的。

基于以上分析,在建立电子商务网站时,除客户注册表、商品表等表外,应在服务器端维持两个基本表:客户行为表和商业行为表。

客户行为记录客户行为,如:登录、查询、添加商品到购物车、浏览等行为

商业行为记录客户的实际购物情况,如所购商品、数量、日期等。

表的基本结构包含如下一些基本字段:   客户行为表:Customer No, Customer Type, Date, Login Time, Exit Time, Home, Browse, Search, Login, Pay, Register, Add to Cart, Select   其中,Customer Type为客户类别:0—普通客户,1—会员客户

商业行为表:Customer No, Merchandises, Number, Date, Time   可见,上述两个表格记录挖掘所需的基本数据,使得数据采集更易于完成。

四、 粗糙集数据清洗   利用粗糙集的约简算法对数据进行清洗。

主要是计算知识的约简、核、上近似及下近似(正域)。

以决策规则为例。

表1是某电子商店的购物记录, P,Q,R,S代表4种商品;Customer No. 为客户号。

是:表示购买了某商品;否:表示没有购买某商品

0 次访问