一种基于粗糙集的小型电子商务挖掘模型
[摘 要] 已有的数据挖掘模型大多是针对大型商务网站设计的,成本高,技术复杂,难于实现。
本文针对为数众多的小型电子商务网站,将粗糙集与数据挖掘结合起来,建立了一个切实可行的参考模型,该模型能够有效地、自主地挖掘电子商务网站的运营状况和潜在的经济规律,从而为小型电子商务运营者提供决策参考。
[关键词] 数据挖掘;粗糙集;小型电子商务 一、 引 言 数据挖掘应用于小型电子商务,可发现客户新的购买倾向,设计投资战略,在会计系统中探测未经认可的开支,增加销售业务等,其目标为揭示小型电子商务网站的运营状况以及潜在的经济活动。
然而,为数众多的中小电子商务网站由于自身规模小、商业伙伴多、客户杂而多、产品周期短、可利用资金少等特点,很难实现针对大型商务网站设计的数据挖掘模型。
故建立一个适合于小型电子商务网站的切实可行的数据挖掘模型非常必要。
通常, 一个简单的小型电子商务系统包括以下几个基本功能: 1. 客户注册。
他们享有不同的权限,通常会员客户将享受一些优惠的价格、被邀请参加一些网站举办的活动等。
2. 客户登录。
3. 在线商品浏览。
商品陈列如现实中超市的货架一样。
好的分类以及好的摆放次序都将影响销售业务。
4. 购物车。
实现超市购物车的功能。
5. 生成订单(购物单)。
6. 订单确认。
网站按照订单,计算出本次购买的购买清单和总金额后,让客户确认是否真的购买。
7. 在线支付。
当客户确认订单后,可通过信用卡在线支付,支付成功后系统生成一份永久订单,并提交给订单处理系统。
8. 成交确认。
当客户成功实现支付后,站点向客户发送E—mail以确认交易成功。
以上是电子商务的基本功能,除此之外,更需要一个高效、安全的数据挖掘工具, 挖掘潜在的、深层次的经济活动,为网站决策者提供各种分析数据和参考决策,如自动生成日报表、月报表等统计报表,以及客户行为变化、商品销售预测等。
电子商务环境下,供应商、仓储物流伙伴、客户之间要进行物流、信息流和资金流等经济活动, 数据挖掘可对物流数据、信息流数据、资金流数据进行综合挖掘。
二、 基于粗糙集的小型电子商务挖掘模型 数据挖掘的一般过程包括:数据采集、数据清洗、挖掘算法确定、数据挖掘、模式解释及知识评价。
从理论研究到应用实现,涉及的技术主要有分类技术、聚类技术、粗糙集技术、统计技术和关联规则技术等。
粗糙集技术是处理知识的有效方法,已在众多领域得到广泛的应用。
从图1中看到,采用的主要技术是粗糙集技术。
以下对其中的关键步骤作进一步的分析。
三、 小型电子商务网站的数据采集 数据采集是数据挖掘的基础。
但在实际中,由于实际情况的限制,几乎是不可能实现的。
在服务器端客户的行为可以被TCP/IP包监测器跟踪,以提取客户的请求信息。
主要包括:客户标识、远程IP、请求日期和时间等,并且可以记录COOKIES和查询参数来描述各个不同客户的行为。
其优点是:能够实时采集数据;来自不同服务器的数据能被整合到唯一的日志中。
服务器端数据采集的缺点是:如果客户使用本地CACHE和代理(Proxy),则Web服务器仅能获取代理信息,而得不到客户的真正信息;同样, Web环境中有各种CACHE,Web日志记录可能不准确。
这些都将导致信息的不完整以及信息量的不足。
许多网络服务商通过CACHE为客户提高导航速度,它通过海量的Web Servers来采集客户数据。
代理端数据采集的缺点是:多个客户使用同一个代理服务器的环境下,如何标识某个客户,如何识别属于该客户的会话和使用记录,此问题在很大程度上影响挖掘质量。
客户端通过JavaScript、Java Applets或修改过的浏览器记录数据。
但JavaScript不能记录客户所有的行为,而Java Applets可以记录客户的所有行为,但效率低。
客户端数据采集的缺点是:客户可能会在浏览器设置中关闭JavaScript、Java Applets功能;涉及客户的个人隐私信息,需要客户配合。
综上所述,对于电子商务网站而言,尽管有多种数据采集源,但实现起来比较困难,而且所得数据是很不完整的。
基于以上分析,在建立电子商务网站时,除客户注册表、商品表等表外,应在服务器端维持两个基本表:客户行为表和商业行为表。
客户行为表记录客户的行为,如:登录、查询、添加商品到购物车、浏览等行为。
商业行为表记录客户的实际购物情况,如所购商品、数量、日期等。
表的基本结构包含如下一些基本字段: 客户行为表:Customer No, Customer Type, Date, Login Time, Exit Time, Home, Browse, Search, Login, Pay, Register, Add to Cart, Select 其中,Customer Type为客户类别:0—普通客户,1—会员客户。
商业行为表:Customer No, Merchandises, Number, Date, Time 可见,上述两个表格记录了挖掘所需的基本数据,使得数据采集更易于完成。
主要是计算知识的约简、核、上近似及下近似(正域)。
以决策规则为例。