新闻资讯
电子商务-数据挖掘 (DataMining)
1. 数据挖掘 (DataMining)——从大量数据中寻找其规律的技术,是统计学、数据库和人工智能等技术的综合,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。
2.数据挖掘的一般流程
3. 数据挖掘主要功能
概念/类别描述(Concept/ClassDescription)
概念/类别描述是指对数据集做一个简洁的总体性描述并/或描述它与某一对照数据集的差别。
关联分析(Association Analysis)
从一个项目集中发现关联规则,该规则显示了给定数据集中经常一起出现的“属性——值”条件元组。
分类与估值(Classification and Estimation)
分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式:分类规则(IF-THEN),决策树或者数学公式,乃至神经网络。
估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。
分类的目的是获得一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到某一个给定类别。
分类可用于提取描述重要数据类的模型或预测未来的数据趋势。
聚类分析(Clustering Analysis)
根据最大化类内相似性、最小化类间相似性的原则
聚类与分类的区别
分类是有监督的学习
聚类是无监督的学习
时间序列分析(Time-Series Analysis)与预测
时间序列分析是一种常用的预测(Prediction)方法,是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趋势和偏差。预测的目的是对未来的情况作出估计。
其他功能
包括:偏差分析(DeviationAnalysis)【异常处理】、孤立点分析(OutlierAnalysis)等。
4. 在电子商务中进行成功的数据挖掘得益于:
电子商务提供海量的数据:如果一个电子商务网站平均每个小时卖出五件物品,那么它一个月的平均点击量是160万次。
丰富的记录信息:良好的Web站点设计将有助于获得丰富的信息。
干净的数据:从电子商务站点收集的都是电子数据,无须人工输入或者是从历史系统进行整合。
研究成果容易转化:在电子商务中,很多知识发现都可以进行直接应用
投资收益容易衡量
5. 电子商务中常用数据挖掘技术
路径分析 它可以被用于判定在一个Web站点中最频繁访问的路径,还有一些其他的有关路径的信息也通过路径分析可以得到。 通过路径分析, 可以改进页面及网站结构的设计。
关联规则 在电子商务中关联规则的发现也就是要找到客户对网站上各种文件之间访问的相互联系。 利用这些相关性,可以更好的组织站点, 实施有效的市场策略。
序列模式 序列模式的发现就是在时间戳有序的事务集中,找到那些“ 一些项跟随另一个项” 的内部事务模式。 发现序列模式能够便于进行电子商务的组织预测客户的访问模式, 对客户开展有针对性的广告服务。通过序列模式的发现能够在服务器方选取有针对性的页面,以满足访问者的特定要求。
分类 分类发现就是给出识别一个特殊群体的公共属性的描述,这个描述可以用来分类新的项。
得到分类后, 就可以进行适合某一类客户的商务活动。
聚类 聚类分析可以从 Web访问信息数据中聚集出具有相似特性的那些客户。
在Web事务日志中, 聚类顾客信息或数据项能够便于开发和执行未来的市场战略。这种市场战略包括: 自动给一个特定的顾客聚类发送销售邮件, 为一个顾客聚类动态地改变一个特殊的站点等。
6. 基于Web的数据挖掘
通常在一个电子商务网站上应用的数据挖掘技术是Web数据挖掘。
Web内容挖掘:
Web结构挖掘:挖掘Web上的链接结构。
Web使用挖掘:对Web上的Log日志记录的挖掘。
7.基于Web的数据挖掘——用途
用户信息分析
商品信息分析
物流信息分析
网站信息分析
8.电子商务中数据挖掘的几个典型应用
寻找潜在客户
实现客户驻留
改进站点的设计
聚类客户
进行市场预测
回复列表