阅读:1904回复:1
连接分析
连接分析
蔡伟杰 caiweijie528@yahoo.com 引言 商业世界是关系的世界。 关联分析是基于图论的。 关联分析的应用: ² 分析打电话的模式。 ² 理解医师之间的推荐模式。 ² 犯罪分析。 图论基础 基本概念:节点、边、全连接、平面图、连接图、路径、带权图、最短路径问题。 例子:七桥问题、销售员问题(哈密而顿路径)NP(not polynomial)问题。 从中得出一个经验:有时候用一个可以得出好结果但不是完美结果的算法,要比能寻找完美解的算法来的好。对于数据挖掘也一样:不完美的结果如果是可行的,那么这样的分析就是一个好的分析。 案例学习 寻找使用 Fax Machines的用户 why? 数据:经过处理后,只剩下三个字段:持续时间,发出电话号,接收电话号。 方法:通过一组已知的号码来寻找其他的号码。 Dedicated fax,Shared,Data三个的区别。 处理过程:1:选择一些已知的Fax Machines号码 2:从已知的号码中拓展开去,得到candidate集。 如果打411,555-1212,或一个已知的shared号则归到shared号中;否则归入fax号中。 如此反复。 对于时间极短的号码,我们就认为是错误号码,从而忽略。 有向图:在有向图中寻找回路。 案例学习 使用连接分析对便携式电话用户进行分群,然后向某些群体提供新的服务。实际效果是将回馈率从2-3%提高到15%。 数据: 1. 打电话号码和接电话号码 2. 打电话的地方 3. 打电话用户的帐号 4. 电话持续时间 5. 时间、日期 6. 其他各种记号 未使用连接分析之前的工作:市场部主要使用一个变量进行分群:MOU(minutes of use),就是每个月某部电话的使用时间。 两个用户的比较: 连接分析的作用:1:可视化,从一些用户的行为中分析出一些模式。 2:将产生的概念应用于更广的用户群体中。 不等的节点 连接分析的优缺点 优点: 1.可以充分利用关系 2.强大的可视化能力 3.创建衍生属性 缺点: 1.对不少数据格式是不可行的。 2.工具太少 3.对关系数据库进行分析的效率不高 |
|
|
1楼#
发布于:2004-07-19 14:35
<img src="images/post/smile/dvbbs/em08.gif" />
|
|