专利内容由知识产权出版社提供
专利名称:一种基于Spark平台的不确定数据集频繁项挖掘方
法
专利类型:发明专利发明人:丁家满,杨阳
申请号:CN201810212000.6申请日:20180315公开号:CN108509531A公开日:20180907
摘要:本发明涉及一种基于Spark平台的不确定数据集频繁项挖掘方法,属于数据挖掘领域。本发明基于Spark大数据框架,提出了一种新颖的UWPFP‑tree结构,并行化处理数据集,且不需要对数据集进行多次扫描,不会产生大量候选集,大大提高了算法的执行效率;同时,通过兼顾不确定数据项的生存概率和权重值,挖掘出更加符合用户需求的频繁项,为不确定数据集频繁项挖掘方法提供了一种新的思路。
申请人:昆明理工大学
地址:650093 云南省昆明市五华区学府路253号
国籍:CN
更多信息请下载全文后查看