(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 105550358 A (43)申请公布日 2016.05.04
(21)申请号 201511027577.2(22)申请日 2015.12.30
(71)申请人芜湖乐锐思信息咨询有限公司
地址241000 安徽省芜湖市镜湖区莲塘新村
瑞丰园B幢07号(72)发明人高辉 尚成辉
(74)专利代理机构北京轻创知识产权代理有限
公司 11212
代理人谈杰(51)Int.Cl.
G06F 17/30(2006.01)
权利要求书1页 说明书3页 附图1页
(54)发明名称
网络信息应用领域的分类分析系统(57)摘要
本发明涉及网络数据处理技术领域,具体地说是一种网络信息应用领域的分类分析系统,其特征在于设有信息处理服务器和数据库,所述信息处理服务器中设有数据获取单元、数据预处理单元、数据挖掘单元以及处理结果输出单元;所述数据获取单元中设有结构化数据获取单元和非结构化数据获取单元;所述数据预处理单元设有数据筛选单元、数据结构化处理单元、数据归一化处理单元;所述数据挖掘单元设有用于将预处理的数据二维化的数据决策表形成单元、用于对形成后的决策条件进行进一步简化的属性约简单元、用于消除数据中的不一致对象和冗余对象的对象约简单元、神经网络模型运算单元以及显示输出单元,具有工作效率高、输出结果准确等显著的优点。 C N 1 0 5 5 5 0 3 5 8 ACN 105550358 A
权 利 要 求 书
1/1页
1.一种网络信息应用领域的分类分析系统,其特征在于设有信息处理服务器和数据库,所述信息处理服务器中设有数据获取单元、数据预处理单元、数据挖掘单元以及处理结果输出单元;所述数据获取单元中设有结构化数据获取单元和非结构化数据获取单元;所述数据预处理单元设有数据筛选单元、数据结构化处理单元、数据归一化处理单元;所述数据挖掘单元设有用于将预处理的数据二维化的数据决策表形成单元、用于对形成后的决策条件进行进一步简化的属性约简单元、用于消除数据中的不一致对象和冗余对象的对象约简单元、神经网络模型运算单元以及显示输出单元。
2.根据权利要求1所述的网络信息应用领域的分类分析系统,其特征在于所述神经网络模型运算单元内设有BP网络单元、ART网络单元、RBF网络单元和LVM网络单元。
3.根据权利要求1所述的网络信息应用领域的分类分析系统,其特征在于所述数据决策表形成单元设有用于将数据降维至二维数据的哈希函数运算模块。
4.根据权利要求1所述的网络信息应用领域的分类分析系统,其特征在于所述数据预处理单元还设有离散化处理模块、属性增/删模块、属性位置互换模块、添加ID属性模块、数据噪声处理模块。
5.根据权利要求1所述的网络信息应用领域的分类分析系统,其特征在于所述数据预处理单元中的数据筛选单元用于滤除数据中重复、缺损的数据;所述数据结构化处理单元用于将非结构化数据处理为结构化数据。
6.根据权利要求1所述的网络信息应用领域的分类分析系统,其特征在于所述数据结构化处理单元包括:文本获取模块,用于获取与中心词相关的非结构化文本,其中,所述中心词表示所述非结构化文本所阐述的词语;分类获取模块,用于基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;生成模块,用于根据所述分类,生成所述中心词的结构化信息实体。
7.根据权利要求1所述的网络信息应用领域的分类分析系统,其特征在于所述数据结构化处理单元还包括:模板获取模块,用于根据所述分类,获取与所述分类相对应的属性模板;其中,所述生成模块用于根据所述分类及其对应的该属性模板,生成包含所述属性模板的所述信息实体。
2
CN 105550358 A
说 明 书
网络信息应用领域的分类分析系统
1/3页
技术领域:
[0001]本发明涉及网络数据处理技术领域,具体地说是一种处理效率高、分析准确的网络信息应用领域的分类分析系统。
背景技术:
[0002]随着网络的高速发展,网络作为最大的信息载体和交流平台,已成为当前进行信息宣传的重要途径。常规的信息(如新闻、广告、商品等)是制定媒介策略,透过媒体定位覆盖目标受众,为实现精准,也不过在投放后再以数据去验证、调整,很难实现考虑受众是否感兴趣和接收。而对于互联网实时信息推送(如个性新闻发布,实时广告竞价,个性商品展示等),在投放前就已寻找到合适的受众,真正实现互联网化广告的精准投放、个性营销。[0003]面对大量待分析数据,如何维护和使用是一个亟待解决的问题,其中海量的数据中包含大量非结构化文本,非结构化文本不方便用数据库二维逻辑表来表现的文本数据,由此导致大量文本内容难于被分析与维护,而结构化文本则可通过数据库的二维表结构来逻辑表达,因而便于文本内容的维护及基于该结构化文本进行数据挖掘。发明内容:
[0004]本发明针对现有技术中存在的缺点和不足,提出了一种处理效率高、分析准确的网络信息应用领域的分类分析系统。[0005]本发明可以通过以下措施达到:
[0006]一种网络信息应用领域的分类分析系统,其特征在于设有信息处理服务器和数据库,所述信息处理服务器中设有数据获取单元、数据预处理单元、数据挖掘单元以及处理结果输出单元;所述数据获取单元中设有结构化数据获取单元和非结构化数据获取单元;所述数据预处理单元设有数据筛选单元、数据结构化处理单元、数据归一化处理单元;所述数据挖掘单元设有用于将预处理的数据二维化的数据决策表形成单元、用于对形成后的决策条件进行进一步简化的属性约简单元、用于消除数据中的不一致对象和冗余对象的对象约简单元、神经网络模型运算单元以及显示输出单元。
[0007]本发明所述神经网络模型运算单元内设有BP网络单元、ART网络单元、RBF网络单元和LVM网络单元。
[0008]本发明所述数据决策表形成单元设有用于将数据降维至二维数据的哈希函数运算模块。
[0009]本发明所述数据预处理单元还设有离散化处理模块、属性增/删模块、属性位置互换模块、添加ID属性模块、数据噪声处理模块。
[0010]本发明所述数据预处理单元中的数据筛选单元用于滤除数据中重复、缺损的数据;所述数据结构化处理单元用于将非结构化数据处理为结构化数据。[0011]本发明所述数据结构化处理单元包括:文本获取模块,用于获取与中心词相关的非结构化文本,其中,所述中心词表示所述非结构化文本所阐述的词语;分类获取模块,用
3
CN 105550358 A
说 明 书
2/3页
于基于预定分类模型,对所述非结构化文本进行分类分析,以获取所述中心词的分类;生成模块,用于根据所述分类,生成所述中心词的结构化信息实体。[0012]本发明所述数据结构化处理单元还包括:模板获取模块,用于根据所述分类,获取与所述分类相对应的属性模板;其中,所述生成模块用于根据所述分类及其对应的该属性模板,生成包含所述属性模板的所述信息实体。[0013]本发明与现有技术相比,通过对海量数据进行有效的预处理,删除缺损、重复信息,并将非结构化数据处理为易分析维护的结构化数据,有效提高了系统分析准确性和可靠性,具有工作效率高、输出结果准确等显著的优点。附图说明:
[0014]附图1是本发明的系统框图。[0015]附图标记:信息处理服务器1、数据库2、数据获取单元3、数据预处理单元4、数据挖
处理结果输出单元6。掘单元5、
具体实施方式:
[0016]下面结合附图对本发明作进一步的说明。[0017]如附图所示,本发明提出了一种网络信息应用领域的分类分析系统,其特征在于设有信息处理服务器1和数据库2,所述信息处理服务器1中设有数据获取单元3、数据预处理单元4、数据挖掘单元5以及处理结果输出单元6;所述数据获取单元3中设有结构化数据获取单元和非结构化数据获取单元;所述数据预处理单元4设有数据筛选单元、数据结构化处理单元、数据归一化处理单元;所述数据挖掘单元5设有用于将预处理的数据二维化的数据决策表形成单元、用于对形成后的决策条件进行进一步简化的属性约简单元、用于消除数据中的不一致对象和冗余对象的对象约简单元、神经网络模型运算单元以及显示输出单元。
[0018]本发明所述神经网络模型运算单元内设有BP网络单元、ART网络单元、RBF网络单元和LVM网络单元。
[0019]本发明所述数据决策表形成单元设有用于将数据降维至二维数据的哈希函数运算模块。
[0020]本发明所述数据预处理单元还设有离散化处理模块、属性增/删模块、属性位置互换模块、添加ID属性模块、数据噪声处理模块。
[0021]本发明所述数据预处理单元中的数据筛选单元用于滤除数据中重复、缺损的数据;所述数据结构化处理单元用于将非结构化数据处理为结构化数据。[0022]本发明所述数据结构化处理单元包括:文本获取模块,用于获取与中心词相关的非结构化文本,其中,所述中心词表示所述非结构化文本所阐述的词语;分类获取模块,用
对所述非结构化文本进行分类分析,以获取所述中心词的分类;生成于基于预定分类模型,
模块,用于根据所述分类,生成所述中心词的结构化信息实体。[0023]本发明所述数据结构化处理单元还包括:模板获取模块,用于根据所述分类,获取与所述分类相对应的属性模板;其中,所述生成模块用于根据所述分类及其对应的该属性模板,生成包含所述属性模板的所述信息实体。
4
CN 105550358 A[0024]
说 明 书
3/3页
本发明与现有技术相比,通过对海量数据进行有效的预处理,删除缺损、重复信
息,并将非结构化数据处理为易分析维护的结构化数据,有效提高了系统分析准确性和可靠性,具有工作效率高、输出结果准确等显著的优点。
5
CN 105550358 A
说 明 书 附 图
1/1页
图1
6