阶段总结
选题阶段:
在选题的时候,我主要是从网络了解一些信息情况,然后结合自身实习所学的技术,寻找思路,对相应的行业进行需求了解,发现Apriori算法在数据挖掘中用得比较多,但是在医疗行业用的算法还是比较传统的,我也想为医疗行业贡献一些绵薄之力,所以确定了《基于Apriori算法的医疗大数据挖掘研究》作为题目。
开题阶段:
在开始写论文的时候,我找同学下载了大量的文献,借了几本书籍来参考,这些参考资料主要都是其他行业在Apriori算法上是如何改进的文献,以及目前医疗大数据挖掘方面研究的文献,还有就是Apriori算法这个是如何计算的,我参考了我们上课的《大数据分析》这本书。当我大概都浏览完这些文献的时候,都已经过去了一个多月。然后我从中提出了两个地方对算法改进,第一个是时间上的,第二个就是算法精度上的。在时间上的改进,参考了其他行业的改进模型,然后模仿写过来;在精度上,就参考了如何提高关联规则准确度的一些文献。其中在“引入兴趣度”那一部分遇到了挺多的困难,但经过同事的帮忙,以及其他同学的帮助,最终还是顺利解决了。
代码设计:
因为我做的是算法,所以得有数据去构建模型,刚开始的时候因为对python语言不是好熟悉,然后就叫了同学在指定网页去爬取了部分数据下来去实现算法的实例分析,以及仿真检验。算法实现,我用的是Java代码去实现的,因为有些Java代码不是很懂,在
那段时间,一直请教同学,直到实现数据可以完成大量数据的计算,这一部分,因为自己对程序语言不是太懂,花费的时间是最多的。
论文完成:
我论文基本完成的时候已经是5月中旬了,由于时间的关系,我把对引入兴趣度改进那部分,产生多个关联规则的情况都没有去考虑,然后就匆匆忙忙的把几部分的内容拼凑在一起了,其实感觉有很多的不足。其次就是在时间上改进的时候,把和原算法的计算结果对比部分都直接省略了,所以论文不太完整。
论文修改:
论文修改,首先就是降重了,因为论文引用别人的概念以及算法太多,所以一开始的时候,论文重复率达到了40%,经过一周时间的修改,最终把重复率降到了20%左右。其次就是格式问题,格式参考我们学校的论文格式要求,改了几十遍,老师看完又打回来修改,这些基本都是细节问题。再有就是语句问题,有些语句不通顺,可能也还有错别字,所以我把论文打印出来,读了很多遍,把错误的标出来才修改。最后就是摘要了,我的摘要太啰嗦,经过和老师的多次探讨,最终把它修改的差不多。