• 22.77 KB
  • 15页

数据挖掘项目报告

  • 15页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划数据挖掘项目报告  数据挖掘实验报告  学院:经济与管理学院专业:信管姓名:学号:指导老师:  10-2班***************  实验一决策树建模  实验步骤  1.读取文本数据  使用变量文件节点读取定界文本数据。可以从选项板中添加变量文件节点,方法是单击原选项卡找到此节点,或者使用收藏夹选项卡然后,双击新添加的节点以打开相应的对话框。  单击紧挨“文件”框右边以省略号“···”标记的按钮,浏览到系统中的Clementine安装目录。打开demos目录,然后选择名为DRUC1n目录的文件,选择从文件读取字段名,并标注已载入此对话框中的字段和值。  单击数据选项卡,覆盖和更改某个字段的存储。注意,存储不同于类型或数据字段的用途。类型选项卡可以帮助了解数据中的更多字段类型。还可以选择读取值来查看各个字段实际值,具体取决于在值列中的选择。此过程称为实例化。目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  类型选项卡可以帮助了解数据中的更多字段类型,还可以选择读取值来查看各个字段的实际值。具体取决于在值列中的选择。此过程称为实例化。  类型选项卡可以帮助了解数据中的更多字段类型,还可以选择读取值来查看各个字段的实际值。具体取决于在值列中的选择。此过程称为实例化。  2.添加表  现在已载入数据文件,可以浏览某些文件数据的值。其中一个方法就是构建包含表节点的流。要将表节点添加的流中,可以双击选项板中的表节点图标或将其拖放到工作区。  双击选项板中的某个节点后,该节点将自动与流工作区中的选定节点项链相连接。此外,如果尚未连接节点,则可以使用鼠标中建将源节点与表节点相连接。要么你鼠标中键操作,请使用鼠标是按下Alt键。  要查看表,请单击工具栏的绿色箭头按钮执行流,或者右键单击表节点,然后选择执行。  3.创建分布图  数据挖掘过程中,创建汇总视图通常有助于研究数据。Clementine提供了若干不同类型的图表供您选择,具体取决于要汇总分析的数据。例如,要找出每种药物的对症患者的比例,请使用分布节点。  第一章:数据挖掘基本理论目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  数据挖掘的产生:随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,人们面临着快速扩张的数据海洋,如何有效利用这一丰富数据海洋的宝藏为人类服务业已成为广大信息技术工作者的所重点关注的焦点之一。与日趋成熟的数据管理技术与软件工具相比,人们所依赖的数据分析工具功能,却无法有效地为决策者提供其决策支持所需要的相关知识,从而形成了一种独特的现象“丰富的数据,贫乏的知识”。  为有效解决这一问题,自二十世纪90年代开始,数据挖掘技术逐步发展起来,数据挖掘技术的迅速发展,得益于目前全世界所拥有的巨大数据资源以及对将这些数据资源转换为信息和知识资源的巨大需求,对信息和知识的需求来自各行各业,从商业管理、生产控制、市场分析到工程设计、科学探索等。数据挖掘可以视为是数据管理与分析技术的自然进化产物。自六十年代开始,数据库及信息技术就逐步从基本的文件处理系统发展为更复杂功能更强大的数据库系统;七十年代的数据库系统的研究与发展,最终导致了关系数据库系统、数据建模工具、索引与数据组织技术的迅速发展,这时用户获得了更方便灵活的数据存取语言和界面;此外在线事务处理手段的出现也极大地推动了关系数据库技术的应用普及,尤其是在大数据量存储、检索和管理的实际应用领域。目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  自八十年代中期开始,关系数据库技术被普遍采用,新一轮研究与开发新型与强大的数据库系统悄然兴起,并提出了许多先进的数据模型:扩展关系模型、面向对象模型、演绎模型等;以及应用数据库系统:空间数据库、时序数据库、多媒体数据库等;日前异构数据库系统和基于互联网的全球信息系统也已开始出现并在信息工业中开始扮演重要角色。  被收集并存储在众多数据库中且正在快速增长的庞大数据,已远远超过人类的处理和分析理解能力  ,这样存储在数据库中的数据就成为“数据坟墓”,即这些数据极少被访问,结果许多重要的决策不是基于这些基础数据而是依赖决策者的直觉而制定的,其中的原因很简单,这些决策的制定者没有合适的工具帮助其从数据中抽取出所需的信息知识。而数据挖掘工具可以帮助从大量数据中发现所存在的特定模式规律,从而可以为商业活动、科学探索和医学研究等诸多领域提供所必需的信息知识。数据与信息知识之间的巨大差距迫切需要系统地开发数据挖掘工具,来帮助实现将“数据坟墓”中的数据转化为知识财富。  数据挖掘的概念:数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(KnowledgeDiscoveryinDatabase,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:数据准备,数据挖掘,  结果表达和解释。数据挖掘可以与用户或知识库交互。目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。  数据挖掘的步骤:1.确定挖掘对象:定义清晰的挖掘对象,认清数据挖掘的目标是数据挖掘的第一步。数据挖掘的最后结果往往是不可预测的,但是要解决的问题应该是有预见性的、有目标的。在数据挖掘的第一步中,有时还需要用户提供一些先验知识。这些先验知识可能是用户的业务领域知识或是以前数据挖掘所得到的初步成果。这就意味着数据挖掘是一个过程,在挖掘过程中可能会提出新的问题;可能会尝试用其他的方法来检验数据,在数据的子集上展开研究。  2.数据收集:数据是挖掘知识最原始的资料。“垃圾进,垃圾出”,只有从正确的数据中才能挖掘到有用的知识。为特定问题选择数据需要领域专家参加。因此,领域问题的数据收集好之后,和目标信息相关的属性也选择好了。目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  3.数据预处理:数据选择好以后,就需要对数据进行预处理。数据预处理包括:去除错误数据和数据转换。错误数据,在统计学中称为异常值,应该在此阶段发现并且删除。否则,它们将导致产生错误的挖掘结果。同时,需要将数据转换成合适的形式。例如,在某些情况下,将数据转换成向量形式。另外,为了寻找更多重要的特征和减少数据挖掘步骤的负担,我们可以将数据从一个高维空间转换到一个低维空间。  4.数据挖掘:数据挖掘步骤主要是根据数据建立模型。我们可以在这个步骤使用各种数据挖掘算法和技术。然而,对于特定的任务,需要选择正确合适的算法,来解决相应的问题。  5.信息解释:首先,通过数据挖掘技术发现的知识需要专家对其进行解释,帮助解决实际问题。然后,根据可用性、正确性、可理解性等评价指标对解释的结果进行评估。只有经过这一步骤的过滤,数据挖掘的结果才能够被应用于实践。  6.可视化:可视化技术主要用来通过图形化的方式显示数据和数据挖掘的结果,从而帮助用户更好的发现隐藏在数据之后的知识。它可以被应用在数据挖掘的整个过程,包括数据预处理、数据挖掘和信息解释。数据和信息的可视化显示对用户来说非常重要,因为它能够增强可理解性和可用性。  第二章:系统分析  系统用户分析:  系统功能分析:目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  系统算法分析:  第三章:数据管理  数据管理的方法:  数据管理的具体实现:  第四章:数据采集  数据采集的方法  数据收集:数据是挖掘知识最原始的资料。“垃圾进,垃圾出”,只有从正确的数据中才能挖掘到有用的知识。为特定问题选择数据需要领域专家参加。因此,领域问题的数据收集好之后,和目标信息相关的属性也选择好了。数据采集的具体实现过程  第五章:数据预处理  数据预处理的方法:数据预处理:数据选择好以后,就需要对数据进行预处理。数据预处理包括:去除错误数据和数据转换。错误数据,在统计学中称为异常值,应该在此阶段发现并且删除。否则,它们将导致产生错误的挖掘结果。同时,需要将数据转换成合适的形式。例如,在某些情况下,将数据转换成向量形式。另外,为了寻找更多重要的特征和减少数据挖掘步骤的负担,我们可以将数据从一个高维空间转换到一个低维空间。  数据预处理的具体实现过程:  第六章:数据挖掘目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  算法描述与流程图  摘要  数据挖掘技术可以在浩瀚的数据中进行统计、分析、综合、推理,发现数据内部关联,并作出预测,提供数据信息,为决策提供辅助支持。目前,数据挖掘技术已经广泛应用在商业领域,同样,可以将数据挖掘技术与国家教育项目相结合,对项目中的各类数据信息进行挖掘分析,提取隐藏的数据信息,为项目开发部门提供决策依据,进一步提高项目的科学性和高效性。  本文结合自身参与教育部指定的关于城市集群竞争力项目的实践经验,分析数据挖掘技术在国家教育项目中应用的可行性,并以此为例,采用JAVA语言编写实现KNN算法。目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  在项目实施方案中,以城市集群的数据为基础,完成数据挖掘的全过程:确定数据挖掘的对象和目标、数据清理和预处理,对某个指标缺失的数据引入神经网络方法进行预测填补,对缺失较多的数据引入对比和类比的方法进行预测填补,采用KNN算法实现数据分类,形成指标体系。利用数据挖掘的结果,通过对指标数据的分析,预测决定城市集群竞争力的主要因素,从而为今后城市集群的发展方向和职能定位提供参考,为城镇体系的总体发展指明方向,为提高我国城市集群整体经济实力和综合竞争力提供一些有益的建议和对策,促进成熟集群向一体化方向发展,同时也可以为国内其他城市集群的发展提供给一些有益的参考。  【关键词】数据挖掘KNN算法数据分类JAVA城市集群竞争力  目录  摘要................................................................1  目录................................................................2  第一章绪论.......................................................3  研究背景和研究意义..............................................3  第二章数据挖掘技术的研究...........................................4  数据挖掘的功能...........................................4  数据挖掘的对象...........................................6目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  数据挖掘的过程...........................................7  数据挖掘算法.............................................9  第三章KNN算法介绍与实现..........................................10  KNN算法介绍.............................................10  KNN算法的JAVA实现.......................................12  第四章总结........................................................17  第一章绪论  研究背景和研究意义  1、研究背景  随着信息社会的发展,计算机技术和数据库管理系统的应用,产生了大量的数据信息,数据库存储的数据量也在日益增长。但对于此数据却是“数据丰富,信息贫乏",人们迫切需要从此类数据中获取信息,即将此类数据转换成有用的信息和知识,并且被广泛应用于事物管理、信息检索和数据分析中。这种需求导致了对数据分析工具的需求扩大,数据挖掘技术就是在此信息技术发展下产生的。目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。  数据挖掘涉及多学科技术的集成,包括数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理和空间数据分析等。  数据挖掘技术在商业等赢利性领域中已经取得了广泛的应用。但在高校、政府等非赢利组织的应用并不广泛。结合自身参与项目的经验,利用数据挖掘技术快速而又准确的从浩瀚的数据资源中提取出所需信息,从而在实际应用中将管理信息转化为可供决策使用的知识,这不仅具有理论价值,更具有极大的现实意义。  2、研究意义  本文利用数据挖掘的结果,通过对指标数据的分析,预测决定城市集群竞争力的主要因素,从而为今后城市集群的发展方向和职能定位提供参考,为城镇体系的总体发展指明方向,为提高我国城市集群整体经济实力和综合竞争力提供一些有益的建议和对策,促进成熟集群向一体化方向发展,同时也可以为国内其他城市集群的发展提供给一些有益的参考。  第二章数据挖掘技术的研究  数据挖掘的功能目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  数据挖掘的功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般分为两类:描述和预测。描述性挖掘任务记录数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断以及预测。  数据挖掘功能以及他们可以发现的模式类型为:  一、概念描述  数据可以与类或概念相关联,用汇总的、简洁的、精确的方式描述每个类或概念,概念描述就是产生数据特征化和比较的描述。  数据特征化是目标类数据的一般特征或特性的汇总。通常,用户指定类的数据通过数据库查询收集。数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述也可以用概化关系或规则形式。  数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。目标类和对比类由用户指定,而对应的数据通过数据库查询检索。输出的形式类似于特征描述,但区分描述应当包括比较度量,帮助区分目标类和对比类。用规则表示的区分描述成为区分规则。  二、关联分析目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。即两个或两个以上数据项的取值之间存在某种规律性,就称为关联,可以建立起这些数据项的关联规则。关联分析广泛用于购物篮或事务数据分析。包含单个谓词的关联规则称作单维关联规则。在多个属性或谓词之间的关联,采用多维数据库,每个属性称为一维,则此规则称作多维关联规则。  数据关联是数据库中存在的一类重要的、可被发现的知识,它反映一个事件和其他事件之间依赖或关联。如果两项或多项属性之问存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。在大型数据库中,关联规则可以产生很多,这就需要进行筛选。一般用“支持度"和“可信度"两个阈值来淘汰  那些无用的关联规则。  三、分类和预测  分类是指找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类是数据挖掘中应用得最多的任务。分类就是找出一个类别的概念描述,并用这种描述来构造模型。可采用多种形式如分类规则、判定树、数学公式或神经网络。等导出模型对训练数据集(即其类标记已知的数据对象)的分析。目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  分类可以用来预测数据对象的类标记。然而,在某些应用中,人们可能希望预测某些空缺的或不知道的数据值,而不是类标记。当被预测的值是数值数据时,通常称之为预测。预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。  典型的预测方法是回归分析,即利用大量的历史数据,以时间为变量建立线性或非线性回归方程。预测时,只要输入任意的时间值,通过回归方程就可求出该时间的状态。尽管预测可以涉及数据值预测和类标记预测,通常预测限于值预测,并因此不同于分类。预测也包含基于可用数据的分布趋势识别。在分类和预测之前可能需要进行相关分析,它试图识别对于分类和预测无用的属性并排除。  四、聚类分析  与分类和预测不同,聚类(clustering)分析数据对象,而不考虑已知的类标记。一般情况下,训练数据中不提供类标记,因为不知道从何开始。聚类,可以用于产生这种标记。对象根据最大化类内的相似性、最小化类问的相似性的原则进行聚类或分组。即对象的簇(聚类)这样形成,使得在一个簇中的对象具有很高的相似性,‘而与其他簇中的对象很不相似。所形成的每个簇可以看作一个对象类,由它可以导出规则。聚类也便于分类编制,将观察到的内容组织成类分层结构,把类似的事件组织在一起。  五、异常分析目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。 为了适应公司新战略的发展,保障停车场安保新项目的正常、顺利开展,特制定安保从业人员的业务技能及个人素质的培训计划  数据中可能包含一些数据对象,他们与数据的一般行为或模型不一致,这些数据对象是异常的,大部分数据挖掘方法将异常数据视为噪声而丢弃,异常分析就是探测和分析那些不符合数据的一般模型的数据对象,并对其建模。然而,在目的-通过该培训员工可对保安行业有初步了解,并感受到安保行业的发展的巨大潜力,可提升其的专业水平,并确保其在这个行业的安全感。'