软计算方法在数据挖掘中的应用--控制网



软计算方法在数据挖掘中的应用
企业:控制网 日期:2005-07-20
领域: 点击数:954



    1 引言

    数字革命已使数字化信息更容易获得和储存。随着计算机软硬件的发展和大量的商务活动,海量数据被收集在数据库中,这样的数据迅猛增加,导致传统的统计技术和数据管理工具不足以分析这些海量数据。因为在许多领域,数据分析往往是一个人工过程。一名或多名分析师应对数据非常熟悉,并通过运行统计软件提供出总结报告。实际上,分析师充当的是电脑处理程序,然而,在数据规模和维数不断增加时,此种软件程序将很快崩溃。数据和维数分别为十亿和千位的数据库会很普通,当操作、探究和推测所需数据的规模超出人们的能力时,人们需依靠计算机自动操作技术。要实现这种技术,急需一种能够智能地、自动地把数据转换成有用信息和知识的技术和工具。数据挖掘是一个多学科交叉,并能从海量的、潜在的、隐含的、事先未知的数据中,提取人们感兴趣的有用信息和知识的过程。提取的知识表示为概念、规则、规律、模式、可视化等。它利用自动化工具及成熟算法从海量数据中发现隐藏的模型和结构。数据挖掘结果被描述出来,如发现能描述数据的令人感兴趣的模型,基于有用数据预测模型行为等。软计算是方法论的集合,这些方法集互相协作,并以一种形式或其它某种形式为现实中的模糊情况提供灵活信息处理功能[1]。它的目的是为了获得易处理的、粗糙的、低成本的解决方法而对不确定的数据进行处理。遵从的原则是以追求近似解决模糊/精确问题,并低成本地设计解决方案。软计算方法主要包括模糊集、遗传算法、神经网络、粗糙集等,已经广泛应用于数据挖掘中。模糊集是对处理不确定性概念及其推理机制的过程,神经网络和粗糙集常被用来分类,遗传算法包括最优解和搜索过程,像问题最优解和样本选择。其它方法还有决策树,也广泛用于数据挖掘领域。本文对主要软计算方法做了系统性的阐述,并着重强调了不同软计算方法在数据挖掘中的应用情况。

    2 数据挖掘技术

    数据挖掘被认为是一种有效的、新颖的、用途广阔的,并最终能理解数据模型的过程。正确高效的实施数据挖掘是从这些海量的、以不同形式存储的数据资料中发现有价值的信息或关键知识,从而确保人们获得所需要的信息和规律,以制定解决方案。

    (1)数据清理:消除噪声或不一致的数据。

    (2)数据集成:多种数据源可以组合在一起。

    (3)数据选择:从数据库中检索与分析任务相关的数据。

    (4)数据变换:数据变换或统一成适合挖掘的形式。

    (5)数据挖掘:使用智能方法提取数据模式。

    (6)模式评估:根据某种兴趣度度量,识别表示知识的价值的模式。

    (7)知识表示:使用可视化和知识表示技术,展现挖掘的知识或信息。


    能挖掘到最好的模型与高效的挖掘数据规模是不可分的。多数原因在于扩大数据范围,常常也会提高分类的准确度,在大多数情况下,当数据规模小、有噪声、特征多时准确率就会降低;再有,大数据集的出现暗示着算法也在不断的发展。大数据集也会预示时间和空间的复杂程度;最后,挖掘的效果不一定完全取决于算法。

    3 数据挖掘中的软计算方法

    目前,已有多种软计算方法被用来处理数据挖掘所面临的挑战。软计算方法主要包括模糊逻辑、神经网络、遗传算法和粗糙集等。这些方法各具优势,与传统技术相比,它能使系统更加智能化,让人理解性更强,且成本更低。

    3.1 模糊逻辑软计算方法

    模糊逻辑是最早、应用最广泛的软计算方法,模糊逻辑的发展导致了软计算方法的出现,模糊集技术在数据挖掘领域占有重要地位,多数数据浏览方式都是通过模糊集理论来完成。数据挖掘中的数据分析经常同时分析不同种数据,即符号数据和数字数据。Pedrycz[2]讨论了一些结构化和模糊化的知识发现,确定了数据挖掘和模糊模型间的联系。随着技术的发展,模糊集被认为是数据挖掘的另一种不同功能方法:

    聚类:数据挖掘就是从海量数据中,挖掘出用户感兴趣的知识。模糊集有很强的搜索能力,尤其是数据中的语气词汇,它对发现的结构感兴趣,这会帮助发现定性/半定性数据的依赖度。在数据挖掘中,它对发现的结构感兴趣,这会帮助阻止搜到无用和微不足道的知识。研究者为此发展了模糊聚类算法。Russell和Lodwick[3]在挖掘通讯市场领域时探索出了模糊聚类。在数据挖掘中取得有用信息是重要的,因为有太多的属性要考虑,多数无指导的数据挖掘方法,首先是通过兴趣度来取得有用信息的。Mazlack[4]建议消减与要求不协调的属性来缩减数据集。软方法用来处理不准确的数据时,它通过消减与要求不协调的属性来更好地发现有用的信息,任务就是通过去除无兴趣属性来找到有凝聚性和可理解性的知识,不活跃的值通过所要求的粒度来处理。

    协作规则:数据挖掘重要的一点是协作规则的发现,协作规则描述了不同属性间的相互关系。布尔协作包括二元属性,普通协作包括最重要的属性,与量有关的协作包括能呈现量值或定值的属性。模糊技术的应用已经成为数据挖掘系统关键组成部分之一。Wei 和Chen[5]用模糊分类开拓了普通协作规则,模糊分类用非周期性曲线来表示。当计算支持度和置信度时,项目属于哪类需进行考虑。Au 和Chan[6]利用关系数据库中观测和期望模糊协作属性间的差距来进行调整,基于词语来表示发现的规则和期望,而不是把与量有关的属性分成几段,并不需设置阈值,量值能直接从规则中提取;语言表达法能发现更自然和人性化的规则;算法能发现肯定的和否定的规则,也能处理缺失的值,但模糊技术的使用隐藏了数字量的间隔,会引起噪声的复原。此算法己应用到PBX数据库系统和工业企业的数据库。

    功能依赖度:模糊逻辑在关系数据库中通过功能依赖度来进行分析,模糊推论概括了不准确和准确的推论。相似的、模糊的关系数据库概括了那些支持模糊信息存储和恢复,既优秀和不确切的部分。推论分析常常应用在不确切的、模糊的关系数据库上,这增加了其在应用领域的范围,它包括数据挖掘和数据库安全系统。自从功能依赖度可用紧密的格式来表达关于实时领域属性的数据库时,它就成为数据挖掘的用武之地。这些属性能在许多领域应用,如工业和咨询最优化。

    数据概化:概化发现是数据挖掘重要部分之一。它用可理解的信息来表达数据库中最重要的部分,并提供给用户。

    大数据集的语言概化通过有效的程度来获得,参考的标准内容在挖掘任务中。系统由概述、一致性程度真实和有效性组成。已经发现的最有兴趣的语言概化并不琐碎,却很人性化。实际上,它并不能自动地进行概化,需要人的操作。Kacprzyk和Zadrozny[7]发展了功能依赖度,语言概化使用了自然和可理解性的词汇,它支持模糊元素,包括属性间模糊的、重要的相互作用。首先,用户必须制定概化兴趣度,然后系统从数据库中获得记录,并计算每个概化的有效性,最后,选择最适合的语言概化。此方法通过网络浏览器已用在因特网上。模糊值、模糊联系和语言量都通过JAVA来定义。

    Chiang[8]在挖掘时间序列数据时使用了模糊语言概化。在显示工具中,系统提供用户预挖掘的数据库,并决定什么样的知识能被挖掘。模型被用来预测包括CPU和存储单元在内的不同资源。

    3.2 神经网络软计算方法

    因为神经网络的黑箱问题,它先前被认为不适合应用于数据挖掘,且在符号格式中,它并不能获得有用信息,但却适合进行解释。近年来,挖掘训练过的网络中的嵌入知识,已广泛地应用于数据挖掘中。它对属性或逐个或合并地进行判别,这对于决策或分类是非常重要的。它对数据挖掘的贡献是在规则提取和自组织性上。

    规则提取:一般来说,规则提取算法首要的输入连接是训练过的神经网络与数据集节点的连接。一个或多个隐藏的输出单元会自动地获得规则,合并后可得到更多可理解的规则集,这些规则也能应用在新领域。神经网络应用主要在并行和数据搜索最优解方面。在网络训练达到准确率要求后,修剪网络节点,分析网络隐藏单元的价值,最进行分类,此模式适合于有海量数据领域。

    自组织性:数据挖掘最大挑战之一是组织性和档案文件的取得。Kohonen[9]论证了利用有一百多万个节点的自组织映射来划分近七百万份500维特征向量的抽象文件。

    回归:神经网络也用在变量分类和回归任务上。Lee和 Liu[10]利用神经网络分类精度高、鲁棒性强等优点,做出关于热带龙卷风轨迹的模型。

    3.3 神经-模糊软计算方法

    神经-模糊计算结合了神经网络和模糊两种方法,建立了更强的智能决策系统,它把神经网络的优点,如并行性、鲁棒性和学习性融入系统中,而模型中不确定、模糊的知识可以利用模糊逻辑来解决。

    神经网络被用来提取更多的自然规则,模糊多层感知器MLP[11]和模糊Kohonen网络[12]就使用语言规则概括和推论,除了在数量、语言、集合形式以外,输入也可能是不完全的,输入向量用语言形式分成低、中和高,用来相应每个输入特征。模型能够基于完整的或部分信息进行推论,为用户找到那些能进行决策的关键的未知输入量,用IF THEN语句来进行表达。

    在执行中,训练网络中的节点和物体间的连接是必须的。挖掘规则的标准对输出决策是有影响的。Zhang[13]设计了一种粒度神经网络来处理数字量数据库中的粒度知识。网络能学习输入和输出间的粒度联系,并预测新的联系。低水平的粒度数据能浓缩成高水平的知识。基于网络的神经模糊知识能概括肯定的和否定的规则并验证是否能达到决策。当从数据集中提取领域知识时,分类信息和模式的分配都要被考虑进去,模糊间隔和语言集也被使用。网络知识的提取需使用生长或剪枝技术。基于网络的知识得到的越早,得出的规则也就更丰富。

    3.4 遗传算法

    遗传算法是可调节的、鲁棒的、有效率的搜索方法,它适应于搜索大空间集。它相对数据挖掘的标准来优化功能,并达到搜索最优解的目的。从给定目标集中挖掘目的信息的MASSON系统已受到欢迎,而从目标集中找到普遍存在的特征却是一个问题。遗传程序被用来进行交叉、变异和选择。遗传算法也可用在多媒体数据库中对复杂的数据分类及自动地挖掘多媒体数据。

    遗传算法具有计算简单,优化效果好的特点,它在处理组合优化问题方面有一定的优势,可用于聚类分析等。遗传算法作为一种有效的全局搜索方法,从产生至今不断扩展应用领域,同时应用实践又促进了遗传算法的发展和完善。Nada[14]利用遗传算法来发现有用规则,不同的规则能预测不同的目标属性。具有高信息增益的属性分类是好的,当考虑属性的相互作用时,具有低信息增益的属性的相互联系能更加紧密,这个现象与规则兴趣度有关,换句话说,目标属性的值越小,预测规则的兴趣度越大。Nada试图发现的是一些有兴趣的规则,而不是大量精确的规则。

    3.5 粗糙集软计算方法

    粗糙集理论由波兰逻辑学家Pawlak教授在20世纪80年代提出,是一种处理含糊和不确定问题的新型数学工具,其出发点是根据目前已有的对给定问题的知识将问题的论域进行划分,然后对划分的每一部分确定其对某一概念的支持程度:即肯定支持此概念,肯定不支持此概念和可能支持此概念,并分别用三个近似集合来表示为正域、负域和边界。它能有效地分析不精确、不一致、不完整等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识和潜在的规律。同时,粗糙集理论在处理大数据量,消除冗余信息等方面有着良好的效果,因此广泛应用于数据挖掘的数据预处理、规则生成等方面[15]。但是,由于粗糙集理论存在对错误描述的确定性机制过于简单,而且在约简的过程中缺乏交互验证功能,因此,在数据存在噪声时,其结果往往不稳定,精度也不高。针对粗糙集理论应用于数据挖掘时存在的问题,文献[16]提出了一种融合粗糙集理论和神经网络的数据挖掘新方法,应用于大型数据库的分类规则挖掘。其主要思想是首先由粗糙集理论对数据库进行初步约简,然后借助于神经网络在自学习过程中完成对数据库的进一步属性约简,并过滤数据中的噪声数据,最后由粗糙集理论对约简后的数据库进行规则抽取,得到最终的挖掘知识。

    3.6 混合方法

    Banerjee[17]利用粗糙集、神经网络和模糊逻辑相结合的方法设计了数据挖掘系统,其中用粗糙集方法在决策表中进行约简。而用模糊集方法挖掘出未经加工的知识,最后由神经网络根据依赖度进行取舍。George和Srikanth[18]应用了模糊与遗传算法相结合的方法,其中遗传算法用来决定选取最适当的数据。Kiem和Phul[19]用粗糙集、神经网络和遗传算法相结合的方法来对大数据库进行聚类。研究表明,混合式数据挖掘方法具有更好的特性。

    4 结论

    数据挖掘是一个年轻而又活跃的研究领域,目前面临的问题是缺少对基础理论和应用技术方面的研究。数据挖掘中经常遇到的技术难题有:大量的数据集及其高维:巨大数据集为挖掘出模型提供了空间,但也增加了数据挖掘算法挖掘到无效模型的几率;评估统计的重要性:挖掘的数据一般是巨大的且对分配资源是有效的,所以规划和调查对于模型设计是非常重要的;理解模型:发现人类所不能理解的模型是很重要的,解决方法是规则结构化、数据和知识可视化等。随着数据挖掘理论研究的不断深入,数据挖掘的工程应用领域将会更加广泛。

    参考文献

    1.L. A. Zadeh. Fuzzy logic, neural networks, and soft computing, Commun. ACM, Vol. 37, pp. 77-84, 1999.

    2. W. Pedrycz, Fuzzy set technology in knowledge discovery, Fuzzy Sets Syst, Vol. 98, pp. 279-290, 2001.

    3. W. Pedrycx, Conditional fuzzy c-means, Pattern Recognition Lett. Vol. 17, pp. 625-632, 2000.

    4. L. J. Mazlack, Softly focusing on data, in Proc. NAFIPS99, New York, June 1999, pp. 700-704.

    5. Q. Wei and G. Chen, Mining generalized association rules with fuzzy taxonomic structures, in Proc.
NAFIPS99, New York, June 1999, pp. 477-481.

    6. Au and Chan, An effective algorithm for discovering fuzzy rules in relational databases, in Proc. IEEE Int. Conf. Fuzzy Syst. FUZZ IEEE 98, pp.1314-1319, May 1998.

    7. J. Kacprzyk and S. Zadrozny, Data mining via linguistic summaries of data: An interactive approach, in Proc IIZUKA 99, Fukuoka, Japan, Oct. 1999, pp. 668-671. 

    8. D. A. Chiang, L. R. Chow, and Y. E.Wang, Mining time series data by a fuzzy linguistic summary system, Fuzzy Sets Syst. Vol. 112, pp. 419-432, 2002.

    9. T. Kohonen, S. Kaski, etal, Self organization of a massive document clkkection, IEEE Trans. Naural Networks, Vol. 11, pp. 574-585, 2002.

    10. V. Ciesielski and G. Palstra, Using a hybrid neural/expert system for database mining in market survey data, in Proc. Second International Conference on Knowledge Discovery and Data mining. Portland, Aug. 2-4, 1996.

    11. S. Mitra and S. Pal, Fuzzy multi-layer perceptron, inferencing and rule generation, IEEE Trans. Neural Networks, Vol. 6, pp. 51-63, 1999.

    12. S. Mitra and S. Pal, Fuzzy self organization, inferencing and rule generation, IEEE Trans. Syst. Man. Cybern. A , Vol. 2, pp. 608-620, 2000.

    13. Y. Zhang and A. Kandel, Granular neural networks for numerical-linguistic data fusion and knowledge discovery, IEEE Trans. Neural Networks, Vol. 11, pp. 658-667, 2002.

    14. E. Noda and H. Lopes, Discovering interesting prediction rules with a genetic algorithm, Proc. IEEE Cong. Evolutionary Comput. pp. 1332-1329, 2001.

    15. 韩中华,吴成东,刘海涛,数据挖掘技术研究进展,工控智能化,2003(10), pp. 18-23.

    16. 李仁璞,基于粗集理论和神经网络结合的数据挖掘新方法,情报学报,2002(12), pp. 674-679.

    17. M. Banerjee and K. Pal, Rough fuzzy MLP: knowledge encoding and classification, IEEE Trans. Neural Networks, Vol. 9, pp. 1203-1216, 2000.

    18. R. George and R. Srikanth, Data summarization using genetic algorithms and fuzzy logic, in Genetic Algorithms and Soft Computing, Eds. Heidelberg, Germany: Physicaverlag, 1999, pp. 599-611.

    19. H. Kiem and D. Phuc, Using rough genetic and Kohonen's neual network for conceptual cluster discovery in data mining, in Proc.RSFDGRC99, Yamaguchi, Japan, Nov. 1999, pp. 448-452.

  • 在线反馈
1.我有以下需求:



2.详细的需求:
姓名:
单位:
电话:
邮件: