火狐体育平台网页登录
news information
EN
当前位置:
处理数据的办法有哪些
来源:火狐体育nba直播 | 作者:火狐体育nba直播 | 发布时间 :2022-03-03 17:06:30 | 168 次浏览: | 分享到:

  粗糙集理论是一种研讨不精确、不确定性常识的数学东西。现在受到了KDD的广泛注重,运用粗糙集理论对数据进行处理是一种非常有用的精简数据维数的办法。咱们所处理的数据一般存在信息的迷糊性(Vagueness)问题。迷糊性有三种:术语的含糊性,如高矮;数据的不确定性,如噪声引起的;常识本身的不确定性,如规矩的前后件间的依靠联系并不是彻底牢靠的。在KDD中,对不确定数据和噪声搅扰的处理是粗糙集办法。

  在数据库中,许多特点都是能够进行数据归类,各特点值和概念依据笼统程度不同能够构成一个层次结构,概念的这种层次结构一般称为概念树。概念树一般由领域专家供给,它将各个层次的概念按一般到特别的顺序排列。

  一般的依据面向特点概括办法在概括特点的挑选上有必定的盲目性,在概括过程中,当供挑选的可概括特点有多个时,一般是随机选取一个进行概括。事实上,不同的特点概括次第取得的成果常识可能是不同的,依据信息论最大墒的概念,应该选用一个信息丢掉最小的概括次第。

  咱们能够选用统计剖析中的一些算法来进行特征特点的选取,比方主成分剖析、逐步回归剖析、公共要素模型剖析等。这些办法的一起特征是,用少数的特征元组去描绘高维的原始常识基。

  遗传算法是一种依据生物进化论和分子遗传学的大局随机搜索算法。遗传算法的基本思想是:将问题的可能解按某种方式进行编码,构成染色体。随机选取N个染色体构成初始种群。再依据预订的点评函数对每个染色体核算习惯值。挑选习惯值高的染色体进行仿制,经过遗传运算(挑选、穿插、变异)来发生一群新的更习惯环境的染色体,构成新的种群。这样一代一代不断繁衍进化,最终收敛到一个最适合环境的个别上,然后求得问题的最优解。遗传算法运用的关键是习惯度函数的树立和染色体的描绘。在实践运用中,一般将它和神经网络办法归纳运用。经过遗传算法来搜寻出更重要的变量组合。

上一篇:收拾一份详细的数据预处理办法 下一篇:数据处理的过程有哪些