火狐体育平台网页登录
news information
EN
当前位置:
收拾一份详细的数据预处理办法
来源:火狐体育nba直播 | 作者:火狐体育nba直播 | 发布时间 :2022-03-03 17:06:21 | 181 次浏览: | 分享到:

  了解数据发掘和机器学习的小伙伴们都知道,数据处理相关的工作时间占有了整个项目的70%以上。数据的质量,直接决议了模型的猜测和泛化才能的好坏。它触及许多要素,包括:准确性、完整性、共同性、时效性、可信性和解释性。而在实在数据中,咱们拿到的数据或许包括了许多的缺失值,或许包括许多的噪音,也或许因为人工录入过错导致有反常点存在,十分不利于算法模型的练习。数据清洗的成果是对各种脏数据进行对应办法的处理,得到规范的、洁净的、接连的数据,提供给数据核算、数据发掘等运用。

  数据预处理的首要过程分为:数据整理、数据集成、数据规约和数据改换。本文将从这四个方面详细的介绍详细的办法。假如在一个项目中,你在这几个方面的数据处理做的都很不错,关于之后的建模具有极大的协助,而且能快速到达一个还不错的成果。

  数据整理(data cleaning) 的首要思维是经过添补缺失值、润滑噪声数据,滑润或删去离群点,并处理数据的不共同性来“整理“数据。假如用户以为数据时杂乱的,他们不太会信任依据这些数据的发掘成果,即输出的成果是不可靠的。

  因为实际国际中,获取信息和数据的过程中,会存在各类的原因导致数据丢失和空缺。针对这些缺失值的处理办法,首要是依据变量的散布特性和变量的重要性(信息量和猜测才能)选用不同的办法。首要分为以下几种:

  :若缺失率较低(小于95%)且重要性较低,则依据数据散布的状况进行填充。关于数据契合均匀散布,用该变量的均值添补缺失,关于数据存在歪斜散布的状况,选用中位数进行添补。

  :若变量是离散型,且不同值较少,可转换成哑变量,例如性别SEX变量,存在male,fameal,NA三个不同的值,可将该列转换成 IS_SEX_MALE, IS_SEX_

  FEMALE, IS_SEX_NA。若某个变量存在十几个不同的值,可依据每个值的频数,将频数较小的值归为一类other,下降维度。

  总结来看,楼主常用的做法是:先用pandas.isnull.sum()检测出变量的缺失份额,考虑删去或许填充,若需求填充的变量是接连型,一般选用均值法和随机差值进行填充,若变量是离散型,一般选用中位数或哑变量进行填充。

  反常值是数据散布的常态,处于特定散布区域或规模之外的数据一般被界说为反常或噪声。反常分为两种:“伪反常”,因为特定的事务运营动作发生,是正常反响事务的状况,而不是数据自身的反常;“真反常”,不是因为特定的事务运营动作发生,而是数据自身散布反常,即离群点。首要有以下检测离群点的办法:

  :依据箱线图、各分位点判别是否存在反常,例如pandas的describe函数能够快速发现反常值。

  :这是一种稳健对立离群数据的间隔值办法,选用核算各观测值与平均值的间隔总和的办法。扩大了离群值的影响。

  依据间隔:经过界说方针之间的挨近性衡量,依据间隔判别反常方针是否远离其他方针,缺陷是核算杂乱度较高,不适用于大数据集和存在不同密度区域的数据集

  总结来看,在数据处理阶段将离群点作为影响数据质量的反常点考虑,而不是作为一般所说的反常检测方针点,因此楼主一般选用较为简略直观的办法,结合箱线图和MAD的核算办法判别变量的离群点。

  数据剖析使命八成触及数据集成。数据集成将多个数据源中的数据结组成、存放在一个共同的数据存储,如数据仓库中。这些源或许包括多个数据库、数据方或一般文件。

  指的是同一实体?一般,数据库和数据仓库 有元数据——关于数据的数据。这种元数据能够协助防止形式集成中的过错。

  冗余问题。一个特点是冗余的,假如它能由另一个表“导出”;如年薪。特点或 维命名的不共同也或许导致数据会集的冗余。 用相关性检测冗余:数值型变量可核算相关系数矩阵,标称型变量可核算卡方查验。

  数据归约技能能够用来得到数据集的归约表明,它小得多,但仍挨近地坚持原数据的完整性。 这样,在归约后的数据集上发掘将更有用,并发生相同(或简直相同)的剖析成果。一般有如下战略:

  用于数据剖析的数据或许包括数以百计的特点,其间大部分特点与发掘使命不相关,是冗余的。维度归约经过删去不相关的特点,来削减数据量,并确保信息的丢失最小。

  特点子集挑选:方针是找出最小特点集,使得数据类的概率散布尽或许地挨近运用一切特点的原散布。在紧缩 的特点集上发掘还有其它的长处。它削减了呈现在发现形式上的特点的数目,使得形式更易于了解。

  单变量重要性:剖析单变量和方针变量的相关性,删去猜测才能较低的变量。这种办法不同于特点子集挑选,一般从核算学和信息的视点去剖析。

  以上说到的办法,没有解说详细的理论知识和完结办法,需求同学们自己去了解把握。楼主一般的做法是依据事务需求来定,假如依据事务的用户或产品特征,需求较多的解释性,考虑选用核算上的一些办法,如变量的散布曲线,直方图等,再核算相关性目标,最后去考虑一些模型办法。假如建模需求,则一般选用模型办法去挑选特征,假如用一些更为杂乱的GBDT,DNN等模型,主张不做特征挑选,而做特征穿插。

  维度改换是将现有数据下降到更小的维度,尽量确保数据信息的完整性。楼主将介绍常用的几种有丢失的维度改换办法,将大大地进步实践中建模的功率

  主成分剖析(PCA)和因子剖析(FA):PCA经过空间映射的办法,将当时维度映射到更低的维度,使得每个变量在新空间的方差最大。FA则是找到当时特征向量的公因子(维度更小),用公因子的线性组合来描绘当时的特征向量。

  奇异值分解(SVD):SVD的降维可解释性较低,且核算量比PCA大,一般用在稀少矩阵上降维,例如图片紧缩,引荐体系。

  线性组合:将多个变量做线性回归,依据每个变量的表决系数,赋予变量权重,可将该类变量依据权重组组成一个变量。

  2、离散化处理:数据离散化是指将接连的数据进行分段,使其变为一段段离散化的区间。分段的准则有依据等间隔、等频率或优化的办法。数据离散化的原因首要有以下几点:

  等频法:使得每个箱中的样本数量持平,例如总样本n=100,分红k=5个箱,则分箱准则是确保落入每个箱的样本量=20。

  3、稀少化处理:针对离散型且标称变量,无法进行有序的LabelEncoder时,一般考虑将变量做0,1哑变量的稀少化处理,例如动物类型变量中含有猫,狗,猪,羊四个不同值,将该变量转换成is_猪,is_猫,is_狗,is_羊四个哑变量。若是变量的不同值较多,则依据频数,将呈现次数较少的值一致归为一类rare。稀少化处理既有利于模型快速收敛,又能提高模型的抗噪才能。

  以上介绍了数据预处理中会用到的大部分办法和技能,彻底适用于初学者学习把握,而且关于实践建模会有大幅度提高。以上办法的代码完结,均可在python的pandas和sklearn中完结。我们可依据需求去查阅学习,网上材料也许多,楼主只提供办法和经历上的学习,期望每个认真学习稳固的同学都能得到提高。

上一篇:我国大学MOOC 地舆信息系统(GIS)试验第六期课程行将开课! 下一篇:处理数据的办法有哪些