收拾一份详细的数据预处理办法_火狐体育nba直播|火狐体育官方代理|火狐体育平台网页登录

火狐体育平台网页登录

news information

当前位置：

首页 >> 新闻资讯 >> 火狐体育官方代理 >> 收拾一份详细的数据预处理办法

收拾一份详细的数据预处理办法

来源:火狐体育nba直播 | 作者：火狐体育nba直播 | 发布时间：2022-03-03 17:06:21 | 181 次浏览： | 分享到:

　　了解数据发掘和机器学习的小伙伴们都知道，数据处理相关的工作时间占有了整个项目的70%以上。数据的质量，直接决议了模型的猜测和泛化才能的好坏。它触及许多要素，包括：准确性、完整性、共同性、时效性、可信性和解释性。而在实在数据中，咱们拿到的数据或许包括了许多的缺失值，或许包括许多的噪音，也或许因为人工录入过错导致有反常点存在，十分不利于算法模型的练习。数据清洗的成果是对各种脏数据进行对应办法的处理，得到规范的、洁净的、接连的数据，提供给数据核算、数据发掘等运用。

　　数据预处理的首要过程分为：数据整理、数据集成、数据规约和数据改换。本文将从这四个方面详细的介绍详细的办法。假如在一个项目中，你在这几个方面的数据处理做的都很不错，关于之后的建模具有极大的协助，而且能快速到达一个还不错的成果。

　　数据整理(data cleaning) 的首要思维是经过添补缺失值、润滑噪声数据，滑润或删去离群点，并处理数据的不共同性来“整理“数据。假如用户以为数据时杂乱的，他们不太会信任依据这些数据的发掘成果，即输出的成果是不可靠的。

　　因为实际国际中，获取信息和数据的过程中，会存在各类的原因导致数据丢失和空缺。针对这些缺失值的处理办法，首要是依据变量的散布特性和变量的重要性（信息量和猜测才能）选用不同的办法。首要分为以下几种：

　　：若缺失率较低（小于95%）且重要性较低，则依据数据散布的状况进行填充。关于数据契合均匀散布，用该变量的均值添补缺失，关于数据存在歪斜散布的状况，选用中位数进行添补。

　　：若变量是离散型，且不同值较少，可转换成哑变量，例如性别SEX变量，存在male,fameal,NA三个不同的值，可将该列转换成 IS_SEX_MALE, IS_SEX_

　　FEMALE, IS_SEX_NA。若某个变量存在十几个不同的值，可依据每个值的频数，将频数较小的值归为一类other，下降维度。

　　总结来看，楼主常用的做法是：先用pandas.isnull.sum()检测出变量的缺失份额，考虑删去或许填充，若需求填充的变量是接连型，一般选用均值法和随机差值进行填充，若变量是离散型，一般选用中位数或哑变量进行填充。

　　反常值是数据散布的常态，处于特定散布区域或规模之外的数据一般被界说为反常或噪声。反常分为两种：“伪反常”，因为特定的事务运营动作发生，是正常反响事务的状况，而不是数据自身的反常；“真反常”，不是因为特定的事务运营动作发生，而是数据自身散布反常，即离群点。首要有以下检测离群点的办法：

　　：依据箱线图、各分位点判别是否存在反常，例如pandas的describe函数能够快速发现反常值。

　　：这是一种稳健对立离群数据的间隔值办法，选用核算各观测值与平均值的间隔总和的办法。扩大了离群值的影响。

　　依据间隔：经过界说方针之间的挨近性衡量，依据间隔判别反常方针是否远离其他方针，缺陷是核算杂乱度较高，不适用于大数据集和存在不同密度区域的数据集

　　总结来看，在数据处理阶段将离群点作为影响数据质量的反常点考虑，而不是作为一般所说的反常检测方针点，因此楼主一般选用较为简略直观的办法，结合箱线图和MAD的核算办法判别变量的离群点。

　　数据剖析使命八成触及数据集成。数据集成将多个数据源中的数据结组成、存放在一个共同的数据存储，如数据仓库中。这些源或许包括多个数据库、数据方或一般文件。

　　指的是同一实体?一般，数据库和数据仓库有元数据——关于数据的数据。这种元数据能够协助防止形式集成中的过错。

　　冗余问题。一个特点是冗余的，假如它能由另一个表“导出”;如年薪。特点或维命名的不共同也或许导致数据会集的冗余。用相关性检测冗余：数值型变量可核算相关系数矩阵，标称型变量可核算卡方查验。

　　数据归约技能能够用来得到数据集的归约表明，它小得多，但仍挨近地坚持原数据的完整性。这样，在归约后的数据集上发掘将更有用，并发生相同(或简直相同)的剖析成果。一般有如下战略：

　　用于数据剖析的数据或许包括数以百计的特点，其间大部分特点与发掘使命不相关，是冗余的。维度归约经过删去不相关的特点，来削减数据量，并确保信息的丢失最小。

　　特点子集挑选：方针是找出最小特点集，使得数据类的概率散布尽或许地挨近运用一切特点的原散布。在紧缩的特点集上发掘还有其它的长处。它削减了呈现在发现形式上的特点的数目，使得形式更易于了解。

　　单变量重要性：剖析单变量和方针变量的相关性，删去猜测才能较低的变量。这种办法不同于特点子集挑选，一般从核算学和信息的视点去剖析。

　　以上说到的办法，没有解说详细的理论知识和完结办法，需求同学们自己去了解把握。楼主一般的做法是依据事务需求来定，假如依据事务的用户或产品特征，需求较多的解释性，考虑选用核算上的一些办法，如变量的散布曲线，直方图等，再核算相关性目标，最后去考虑一些模型办法。假如建模需求，则一般选用模型办法去挑选特征，假如用一些更为杂乱的GBDT，DNN等模型，主张不做特征挑选，而做特征穿插。

　　维度改换是将现有数据下降到更小的维度，尽量确保数据信息的完整性。楼主将介绍常用的几种有丢失的维度改换办法，将大大地进步实践中建模的功率

　　主成分剖析（PCA）和因子剖析（FA）：PCA经过空间映射的办法，将当时维度映射到更低的维度，使得每个变量在新空间的方差最大。FA则是找到当时特征向量的公因子（维度更小），用公因子的线性组合来描绘当时的特征向量。

　　奇异值分解（SVD）：SVD的降维可解释性较低，且核算量比PCA大，一般用在稀少矩阵上降维，例如图片紧缩，引荐体系。

　　线性组合：将多个变量做线性回归，依据每个变量的表决系数，赋予变量权重，可将该类变量依据权重组组成一个变量。

　　2、离散化处理：数据离散化是指将接连的数据进行分段，使其变为一段段离散化的区间。分段的准则有依据等间隔、等频率或优化的办法。数据离散化的原因首要有以下几点：

　　等频法：使得每个箱中的样本数量持平，例如总样本n=100，分红k=5个箱，则分箱准则是确保落入每个箱的样本量=20。

　　3、稀少化处理：针对离散型且标称变量，无法进行有序的LabelEncoder时，一般考虑将变量做0，1哑变量的稀少化处理，例如动物类型变量中含有猫，狗，猪，羊四个不同值，将该变量转换成is_猪，is_猫，is_狗，is_羊四个哑变量。若是变量的不同值较多，则依据频数，将呈现次数较少的值一致归为一类rare。稀少化处理既有利于模型快速收敛，又能提高模型的抗噪才能。

　　以上介绍了数据预处理中会用到的大部分办法和技能，彻底适用于初学者学习把握，而且关于实践建模会有大幅度提高。以上办法的代码完结，均可在python的pandas和sklearn中完结。我们可依据需求去查阅学习，网上材料也许多，楼主只提供办法和经历上的学习，期望每个认真学习稳固的同学都能得到提高。

上一篇：我国大学MOOC 地舆信息系统（GIS）试验第六期课程行将开课！下一篇：处理数据的办法有哪些

新闻资讯

关于我们

关注浩鲸

联系我们丨法律声明丨竞标系统丨Cookies政策

产品与解决方案

成功案例

联系我们