您的位置 主页 正文

数据清洗经验分享:什么是数据清洗,如何做好?

一、数据清洗经验分享:什么是数据清洗,如何做好? 在这个由物联网(IoT),社交媒体,边缘计算以及越来越多的计算能力(如量子计算)支持的数字时代,数据可能是任何企业最有价值的

一、数据清洗经验分享:什么是数据清洗,如何做好?

  在这个由物联网(IoT),社交媒体,边缘计算以及越来越多的计算能力(如量子计算)支持的数字时代,数据可能是任何企业最有价值的资产之一。正确(或不正确)的数据管理将对企业的成功产生巨大影响。换句话说,它可以成败一个企业。

  这就是原因,为了利用这些巨大的数据,无论大小,企业都在使用机器学习和深度学习等技术,以便他们可以建立有用的客户群,增加销售量并提高品牌忠诚度。

  但是在大多数情况下,由于具有许多收集源和各种格式(结构化和非结构化),数据可能是不准确,不一致和冗余的。

  通过向机器学习算法提供具有此类异常的数据,我们是否可以及时,全面地访问相关信息?

  不,当然不!首先需要清除此类数据。

  这就是数据清理的地方!

  数据清理是建立有效的机器学习模型的第一步,也是最重要的一步。至关重要!

  简而言之,如果尚未清理和预处理数据,则机器学习模型将无法正常工作。

  尽管我们经常认为数据科学家将大部分时间都花在修补ML算法和模型上,但实际情况有所不同。大多数数据科学家花费大约80%的时间来清理数据。

  为什么?由于ML中的一个简单事实,

  换句话说,如果您具有正确清理的数据集,则简单的算法甚至可以从数据中获得令人印象深刻的见解。

  我们将在本文中涉及与数据清理相关的一些重要问题:

  a.什么是数据清理?

  b.为什么需要它?

  c.数据清理有哪些常见步骤?

  d.与数据清理相关的挑战是什么?

  e.哪些公司提供数据清理服务?

  让我们一起开始旅程,了解数据清理!

  数据清洗到底是什么?

  数据清理,也称为数据清理,用于检测和纠正(或删除)记录集,表或数据库中的不准确或损坏的记录。广义上讲,数据清除或清除是指识别不正确,不完整,不相关,不准确或其他有问题(“脏”)的数据部分,然后替换,修改或删除该脏数据。

  通过有效的数据清理,所有数据集都应该没有任何在分析期间可能出现问题的错误。

  为什么需要数据清理?

  通常认为数据清理是无聊的部分。但这是一个有价值的过程,可以帮助企业节省时间并提高效率。

  这有点像准备长假。我们可能不喜欢准备部分,但我们可以提前收紧细节,以免遭受这一噩梦的困扰。

  我们只需要这样做,否则我们就无法开始玩乐。就这么简单!

  让我们来看一些由于“脏”数据而可能在各个领域出现的问题的示例:

  a.假设广告系列使用的是低质量的数据并以不相关的报价吸引用户,则该公司不仅会降低客户满意度,而且会错失大量销售机会。

  b.如果销售代表由于没有准确的数据而未能联系潜在客户,则可以了解对销售的影响。

  c.任何规模大小的在线企业都可能因不符合其客户的数据隐私规定而受到政府的严厉处罚。例如,Facebook因剑桥数据分析违规向联邦贸易委员会支付了50亿美元的罚款。

  d.向生产机器提供低质量的操作数据可能会给制造公司带来重大问题。

  数据清理涉及哪些常见步骤?

  每个人都进行数据清理,但没人真正谈论它。当然,这不是机器学习的“最奇妙”部分,是的,没有任何隐藏的技巧和秘密可以发现。

  尽管不同类型的数据将需要不同类型的清除,但是我们在此处列出的常见步骤始终可以作为一个良好的起点。

  因此,让我们清理数据中的混乱!

  删除不必要的观察

  数据清理的第一步是从我们的数据集中删除不需要的观测值。不需要的观察包括重复或不相关的观察。

  a.在数据收集过程中,最常见的是重复或多余的观察结果。例如,当我们组合多个地方的数据集或从客户端接收数据时,就会发生这种情况。随着数据的重复,这种观察会在很大程度上改变效率,并且可能会增加正确或不正确的一面,从而产生不忠实的结果。

  b.不相关的观察结果实际上与我们要解决的特定问题不符。例如,在手写数字识别领域,扫描错误(例如污迹或非数字字符)是无关紧要的观察结果。这样的观察结果是任何没有用的数据,可以直接删除。

  修复结构错误

  数据清理的下一步是修复数据集中的结构错误。

  结构错误是指在测量,数据传输或其他类似情况下出现的那些错误。这些错误通常包括:

  a.功能名称中的印刷错误(typos),

  b.具有不同名称的相同属性,

  c.贴错标签的类,即应该完全相同的单独的类,

  d.大小写不一致。

  例如,模型应将错字和大小写不一致(例如“印度”和“印度”)视为同一个类别,而不是两个不同的类别。与标签错误的类有关的一个示例是“不适用”和“不适用”。如果它们显示为两个单独的类,则应将它们组合在一起。

  这些结构错误使我们的模型效率低下,并给出质量较差的结果。

  过滤不需要的离群值

  数据清理的下一步是从数据集中过滤掉不需要的离群值。数据集包含离训练数据其余部分相距甚远的异常值。这样的异常值会给某些类型的ML模型带来更多问题。例如,线性回归ML模型的稳定性不如Random Forest ML模型强。

  但是,离群值在被证明有罪之前是无辜的,因此,我们应该有一个合理的理由删除一个离群值。有时,消除异常值可以提高模型性能,有时却不能。

  我们还可以使用离群值检测估计器,这些估计器总是尝试拟合训练数据最集中的区域,而忽略异常观察值。

  处理丢失的数据

  机器学习中看似棘手的问题之一是“缺少数据”。为了清楚起见,您不能简单地忽略数据集中的缺失值。出于非常实际的原因,您必须以某种方式处理丢失的数据,因为大多数应用的ML算法都不接受带有丢失值的数据集。

  让我们看一下两种最常用的处理丢失数据的方法。

  a.删除具有缺失值的观察值:

  这是次优方式,因为当我们丢弃观察值时,也会丢弃信息。原因是,缺失的值可能会提供参考,在现实世界中,即使某些功能缺失,我们也经常需要对新数据进行预测。

  b.根据过去或其他观察结果估算缺失值:

  这也是次优的方法,因为无论我们的估算方法多么复杂,原始值都会丢失,这总是会导致信息丢失。大数据分析机器学习AI入门指南https://www.aaa-cg.com.cn/data/2273.html由于缺少值可能会提供信息,因此应该告诉我们的算法是否缺少值。而且,如果我们推算我们的价值观,我们只是在加强其他功能已经提供的模式。

  简而言之,关键是告诉我们的算法最初是否缺少值。

  那么我们该怎么做呢?

  a.要处理分类特征的缺失数据,只需将其标记为“缺失”即可。通过这样做,我们实质上是添加了新的功能类别。

  b.要处理丢失的数字数据,请标记并填充值。通过这样做,我们实质上允许算法估计缺失的最佳常数,而不仅仅是用均值填充。

  与数据清理相关的主要挑战是什么?

  尽管数据清理对于任何组织的持续成功都是必不可少的,但它也面临着自己的挑战。一些主要挑战包括:

  a.对引起异常的原因了解有限。

  b.错误地删除数据会导致数据不完整,无法准确地“填写”。

  c.为了帮助提前完成该过程,构建数据清理图非常困难。

  d.对于任何正在进行的维护,数据清理过程既昂贵又费时。

https://www.toutiao.com/i6821025363057967624/

二、手机数据线如何清洗?

1、首先选择的是的洗洁剂。喷一喷,然后擦一擦,这种方法不建议使用,因为洗洁剂具有强腐蚀性,经常使用对线材会造成不可逆的损伤。

2、挤点牙膏,涂上耳机线,轻轻地擦几下,最后用水冲一冲或者拿湿毛巾擦一下就好了,这种方法可以偶尔使用,牙膏清洁是一种折中的方式,虽然依然有腐蚀性,但对于清理清洁剂来说还是靠谱很多。

3、先湿润一下化妆棉,反复擦拭几遍耳机线就好了,清洁效果好,可经常使用,化妆棉是一会再弄风险最低的清洁方式,只要耳塞不是太脏,大部分情况是可以应对的。

三、大空调如何清洗?

您所说的大空调是立式空调吗?

家用的立式空调的清洗方法步骤

清洗工具:空调清洗机、工具箱、蒸汽喷淋清洗机、喷壶、刮条、翅片梳、照明灯、铲刀、抹布、污水袋、安全带、工作指示牌

清洗药剂:空调专用清洁剂、万能泡沫清洁剂、外壳清洁剂、WD-40、纯净水

清洗步骤:

1、清洗前先检查空调是否正常运转,然后关掉电源。

2、清理空调表面的浮尘同时竖立工作指示牌。

3、按照说明书将空调的外壳及面板拆除,取出过滤网。

4、用5L喷壶湿润所要清洗部位以便于清洗时发泡效果更佳。

5、将空调清洗剂用喷壶喷洒在所清洗的翅片上,让其反应5~8分钟以便于彻底渗透、分解排除翅片缝隙中及表面的污渍。

6、用刮条刮净翅片表面的泡沫,有未清除的顽垢和变形的翅片可用翅片梳进行清理。

7、用蒸汽喷淋清洗机对清洗后的翅片进行高温杀菌、消毒、油渍的分解。

8、用空调清洗机将清洗过的散热片用清水过清。

9、清洗过滤网并装回面板。

10、将机壳和面板安装好将空调装回原安装位,并开机运行20分钟检查验收。

清洗过程中一定要注意以下事项:

1、在清洗前一定要确保空调电源已经关闭。以确保人身安全。

2、在清洗过程中如果需要用毛刷子将泡沫刷均匀的话,要将毛刷子顺着翅片的走向刷,以免刷坏翅片。

3、清洁过程中要注意地面清洁。

四、大鹅如何清洗?

大鹅可以通过涂抹羽绒服清洗剂来清洗,将羽绒服清洗剂均匀涂抹在污渍处,反复擦拭,待污渍清理以后用清水冲干净即可。大鹅羽绒服是来自加拿大知名的羽绒服品牌,成立于1957年,其产品线涵盖男装、女装、童装及手套、围巾配饰等。其羽绒服饰拥有出色的保暖性能和优良的做工剪裁,也是很多南极科考队的保暖装备。

五、大窗帘如何清洗?

窗帘过大盆放不下的话,我们可以将窗帘放在浴缸或者浴池地上冲洗,需要注意,如果是绒布或丝质的材质窗帘,最好是用手洗。

六、如何对采集到的数据进行数据清洗?

数据清洗是指对采集到的数据进行预处理,去除脏数据、重复数据、缺失数据、异常数据等,从而提高数据质量和准确性。数据清洗的步骤包括数据收集、数据预处理、数据转换、数据整合、数据标准化等。在数据清洗过程中,需要使用数据挖掘、机器学习、统计分析等技术,辅助数据清洗工作,使得数据能够更好地支撑业务分析和决策。

七、wps如何进行数据清洗?

wps进行数据清洗方法如下:

先打开excel表格,进入到表格之后,进行选择我们想要删除的数据。

2. 数据选择完成之后我们直接在键盘上点击Delete,然后我们就可以看到所有的数据已经被删除。需要注意的是我们在这里按的不是“Backspace”。

3. 我们重新回到单元格就会发现格式在没有改变的情况下,我们的数据已经被删除了。

八、铜元大锈如何清洗?

方法有四种:

1、醋泡法。

将古钱洗净,置于一小碟中,倒入许少食用醋,直至浸没币身。过24小时后取出,用小刷子刷去残锈,至钱纹清晰后,再用清水洗醋液,擦清阴干即可。

这是一种比较简单常用的方法,能对付各式浮锈,但效果往往不够理想,而且不少古钱经过醋后表面会出现黄迹,影响美观。

2、开水浸泡法。

有时古钱会被一层浮土所覆盖,但总是洗不掉。其实,这种所谓浮土实际上是一种土锈。(土和铜锈的混合物,属碱性的硬质粘附物)。

对于这种锈,可以先将古钱放入一碗中,将温度在80-90度的开水倒入碗中,直至币身被浸没。过5分钟后,将钱取出,用小刷子刷清钱纹及币身,阴干即可。

3、干刷法。

遇铜锈或铁锈比较浅浮时,应尽量避免用醋泡等化学手段,而可改用干刷的方法来清洗钱纹。

具体方法是:选大号油画笔一支,将笔头上的棕毛剪至离根部仅有0.5-0.7CM时,(务必要使其根部整齐划一)即可使用。

先将待刷古钱置于玻璃板上,固定住,如不平可在下面垫一些布块,握住油画笔根部均匀地刷,要注意用力,否则效果不佳,等浮锈被刷后,再用清水洗清即可。

4、加热法。

这种方法主要是对锈蚀较浅的铁钱而言。铁锈的主要成分是氧化亚铁(FEO)的分子结构比较疏松,与铁钱体吸附的牢固程度远不能与铜钱因此利用热胀冷缩的原理即可使部分铁钱的锈蚀脱离。

扩展资料

有的人认为古钱币不应该清洗,应该保持原有的包浆和锈迹。

其实,只有过度的清洗,或者使用特殊的化学制剂清洗才会影响到古钱币上原有的包浆和锈迹。而简单的清洗则不会使其受到影响,只是将表面的污浊物去掉。

清洗之后的古钱币不要立即存放起来,先让水汽阴干之后再存放,而存放钱币的柜子、箱子等也需要放入干燥剂,并且避免干燥剂直接和钱币接触,以免造成不必要的意外。

九、数据清洗工具?

答 数据清洗工具是一种常用的数据处理软件,用于处理大规模数据集,从而为数据分析人员提供可用的无误的数据。通过使用数据清洗工具,可以检测输入数据中的异常值、缺失值、重复值以及包含异常和错误数据的字段,并对检测到的不规范数据进行清理,从而有效提高数据的质量。

常见的数据清洗工具包括Excel自带的数据清洗工具和外部独立的数据清洗软件,如BigML数据清洗工具、RapidMiner数据清洗工具等,这些数据清洗工具都能够有效地扫描数据集,并自动识别异常和错误数据,从而大大降低数据清洗成本。

十、excel如何进行数据的清洗?

Excel:一个特殊数据的清洗技巧

1.

步骤一:依次单击【数据】选项卡→【自表格/区域】,打开数据查询编辑器。首先需要统一一下数量前的分隔符号“:”,目的是为了规范在输入时可能半角全角都有输入的情况。

2.

单击“存放地点”所在列的列标,在【转换】选项卡下单击【替换值】,将半角的分号都替换成全角分号。

3.

步骤二:保持“存放地点”所在列的选中状态,在【转换】选项卡下单击【拆分列】→【按分隔符】,选择拆分行,分隔符号为换行符。这样处理的目的,是将姓名和后面的数量分开。

4.

步骤三:再次单击【拆分列】→【按分隔符】,分隔符号选择冒号“:”。单击选中新拆分出的列,单击【拆分列】→【按字。

为您推荐

返回顶部