您的位置 主页 正文

怎样进行大数据的入门级学习?

一、怎样进行大数据的入门级学习? 全文三千多字,建议收藏后反复观看。 0. 当我们想学大数据时,我们到底想学什么? 当我们说学习大数据时,我们得问问自己,到底是学习什么?

一、怎样进行大数据的入门级学习?

全文三千多字,建议收藏后反复观看。

0. 当我们想学大数据时,我们到底想学什么?

当我们说学习大数据时,我们得问问自己,到底是学习什么?

  • 是不是学习怎么观察大数据和表现大数据?
  • 是不是怎么才能装下这么大的数据?大数据存在哪里?大数据怎么取出来用?
  • 还是学习从大数据中挖掘深层信息,从而驱动业务增长?

其实都可以是。上面三个问题,分别对应三个岗位要解决的问题,分别是:

  • 数据分析师。能在拥有行业知识、理解公司业务及流程的情况下,从数据中发现问题,给出自己独到的见解。
  • 数据工程师。数据太多了?选择什么数据容器?数据怎么给到下游?
  • 数据科学家。负责利用大数据建模,从中挖掘有用信息。有的公司也会称之为算法工程师,或者机器学习工程师,至于工作内容,可能不同公司直接会稍有差异。

你可以根据自己内心想学的东西,来确定选择的方向。当然,有没人能三个方向都精通?我相信有,但凤毛麟角,至少在我有限的职业生涯里,还没见到这种多面手,毕竟一个人的精力有限。对于新手而言,还是先不要想着一口吃成个胖子。

如果实在没有头绪,不知道从哪学起怎么办?这三种岗位是否有一些共同的技能或者知识,而且学习了这些知识能让我们更好的选择方向?好消息是,有的。

不论是数据分析师,数据工程师,还是数据科学家,多多少少都涉及到一点彼此的知识领域。如果把对大数据的能力要求做个频谱,那么将如下图这样。蓝绿黄分别对应数据分析师,数据工程师,还有数据科学家的能力频谱。这个图仅仅是大概描述,并不精确,例如有的数据科学家可能更偏分析方向,有的数据科学家更偏工程。

1. 学习交集部分,一石三鸟

从上图里我们可以看到三个岗位直接还是有一点交集的。那么我们从这个交集出发,是否能更快的入门?当然可以。那么,这个交集里到底有什么呢?个人认为,有以下内容。

1.1 数学

包括两部分,概率论和线性代数。虽然不同岗位对数据要求不一样,但基础的部分最好都掌握一下。

概率论部分你需要掌握这些知识,这里只列举了一些在面试中常考察的知识点,仅作为抛砖引玉:

  • 均值与方差及其公式
  • 什么是正态分布
  • 贝叶斯公式
  • 什么是高斯分布
  • 独立和依赖事件

线性代数部分,这里考虑到大家仅仅是为了入门大数据,所以不把更复杂的知识点列出来。但无论你做什么方向,你得了解这些最基本的:

  • 什么是向量
  • 点积
  • 矩阵相乘
  • 转置矩阵,逆矩阵

1.2 AI相关知识

如果你打算做数据科学家,我推荐吴恩达的机器学习课程。这可谓是最经典的热门课程了,全球有几百万人注册了。

如果你不打算做数据科学家,你可以看看吴恩达的《AI for everyone》,一门非技术的导论课程,可以帮助你了解一些基础AI知识。

1.3 数据分析相关知识

数据分析技能我认为还是比较通用的,即使你不是做大数据相关的,数据分析的能力也能给你职业发展助力。其实,与其说数据分析是一种思维,我认为数据分析更像是一种思维模式。

数据分析所需的能力包括:

  • 互联网行业的常见指标:DAU,GMV,ARPU,用户留存指标,转化率等等,这里就一一介绍了,不然可以列个几千字。
  • 常用的分析思维模型方法,例如:5W2H分析法,逻辑树分析法,RFM分析等等。

但数据分析相比起数据科学和数据工程而言,工具很容易掌握,但怎么运用才是难点。

如果你不知道怎么开始学,或者说你想大概了解一下数据分析到底是什么回事,可以试试知乎职研在线上这一门数据分析的3天实战体验课,反正价格也才一毛钱,可以通过这门短短的课程,快速了解数据分析师都用什么思维方式和工具,为啥数据分析师的工资这么高。

1.4 Excel、Python和SQL

这几个工具类的一起讲。

  • 搞技术的可能看不上Excel,觉得太低级。但实际上,Excel的优势在于通用性。你作为技术人员,你先阐述你的观点,想发报告给运营部门汇报你的发现,你总不能发一段代码过去吧?因此学会excel基本的一些操作非常重要,包括常用的公式和操作,例如求和,求平均,VLOOKUP,转置表格等等。如果你有买前面那个0.1元的课程,里面也会讲到一些excel分析的内容,都是比较实用的。
  • Python现在已经是最火的语言了,因为足够简单,能做的事情也多,因此甚至很多公司找数据分析师时都要求Python了,因为Python比起Excel来说,虽然涉及到了编程,但灵活性也更高,无论是数据分析还是数据可视化,都有很多好用的包。虽然也有公司在招聘数据分析师时不需要懂Python,但我个人感觉,未来会越来越多公司招聘数据分析师要求懂Python,所以,学一下吧。
  • SQL的话,无论你做大数据哪个方向,现在基本都要了。即使你是数据分析师,你也不能等着数据工程师给你写SQL帮你取数吧?所以基本的一些SQL语句,例如表的增删改,表直接的各种join这些基本操作,最必须掌握。

2. 怎么深入学习更进一层楼

2.1 数据分析师:我到底该分析什么

我的第一个建议是:选择行业。毕竟不同行业,业务肯定不一样,要分析的内容不完全一样。如果是传统企业,可能更偏重销售分析,你可能更多的的利用RFM模型,

第二个建议是:学点技术。据我观察,这几年Python和SQL慢慢成为数据分析师的标配,尤其是互联网行业。即使你已经当了几年的数据分析师,如果你还没学过Python和SQL,最好还是学一点,增强一点竞争力。

入门书籍方面,我看过两本,挺不错,对我很有启发。

第一本是《深入浅出数据分析》。配图很丰富,语言很幽默,很适合初学者入门。

第二本是《猴子数据分析》,讲得更全面一些,对常用的思维模型和数据指标都有,还有很多行业的分析案例。

不过,毕竟我是数据科学家出身,对数据分析师的工作指导过多容易误人子弟,因此这里就不给太多建议了,如果想了解更多,这两本书或者前面那个0.1元的分析课肯定会比我讲得好,老师也能给出更有用的建议。我也看了这个课程,确实也得到了一些启发。

2.2 数据工程师:大数据,你让我又爱又恨

大数据就好像大海,深不见底,但令人神往。处理得好,就能乘风破浪;处理不好,则葬身大海。那么怎么才能在这迷人的深海里驰骋呢?

  • 编程方面:除了Python,我建议还得学习下Scala,因为你很大概率会用到Spark,而Scala是其原生语言。
  • 存储:Hadoop HDFS,Hive,HBase等
  • 处理:Spark Streaming,MapReduce等等
  • 计算资源管理:YARN,Mesos等

实际上,大数据处理的工具有上百种,这里仅列举了几种常用的。不过他们解决的问题是相近的,就是:怎么让数据分布在高效多个机器上,且调用时最方便。只要你掌握了一部分工具,你就会发现,其他工具似乎变得不难学了。

2.3 数据科学家:技术和艺术的结合

作为数据科学家,最重要的技能是机器学习。机器学习主要学习的内容有三个:

  • 监督式学习(supervised learning):需要标记数据
  • 非监督式学习(unsupervised learning):不需要标记数据.代表算法:k-means
  • 强化学习(Reinforcement Learning): 如何基于环境而行动,以取得最大化的预期利益。

当然,现在还有半监督学习,自监督学习等等,但它们的基础也是上面讲到的几种方式。讲入门机器学习,我得讲个几千字,恰好我之前写过一篇很详细的机器学习入门路线,大家可以参考下:

如何系统学习机器学习?

编程语言方面:Python(最常用), R(少数公司用)。软件有的公司会自建Data Science Studio.也有很多服务提供商提供了DSS,例如DataRobot, Dataiku等。但建议不要依赖语言。Jupyter notebook是比较适合调试python 的工具,很多课程上会讲到。

数据科学家虽然带了「科学家」三个字,但其实并非真正的科学家,只是做数据科学的工程师,因此,技术很重要。但是,数据科学又不完全是工程,它需要耐心,从看似杂乱的数据中找到金子,这一点又像雕塑家,因此,也有点艺术的感觉。如果你做数据科学家时能感受到技术的魅力同时还感受到艺术的美感,那么恭喜你,走上正道了。

不要停止学习

Data is the new petrol。每年都有新的算法出现。我当年找工作时,《Attention Is All You Need》还没出来,大家讲深度学习,主要集中研究NLP和CV领域,大家都用LSTM/CNN,效果不行,就加layer。

后来《Attention Is All You Need》出来了,Transformer开始横扫NLP领域。随着ViT的出现,Transformer也开始在CV领域大展身手。这都是我刚入行时没想到。现在很多问题直接上transformer,就能得到很好的表现。

大数据工程框架也是一样。数据库装不下了,就数据仓库,数据湖,后面又发展到了湖仓一体。数据处理方式,从批处理,流处理,发展到现在流行的流批一体,也就是几年之间的事。

可以看到,在大数据领域,学会怎么保持学习能力,比学会具体的能力更为重要。

请不要停止学习。Keep Learning!

二、学习通学习数据异常?

是的,。原因是学习通作为一个在线学习平台,需要实时收集和处理学生的学习数据,包括学习进度、作业提交情况等,但是由于各种原因(例如服务器故障、网络问题等),学习通的数据可能会出现错误或异常。这会导致学生的学习状态无法正常记录和反馈,影响学习效果的评估和提升。此外,也可能导致学生无法及时获得学习资源或毕业证书等重要信息,进一步影响学习和就业的发展。因此,学习通平台需要及时发现和纠正数据异常,保证学生的学习体验和学习成果的有效记录和反馈。同时,学生也需要注意及时反馈和处理学习数据异常的问题,确保自身的学习效果和权益。

三、如何学习数据科学?

信息发展速度之快,好多前沿的,一手的资料都是英文的,资料的容量不逊于数据的容量,不能指望别人帮你翻译。2.寻找资源

数据科学的资源有很多,

英语网站的有:dataau,the Kaggle Forums, data science subreddit 等

中文网站有:我爱机器学习,开源中国社区,大数据极客等3学习一门编程语言

编程能力是数据科学的基础能力之一,目前比较热门的是数据科学编程语言主要是Python和R语言。统计学是数据科学的基础

作为一名数据科学家,你将运用统计思维来分析和解释不同的数据集。统计数据可以帮助您更好地理解数据中的模式,并从中提取见解,从而得出有意义的结论。

5.学以致用

开始构建一个有趣的数据科学项目组合,这些项目可以应用你学习的或者新发现的数据科学技能。可以在一些平台上训练你学得的技能。也可以参加一些比赛。

6交流

可以在网上或者一些相关社区进行交流。

四、学习数据库之前需要学习数据结构吗?

我是先学数据结构再学数据库的,因此我比较了解,学习数据库的时候设计到数据结构的非常少,除非你要把数据库学得非常深,非要了解底层的组织结构的时候你才得学习数据结构。因此对于初学者学习这两者的顺序无关紧要。不过我还是建议你先学数据结构,这是基础,很重要啊。

五、十大入门级adv?

1、KTM R2R 390 Adventure

售价:53800元

要说摩托车领域中谁最会“玩泥巴”,相信大伙都能第一时间喊出KTM的名字,KTM R2R 390 Adventure也同样具备强大的越野通过能力,虽然车辆只搭载了一款390CC排量的单缸水冷发动机,但43.5匹的最大马力绝对能满足大部分消费者的需求,车辆不仅低扭动力充沛,高速行驶的时候动力加速同样不虚,是一款很不错的入门级摩旅车型。

2、五羊本田 猛鸷 CB 190 X

售价:16680-20880元

很多人都认为这款车是根据CB190R这款街车改良而来的,毕竟车辆的不少参数配置都是一样的,所以这辆车的性能表现并不是太好,184CC的排量只能输出16.3匹的最大马力,应付复杂的越野路面会稍显吃力。但如果你的用车场景基本上都是柏油路面,那猛鸷 CB 190 X代步还是没问题的,较高的前挡风在跑高速的时候也能保障驾驶员的舒适性

六、大数据要学习多久?

当初我自学了一年的大数据,天天在网上找一些免费的资料和视频看,但是遇到问题了也没人能帮我解决的,所以学的很吃力也很慢,后来勉强懂一些后台、hadoop方面的知识,但是只能说是皮毛,只是了解一些简单的知识,公司照样不要,后来去中公优就业学习了半年左右,面了2家就找到工作了,当初涉世不深给7千就干了,后来待没多久就跳槽了,几乎工资翻了一倍。所以说啊,自己自学比较浪费时间还学不好,去培训机构虽然花钱了但是节省了很多时间学的也比自学的好,本人的前车之鉴,希望能帮到你

七、数据库怎么学习?

在网上找找网课,跟着老师学,先入门,然后就是实战了,多在网上找些sql的刷数题,比如力扣上就有,这样出去面试初级岗位,数据库这关能过

八、数据结构怎么学习?

学习数据结构需要掌握以下几个步骤:

基础语法学习:首先,你需要学习计算机语言的基本语法和规则,例如变量、数据类型、运算符、控制结构等。

数据结构:学习数据结构的定义和分类,包括逻辑结构和物理结构。数据结构是数据的一种存储结构,算法是操作数据的一组方法。数据结构是为算法服务的,算法要作用在特定的数据结构之上。

算法入门:学习算法的基本概念和实现方法,例如排序、查找、递归等。算法是操作数据的一组方法,学习算法需要掌握复杂度分析,按知识点汇总图中的知识点学习,常用的、基础的必学。

算法进阶:深入学习算法的设计和优化,例如动态规划、贪心算法、图算法等。算法进阶需要多动笔、多动手,边学习边画图,通过画图来加深理解存储结构和实现逻辑。

实践练习:学习数据结构需要多辩证地思考,多问为什么,边学边练,适度刷题,多问、多思考、多互动,多人学习更好。

知识点汇总图:知识点汇总图可以帮助学习。

学习数据结构需要掌握一门编程语言,建议初学者先掌握C语言。学习资源方面,可以选择严蔚敏老师的《数据结构(C语言版)》以及她录制的一整套数据

九、十大入门级金酒?

一、添加利10号

这款添加利10号被誉为业界调酒师公认的最好的金酒,基础的干金蒸馏4次,而添加剂10号蒸馏5次,比较精致。第五次选用10号蒸馏器。香味是采用浸泡的口感不辛辣,酒香是杜松子,柑桔香料的混合芳香,酒体柔顺干烈。杜松子的风味和药材的芳香比较突出,回味也是香料的混合芳香。

二、哥顿金酒

哥顿金酒是世界上销量最好的金酒,这也是最常见的金酒,主要的配料有水、小麦、大麦芽、杜松子和一些天然香料,酒精度数为43度,由于这款金酒的气味奇异清香,口感醇美爽适,可以单饮又可与其他酒混合配制或作为鸡尾酒的基酒,所以深受世人喜爱。

三、必富达金酒

必富达金酒被冠以“鸡尾酒的心脏”雅号。饮之提神醒脑,清热解毒。

十、十大入门级远洋帆船?

1,雅轩斋大北帆船

2,礼之源集资帆船

3,沈阳永隆金号赛德帆船

4,北方信工祥礼帆船

5,杭州德鲁居饰工坊帆船

6,上海德宏国际居家帆船

为您推荐

返回顶部