当前位置:首页 > 科技资讯 >

如何自学成为数据科学家或AI工程师?你需要攻克这九点科技资讯

来源:天之家 发表于:2021-01-13 21:55 阅读:

导读:并非每个人都有时间在教室里学习数据科学、人工智能或机器学习,也并非每个人都能负担得起正式学习这些领域知识所需要的费用。那我们应该怎么办呢?软件开发者、机器学习工程师 Jerry Buaba 提供了一条自学路径。 人们在尝试学习数据科学、人工智能或机器学...

并非每个人都有时间在教室里学习数据科学、人工智能或机器学习,也并非每个人都能负担得起正式学习这些领域知识所需要的费用。那我们应该怎么办呢?软件开发者、机器学习工程师 Jerry Buaba 提供了一条自学路径。

如何自学成为数据科学家或AI工程师?你需要攻克这九点

人们在尝试学习数据科学、人工智能或机器学习时所面临的最大拦路虎就是时间和金钱。自学是一门艺术,需要足够的自律、勤奋和专注。利用得当的话,它能让你灵活地将学习与工作结合起来。

然而,自学数据科学、人工智能或机器学习的开始阶段会非常艰难,但请相信这一切都是值得的。自学时取得良好进展的关键是按照自己的节奏学习。

本文将分享一条自学数据科学、人工智能和机器学习时可以遵循的道路,同时也能帮助大家在学习新事物上取得良好进展。

学习数学

学习数学听起来很烦人,但对这个领域来说是十分必要的。阅读这篇文章的读者应该都从高中学到了一些初高级数学知识。这是很好的开端,但仅有这些知识在数据科学、人工智能和机器学习领域还远远不够。你需要更深入地学习一些统计学、代数和其他的数学概念。

必备数学知识资源列表,参见:https://towardsdatascience.com/mathematics-for-data-science-e53939ee8306。

学习编程

作为初学者而言,不要直接开始学习编写机器学习代码,而是首先学习一般编程的核心概念。先了解什么是编程、现有的编程语言种类、如何正确地写代码等。这些东西非常重要,因为你将学到许多重要的概念,而这些概念将一直伴随着你。

所以这一步要慢慢来,不要急于学习高级的东西,在这个过程中对事物的理解深浅将决定你在这个行业中的表现。

这个视频介绍了编程和计算机科学,可以帮你过一遍计算机科学和编程中的重要概念:https://www.youtube.com/watch?v=zOjov-2OZ0E。

熟练掌握一种编程语言

数据科学家、人工智能和机器学习工程师使用的语言多种多样,其中最常用的语言是 Python、R、Java、Julia 和 SQL。当然还有很多其他的可用编程语言,这里列出的是最常用的语言,原因如下:

只要投入足够的时间进行学习并坚持下来,你可以比较容易地学会这些语言,并且它们的开发速度很快。

可以利用更少的代码完成更多的功能。

社区和生态十分完善,任何时候遇到任何问题社区都能提供帮助和支持。

拥有数据科学家、人工智能或机器学习工程师所需要的几乎所有库和软件包。

开源且免费使用。

学习多种语言绝对没错,事实上这是一件很好的事。然而,在学习每一门编程语言时,你需要慢慢来,尽量不要同时学习多种语言,因为这可能会让你感到困惑,并让你在一段时间内迷失方向。

慢慢来,一次学一门语言,确保只学习你职业生涯所需要的那部分语言。我建议先学 Python,因为它相对比较容易理解。此外,我还建议大家按先后顺序学习以下资源:

https://www.youtube.com/watch?v=rfscVS0vtbw&t=5s

https://www.youtube.com/watch?v=r-uOLxNrNk8

学会如何获取数据

数据通常不会直接送到你手里,有时根本就没有现成的数据,但无论如何,你必须找到一种方法来获得能使用的数据。

你工作的地方可能有一不错的数据收集系统,如果这样那你就可以省心了。如果没有的话,你必须找到一种方法来获取数据,不是任何数据都可以,而是可用来实现目标的有效数据。

获取数据并不完全等同于数据挖掘,它是数据挖掘的一个过程。你可以在互联网上许多地方获得免费和开源的数据,有时你可能需要从网站上抓取数据。网络爬虫非常重要,我希望每个人都能学习网络爬虫,因为你的职业生涯中可能会经常用到它。

网络爬虫教程:https://www.youtube.com/watch?v=0_VZ7NpVw1Y

数据有时会保存在数据库中,那么作为数据科学家、人工智能或机器学习工程师,你还需要了解一点数据库管理知识,以便在工作中直接连接和使用数据库。在这个阶段,SQL 知识是非常重要的。

SQL 学习资源:https://www.youtube.com/watch?v=sTiWTx0ifaM&t=15s

学习如何处理数据

这通常被称为「数据整理」(Data Wrangling)。该过程包括数据清理, 这可以通过对数据执行一些探索性数据分析并删除数据中不需要的部分来完成。