首页 国际新闻正文

502胶水把手黏住了怎么办,成为杰出数据科学家必备的 13 项技术,树先生

一周前,我在 LinkedIn 上问了一个问题:优异的数据科学家与出色的数据科学家之间的差异是什么? 令人惊奇的是,我得到了来自各行各业的许多顶尖数据科学家的活跃王林的情妇雷帆反应。

我发现这十分有用和风趣。为了进一步了解二者间的差异,我一直在网上寻觅答案……直到发现了这篇文章——《成为数据科学家必备的九项技能》(https://www.kdnuggets.com/2018/05/simplilearn-9-must-have地蜂子-skills-data-scientist.html?source=post_page)。综上,我总结了相关信息,列出了一份成为出色的数据科学家应该把握的技能清单。虽然,数据科学家不或许具有下列一切技能。但在我看来,正是这些技能让出色的数据科学家与优异的数据科学家差异开来。我期望这些技能会对你的职业生涯有所协助。

01

教育

一般来说,数据科学家的受教育程度遍及较高。至少 88% 具有硕士学位,46% 具有博士学位。虽然有一些破例,但一般状况下,亮眼的教育布景意味着具有数据科学家所需的常识深度。要想成为一名数据科学家,你能够攻读核算机科学、社会科洪金州学、物理科学和核算学的学士学位。最常见的研讨范畴是数学和核算学 (32%),其次是核算机科学 (19%) 和工程学 (16%)。以上任何一个学位都能让你把握处理和剖析大数据所需的技能。

修读完学士学位后,你还得持续进修。事实上,大多数数据科学家都具有硕士或博士学位。此外,他们还承受在线训练,学习特别技能,像怎么运用 Hadoop 或大数据查询等等。因而,你能够学习数据科学、数学、天体物理学或任何其他相关范畴的硕士学位课程。攻读硕博学位期间所学的技能将协助你轻松过渡到数据科学。

除了讲堂学习,你还能够经过创立运用程序、博客或测验数据冒牌锦衣卫剖析来实践你在讲堂上学到的东西,然后让你收成更多。

在我看来,硕士或博士学位并不是有必要的,只需你能担任你的作业便可。在大多数作业中,只需你能够处理事务问题,就不需求研讨和把握最前沿的机器学习模型。

02

R 言语

每一位数据科学漏阴家至少要深入研讨一种最新的剖析东西,而 R 言语一般是首选。R 言语是专门为数据科学规划的。你能够运用它处理在数据科学中遇到的任何问题。事实上,43% 的数据科学家运用 R 言语来处理核算问题。可是,R 言语的学习曲线并不太简单,尤其是当你现已把握了一门编程言语,R 就更难学了。虽然如此,在网上仍然有许多资源能够协助你学习,比方 Simplilearn 的 R 言语数据科学训练。关于数据科学家来说,这是一个很好的学习资源。

03

Python

Python 是我在数据科学研讨中接触到的最常见的编程言语,此外,还有 Java、Perl 和 C/ C++。在 O 'Reilly 查询中,40% 的受访者将 Python 作为他们首要的编程言语。

由于其通用性,你能够将 Py3年12恶魔男团thon 运用于简直一切触及到数据科学的过程中。它能够运用各种格局的数据,轻松地将 SQL 表导入代码。它答应创立数萨诺戈据集,也能够很快捷地协助你在谷歌上找到任何类型的数据集。

你能够经过以下书本了解更多关于 Python 的基础常识以及它在数据科学中的运用:

  • Python 数据科学手册
  • Python 数据剖析
  • 学习 Python

04

Hadoop 渠道

虽然 寿加四点底Hadoop 并不502胶水把手黏住了怎么办,成为出色数据科学家必备的 13 项技能,树先生是有必要把握的,但在许多状况下,它是数据科学运算的首选。假如了解 Hive 或 Pig 很不错,了解 Amazon S3 等云东西也有优点。CrowdFlower 对 3490 个 LinkedIn 数据科学职位进行的一项研讨将 Apache Hadoop 列为数据科学家第二重要的技能,取得了 49% 的评分。

作为一名数据科学家,你或许会遇到这样的状况:你具有的数据量超过了体系的内存,或许你需求将数据发送到不同的服务器,这时候你就需求用到 Hadoop 了。你能够运用 Hadoop 将数据快速传递到体系上的各个点。它的功用还有许多,比方数据探究、数据过滤、数据采样和汇总等。

05

SQL 数据库 / 编码

虽然 NoSQL 王福山留置和 Hadoop 现已成为数据科学的一个重要组成部分,可是公司仍是期望职工能够运用 SQL 编写和履行杂乱的查询。SQL(结构化查询言语)是一种编程言语,它能够协助你在数据库中履行增加、删去和提502胶水把手黏住了怎么办,成为出色数据科学家必备的 13 项技能,树先生取数据等操作,它还能够协助你履行剖析功用和转化数据库结构。

作为一名数据科学家,你需求通晓 SQL。这是由于 SQL 是专门为拜访、交互和处理数据而接吻揉胸规划的。当你运用 SQL 查询数据库时,它往往会给你一些额定的收成。它有简练的指令,能够帮你节省时刻,削减履行杂乱查询所需的编程作业。学习 SQL 将协助你更好地了解联络数据库,并增强你作为数据科学家的个人才干。

06

Apache Spark

Apache Spark 正在成为全球最盛行的大数据技能。它是一个相似 Hadoop 的大数据核算结构。仅有的差异在于 Spark 比 Hadoop 更快。这是由于 Hadoop 读取和写入磁盘,这会使它的速度变慢,但 Spark 会将其核算缓存于内存中。

Apache Spark 是专门为数据科学规划的,它能够更快地运转杂乱的算法。在处理很多数据时,它能够分发数据处理,然后节省时刻。它还协助数据科学家处理杂乱的非结构化数据集。你也能够在一台机器或一组机器上运用它。

Apache spark 可防止数据科学研讨中的数据丢掉。它的优势在于速度和渠道,这使得数据科学项目的施行变得更简单。运用 Apache spark,你能够完结从数据接收到分布式核算的一切剖析作业。

07

机器学习和人工智能

许多数据科学家并不通晓机器学习范畴的技能,包含神经网络、强化学习、对立性学习等。但假如你想从其他数据科学家中锋芒毕露,你需求了解机器学习技能,如监督机器学习、决议计划树、逻辑艾鹿薇和苏先生合照回归等,这些技能将协助你处理根据首要安排成果猜测的不同数据科学问题。

数据科学需求在机器学习的不同范畴运用技能。据 Kaggle 的一项查询显现,只要一小部分专业人员把握高档机器学习技能,如监督机器学习、非监督机器学习、时刻序列、自然言语处理、离群值检测、核算机视觉、引荐引擎、生计剖析、强化学习和对立学习等。

数据科学触及很多数据集的处理,你能够在这里持续了解机器学习。

08

数据可视化

商业化社会常常发生很多的数据,这些数据需求转化成易于了解的格局。比起原始数据,人们更简单了解图片。俗话说,“一图胜千言”。

作为一名数据科簿本五颜六色学家,你有必要学会运用比如 ggplot、d3.js、Matplotlib 以及 Tableau 等数据可视化东西,这些东西将协助你把项目中的杂乱成果转化为易于了解的格局绿茵球霸。问题是,许多人不了解序列相关的 P 值,你需求直观地向他们展现这些术语在成果中表明的意义。

数据可视化为决议计划者供给了直接处理数据的时机。他们能够经过这种办法敏捷502胶水把手黏住了怎么办,成为出色数据科学家必备的 13 项技能,树先生洞悉数据,然后捉住新的商业时机,并在竞赛中坚持领先地位。

我特别写了一篇文章,谈论数据可视化的重要性,以及怎么用数据更好地讲故事。感兴趣的话,你能够了解一下

09

非结构化数据

能够处理涉传672非结构化数据对数据科学家来说是至关重要的。非结构化数据是不适合数据库表的未界说内容,包含视频、博客文章、客户谈论、交际媒体文章、视频摘要、音频等。这些类型的数据排序很困难,由于它们不是结构化的。

由于非结构化数据的杂乱性,大多数人称其为“漆黑剖析”。剖析非结构化数据能够协助你寻觅对决议计划有502胶水把手黏住了怎么办,成为出色数据科学家必备的 13 项技能,树先生用的见地。作为一名数据科学家,你有必要具有了解和操作来自不同渠道的非结构化数据的才干。

10

求知欲

“我没有什么502胶水把手黏住了怎么办,成为出色数据科学家必备的 13 项技能,树先生特别的才干,我仅仅充满了好奇心。

——爱因斯坦

当然,你或许常常看到这句话,由于它与数据科学家有很大的相关性。Frank Lo 在几个月前宣布的博客中论述了它的意义,并谈到了其他必要的“软技能”。

好奇心能够被界说为巴望取得更多的常识。数据科学范畴是一个开展十分敏捷的范畴,你有必要学习更多才干跟上它的脚步。你需求定时阅览关于数据科学趋势的在线内容或书本来更新你的常识。不要被网上飞来飞去的海量数据所吞没,你有必要知道怎么了解这一切。好奇心是一名成功的数据科学家必备的技能之一。刚开始你或许没有从搜集的数据中看到有价值信息的洞悉力,但好奇心会唆使你从数据中筛选出答案和更多的价值。

11

商业敏感性

要想成为一名数据科学家,你需求对你所从事的职业有厚实的了解,并知道你的公司想要处理哪些问题。就数据科学而言,除了确认处理数据要运用的新办法之外,能够识别出哪些问题是处理事务的要害点相同至关重要。

要做到这一点,你有必要了解你所处理的问题是怎么影草我响事务的。这便是为什么你需求了解企业是怎么运作的,这样你才干朝着正确的作业方向行进。

12

交流技巧

大多数公司都短少把握交流技巧的数据科学家,由于这样的职工能够明晰顺利地将他们的技能成果传达给非技能团队,如商场或出售部分。除了了解非技能搭档的需求之外,数据科学家还有必要为事务供给量化的数据,然后使事务部分能够做出正确决议计划。

当然,不仅仅是运用我们都能了解的言语,他们还要懂得用数据讲故事。作为一名数据科学家,你有必要知道怎么环绕数据创立一个故事线,以便任何人都能轻松地了解。单纯展现数据表不如以讲故事的方式共享数据背面的意义有用,讲故事能协助你更好地向雇主传达见地。

在交流时,要注意剖析数日p据中所包含的成果和价值。大多数企业家并不想知道你剖析了什么,他们感兴趣的是它将怎么对其事务发生活跃的影响。你还能够经过阅览这篇文章进一步学习,怎么经过交流传递价值,并树立耐久的联络。

13

团队协作

数据科学家并非独立作业,他们一般需求和公司高管一同研讨战略,和产品司理、规划师一同谈论产品,和营销人员一同商议营销活动的优化计划,与客户端和服务器软件开发人员一同作业,以创立数据管道,并改善作业流。他们有必要和公司里的每一个人一同工sgpy作,包含客户。

本质上,数据科学家还需求与团队成员协作开发用例,以便了解事务方针和数据。你需求了解正确处理用例的办法、处理问题所需的数据,以及怎么将成果转化并呈现为每个相关人员都能够轻松了解的内容。

总结

假如你对以上说到的技能手足无措、一脸茫然,也是能够了解的。说到底,这些技能并不是成为数据科学家所必备的,但与其他一般的数据科学502胶水把手黏住了怎么办,成为出色数据科学家必备的 13 项技能,树先生家比较,它们的确会让你异乎寻常。

我知道,你期望变得不一般!

作者:Admond Lee

译者:小大非

本文转载自:InfoQ

封面图来源于网络,如有侵权,请联为紫薇圣人起了一卦系删去

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。