新闻频道 > 新政风向

数据科学与机器学习访谈问题_高鹰生殖中心

来源: 新华社
00:42:34

webosdoctor数据科学与机器学习访谈问题

云天河为什么不老

    本文是AI研究所编写的一个技术博客。最初的标题是数据科学与机器L。

    本文是AI研究所编写的一个技术博客。最初的标题是:

    数据科学与机器学习访谈问题

    作者|乔治·塞夫

    翻译|幻灭

    校对|酱梨涂饰|菠萝女孩

    链接到原始文本:

    Http://towardsdata..com/data-.-and-machine-.-.-.-3f6207cf040b

    可怕的机器学习面试。在测试之前,你感觉自己什么都知道!但是一切都可以改变。

    在过去的几个月里,我面试过很多公司,希望获得数据科学和机器学习的初级职位。自我介绍让你了解我。我最近几个月从研究生院毕业了。我的硕士学位是机器学习和计算机视觉。我以前的大部分经验是研究/学术,但我在一个早期创业的公司(与机器学习无关)待了8个月。这些角色包括数据科学、通用机器学习以及自然语言处理和计算机视觉的专业。我采访过亚马逊、特斯拉、三星、优波、华为等大公司。我还采访了许多从创业阶段到资金充裕的初创企业。

    今天,我将和大家分享我所有的面试问题以及如何回答。许多问题是非常普遍的理论,但其他许多问题相当有创造性。我将简要地列出一些最常见的问题,因为在互联网上有很多关于这些问题的资源,我将深入探讨一些不太常见、更困难的问题。我希望通过阅读这篇文章,你能在机器学习面试中取得好成绩,找到你梦想的工作!

    让我们开始:偏差和方差之间的协调是什么?

    什么是梯度下降?

    解释过盈和欠盈以及如何应对?

    你如何对抗维度的诅咒?

    什么是正则化,我们为什么要使用它,并且给出一些常用方法的例子?

    解释主成分分析(PCA)?

jie shi zhu cheng fen fen xi PCA?

    为什么ReLU比Sigmoid更好更常用于神经网络?

    什么是数据标准化,我们为什么需要它?我认为有必要强调这个问题。数据标准化是一个非常重要的预处理步骤,用来调整数值以适应特定的范围,以确保在反向传播过程中更好地收敛。一般来说,这可以归因于减去每个数据点的平均值,然后将其除以标准偏差。如果我们不这样做,那么一些特征(那些高数量级的特征)在成本函数中将增加更多的权重(如果高数量级的特征改变1%,那么变化非常大,但是对于较小的特征来说,变化非常小)。数据标准化使得所有特征的权重相等。

    解释维度缩减,在哪里使用它及其好处?降维是通过减少所考虑的特征变量的数量来获得一组主要变量(即重要特征)的过程。特征的重要性取决于特征变量对数据信息表示的贡献以及所使用的技术。决定使用哪种技术取决于反复试验。通常从线性技术出发,当结果不适合时,就转向非线性技术。降维的潜在好处包括:(1)减少所需的存储空间(2)加速计算(例如,机器学习算法)。低维意味着更少的计算。低维还意味着可以使用不适合高维的算法(3)删除冗余特征,例如同时以平方米和平方英里为单位无意义地存储地形(可能由于数据采集缺陷)。(4)将低数据维数降低到2D或3D可能允许我们绘制和可视化它们,例如观察模式,给我们洞察力(5)太多的特征或太复杂的模型可能导致过拟合。

    如何处理数据集中丢失或损坏的数据?可以在数据集中找到丢失/损坏的数据,可以删除这些行或列,或者用另一个值替换它们。在Pandas中,有两个非常有用的方法:isnull()和dropna(),它们将帮助您找到丢失或损坏的数据列并删除这些值。如果希望用占位符值(如0)填充无效值,可以使用fillna()方法。

    解释这个聚类算法?我写了一篇关于数据科学家需要知道的五种聚类算法的流行文章,其中每一种都用各种可视化图形详细解释。

    你将如何进行探索性数据分析(EDA)?EDA的目标是在应用预测模型之前从数据,即信息中收集见解。基本上,您希望EDA采用从粗到细的方式。我们从一些高层次的全球洞察力开始。看一些不平衡的类。看看每个类的平均值和方差。看前面几行,看看是关于什么的。运行熊猫DF。info()用于查看哪些特性是连续的、分类的,以及它们的类型(int、float、string)。接下来,删除分析和预测中不必要的列。这些列可能看似无用,其中之一是许多行具有相同的值(即,该列没有给我们提供很多信息),或者它损失了很多值。我们还可以用列中最常见的值或中间值填充缺失的值。现在我们可以开始做一些基本的可视化了。从高层次的事情开始。制作一些条形图用于分类和几组。上节课的条形图。看看最广泛的特征。创建这些单个特性的一些可视化,以尝试获得一些基本的见解。现在我们可以开始更具体了。在两个或三个特性之间创建可视化。特性如何相互关联?您还可以使用PCA查看哪些特性包含最多的信息。将一些特性放在一起,看看它们是如何关联的。例如,当A=0和B=0时,类会发生什么?当A=1,B=0时会发生什么?比较不同的特征。例如,如果特征A可以是“女性”或“男性”,那么我们可以将特征A与他们所住的小屋进行比较,看看男性和女性是否生活在不同的小屋中。除了条形图、散点图等基本图以外,我们还可以绘制PDF/CDF、重叠图等。看一些统计数据,如分布、P值等。最后,是创建ML模型的时候了。从简单的贝叶斯和线性回归开始。如果发现糟糕或高度非线性的数据,可以使用多项式回归、决策树或SVM。可以根据EDA中特征的重要性进行选择。如果你有很多数据,你可以使用神经网络。检查ROC曲线。精确,回忆。

    你怎么知道使用哪种机器学习模型?虽然人们应该牢记“天下没有免费的午餐”,但还是有一些基本原则。我在这里写了一篇关于如何选择合适的回归模型的文章。这个备忘录也很棒!

    为什么我们对图像使用卷积而不是FC层?这是一个有趣的问题,因为公司通常不问这个问题。正如您所料,我从一家专注于计算机视觉的公司得到了这个问题。这个答案有两个部分。首先,卷积对图像的空间信息进行保存、编码和使用。如果只使用FC层,就没有相关的空间信息。其次,卷积神经网络(CNN)具有一些内置的平移方差,因为每个卷积核充当其自身的滤波器/特征检测器。

    什么使得CNN不受翻译影响?如上所述,每个卷积核充当其自己的滤波器/特征检测器。假设您正在进行对象检测,对象在图像中的什么位置并不重要,因为我们必须通过滑动窗口使整个图像卷积。

    为什么分类CNN具有最大的池?正如您所期望的,这是为了在计算机视觉中扮演一个角色。CNN中的最大合并允许您减少计算,因为合并后的特征映射更小。您不会丢失太多的语义信息,因为您正在尽可能地激活。还有一种理论认为,最大池效应在一定程度上增加了CNN的非平移效应。看看吴恩达的视频,它讲述了最大限度地共享资源的好处。

    为什么分段式CNN通常具有编码器-解码器样式/结构?编码器CNN基本上可以看作是一个特征提取网络,解码器利用这些信息来预测“解码”特征和放大到原始图像大小的图像片段。

    什么是批量标准化,为什么它是有效的?深层神经网络的训练是复杂的,因为在训练过程中,各层的输入分布会随着前一层参数的变化而变化。批量标准化的目的是标准化每一层的输入,使得它们的平均输出被激活为0且标准偏差为1。对每个层中的每个小批量进行处理,即分别计算小批量的均值和方差,然后进行标准化。这与网络输入的标准化类似。这有什么帮助?我们知道标准化的网络输入可以帮助他们学习。但是网络只是一系列层,其中一层的输出成为下一层的输入。这意味着我们可以将神经网络的任何层看作较小后续网络的第一层。我们将神经网络看作一系列馈入神经网络。在应用激活函数之前,我们对一层的输出进行标准化,然后将其馈送到下一层(子网络)。

    如何处理不平衡数据集?我有一篇关于这个的文章!

    为什么要使用许多小的卷积核,比如3x3,而不是几个大的卷积核?这在VGNet的论文中得到了很好的解释。有两个原因:首先,可以使用几个较小的内核而不是几个较大的内核来获得相同的接收域并捕获更多的空间信息,但是较小的内核可以使用更少的参数和计算。其次,因为使用较小的内核,您将使用更多的过滤器和更多的激活函数,所以CNN将学习更多的区别映射函数。

    你还有其他的相关项目吗?在这里,你将把你的研究与他们的业务联系起来。你有没有做过任何与他们的业务或应聘职位相关的工作或学习过任何技能?它不必100%相关,它只是一种相关性,所以你可以证明你可以直接为公司增加很多价值。

    解释一下你现在硕士的学习情况?什么成功了?没有失败?未来的发展方向?和最后一个问题一样!

    结论

    这就是我申请数据科学和机器学习职位时遇到的所有面试问题。我希望您喜欢这篇文章,并学习一些新的和有用的东西!如果你认为你学到了什么,请表扬它!

    AI协会每天更新精彩内容,观看更多精彩内容:雷锋网、雷锋网和雷锋网。

    五大CNN架构

    一篇帮助你理解计算机视觉的文章

    用Pytorch进行深度学习(第一部分)让神经网络说“我不知道”——用Pyro/PyTorch实现贝叶斯神经网络

    等待您翻译:

    如何为初学者聚类混沌数据以使用Keras进行迁移学习增强学习:对于情绪行为系统,如果你想学习数据科学,这七个资源不能错过

当前文章:http://www.hncreate.cn/yn5p/122234-222711-49702.html

发布时间:00:19:01

高鹰生殖中心  乐童游戏网  武汉助孕网  东莞代孕  代孕  网游  贵阳代怀孕价格  代孕小说  美国代孕  网络游戏  华劭股涨柜官网  

{相关文章}

新疆嘉实县3.0级地震震源深度为10公里新疆嘉实县震源深度

&n我叫金三顺大结局_高鹰生殖中心bsp;  &nb卖火柴的九江女孩_高鹰生殖中心sp;原名:新疆甲石3.0级地震震源深度为10公里。中新网,3月8日。根据中国地震台网的官方确定,2后宫如懿传第三卷_高鹰生殖中心008年3月0252日,新疆嘉实县(北纬3汉匈全面战争破解_高鹰生殖中心9.40度,东经76.83度)发生了一次3.0级地震,震忠八公犬的故事_高鹰生殖中心源深度为10公里。游民星空上不去_高鹰生殖中心责任编辑:张一玲

关键词:万花楼楼凤论坛,废铁变靓车11,豹宠之豹王西傲责任编辑:帝纯道
http://yuchengxj.cnhttp://yufengxing.cnhttp://china-junshi.comhttp://yingsa.nethttp://0535fang.comhttp://woqugouwu.comhttp://tienting.comhttp://sl400.nethttp://xiaoxintao.cnhttp://www.bbxianzd.cnhttp://www.7oyx.cnhttp://www.1881118.cnhttp://www.ishowshow.cnhttp://www.tyc0105.comhttp://www.021kp-fly.comhttp://www.88ki.cnhttp://www.yantai120.comhttp://www.bandk.cnhttp://www.zjgkz.cnhttp://www.zjgkt.cnhttp://www.zjgkr.cnhttp://www.sddnjz.cnhttp://www.sdtaly.cnhttp://www.gjnsjt.cnhttp://www.nbxss.cnhttp://www.shrfsw.cnhttp://www.bopha.cnhttp://www.qhktz.cnhttp://www.jatoa.cnhttp://www.kokoac.cnhttp://www.yisart.cnhttp://www.janmer.cnhttp://www.ezghyy.cnhttp://www.hsyvv.cnhttp://www.caiyw.cnhttp://www.hkxjw.cnhttp://www.froma.cnhttp://www.zargus.cnhttp://www.sxsppt.cnhttp://www.ahxdw.cnhttp://www.agocv.cnhttp://www.afhnsh.cnhttp://jiashuonet.com/2019032511523263733100.htmlhttp://xingbian580.com/zhiwu/2011/1009/2019032511140917386843.htmlhttp://www.jichangyi.net/uploads/image/2019032616371584252984.htmlhttp://www.jichangyi.net/uploads/image/2019032618042311784205.htmlhttp://www.1736xianghui.com/2019032511073490480103.htmlhttp://www.0432s.com/data/tag/2019032511052634408741.htmlhttp://yingsa.nethttp://www.qhktz.cn