博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
7道常见的数据分析面试题
阅读量:5810 次
发布时间:2019-06-18

本文共 2128 字,大约阅读时间需要 7 分钟。

数据分析师近几年在国内互联网圈越来越火,很多开发都因为薪资和发展前景,希望转行到数据分析岗。今天,我们就来聊聊面试数据分析师的那些事。

其实,数据分析能力是每个互联网人的必备技能,哪怕你没有转行数据分析师的计划,也推荐你看看这个文章,提升你的数据能力。

数据分析的能力要求

与数据分析相关的工作有一个特质,就是对数字非常敏感,同时也要求对数据具有良好的思考能力,比如说如何用数据指导业务,如何将数据呈现在报告中。

在面试的时候,面试官通常会考察以下三个维度的能力:

1.理论知识(概率统计、概率分析等)

掌握与数据分析相关的算法是算法工程师必备的能力,如果你面试的是和算法相关的工作,那么面试官一定会问你和算法相关的问题。比如常用的数据挖掘算法都有哪些,EM算法和K-Means算法的区别和相同之处有哪些等。

有些分析师的工作还需要有一定的数学基础,比如概率论与数理统计,最优化原理等。这些知识在算法优化中会用到。

除此以外,一些数据工程师的工作更偏向于前期的数据预处理,比如ETL工程师。这个职位考察你对数据清洗、数据集成的能力。虽然它们不是数据分析的“炼金”环节,却在数据分析过程中占了80%的时间。

2.具体工具(sklearn、Python、Numpy、Pandas等)

工程师一定需要掌握工具,你通常可以从JD中了解一家公司采用的工具有哪些。如果你做的是和算法相关的工作,最好还是掌握一门语言,Python语言最适合不过,还需要对Python的工具,比如Numpy、Pandas、sklearn有一定的了解。

数据ETL工程师还需要掌握ETL工具,比如Kettle。

如果是数据可视化工作,需要掌握数据可视化工具,比如Python可视化,Tableau等。

如果工作和数据采集相关,你也需要掌握数据采集工具,比如Python爬虫、八爪鱼。

3.业务能力(数据思维)

数据分析的本质是要对业务有帮助。因此数据分析有一个很重要的知识点就是用户画像。

用户画像是企业业务中用到比较多的场景,对于数据分析来说,就是对数据进行标签化,实际上这是一种抽象能力。

题目

作为实力检测的一部分,笔试是非常重要的一个环节。它可以直接测验你对数据分析具体理论的掌握程度和动手操作的能力。我出了几道简单的题,你不妨来看下。

问答题

1.用一种编程语言,实现1+2+3+4+5+…+100。

这道题考察的就是语言基础,你可以用自己熟悉的语言完成这道题,比如Python、Java、PHP、C++等。这里我用Python举例:

sum = 0for number in range(1,101):       sum = sum + numberprint(sum)

2.如何理解过拟合?

过拟合和欠拟合一样,都是数据挖掘的基本概念。过拟合指的就是数据训练得太好,在实际的测试环境中可能会产生错误,所以适当的剪枝对数据挖掘算法来说也是很重要的。

欠拟合则是指机器学习得不充分,数据样本太少,不足以让机器形成自我认知。

3.为什么说朴素贝叶斯是“朴素”的?

朴素贝叶斯是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大部分的复杂问题仍然非常有效。

4.SVM最重要的思想是什么?

SVM计算的过程就是帮我们找到超平面的过程,它有个核心的概念叫:分类间隔。SVM的目标就是找出所有分类间隔中最大的那个值对应的超平面。在数学上,这是一个凸优化问题。同样我们根据数据是否线性可分,把SVM分成硬间隔SVM、软间隔SVM和非线性SVM。

5.K-Means和KNN算法的区别是什么?

首先,这两个算法解决的是数据挖掘中的两类问题。K-Means是聚类算法,KNN是分类算法。其次,这两个算法分别是两种不同的学习方式。K-Means是非监督学习,也就是不需要事先给出分类标签,而KNN是有监督学习,需要我们给出训练数据的分类标识。最后,K值的含义不同。K-Means中的K值代表K类。KNN中的K值代表K个最接近的邻居。

动手题

1.我给你一组数据,如果要你做数据清洗,你会怎么做?

\"\"

实际上,这一道题中,面试官考核的是基本的数据清洗的准则,数据清洗是数据分析必不可少的重要环节。你可能看到这个数据存在2个问题:典韦出现了2次,张飞的数学成绩缺失。

针对重复行,你需要删掉其中的一行。针对数据缺失,你可以将张飞的数学成绩补足。

2.豆瓣电影数据集关联规则挖掘

在数据分析领域,有一个很经典的案例,那就是“啤酒+尿布”的故事。它实际上体现的就是数据分析中的关联规则挖掘。不少公司会对这一算法进行不同花样的考察,但万变不离其宗。

如果让你用Apriori算法,分析电影数据集中的导演和演员信息,从而发现两者之间的频繁项集及关联规则,你会怎么做?

以上就是有关数据分析面试笔试的一些内容,你或许可以感受到数据分析师这个岗位的特殊性。面试找工作虽说不是一朝一夕就可以完成的事情,但我希望通过专栏,能助你一臂之力。

《数据分析实战45讲》专栏,不到2个月,已经有1W程序员加入学习,现正在优惠中,

转载地址:http://whjbx.baihongyu.com/

你可能感兴趣的文章
SSH中调用另一action的方法(chain,redirect)
查看>>
数据库基础
查看>>
表格排序
查看>>
关于Android四大组件的学习总结
查看>>
java只能的round,ceil,floor方法的使用
查看>>
由于无法创建应用程序域,因此未能执行请求。错误: 0x80070002 系统找不到指定的文件...
查看>>
新开的博客,为自己祝贺一下
查看>>
puppet任务计划
查看>>
【CQOI2011】放棋子
查看>>
采用JXL包进行EXCEL数据写入操作
查看>>
Struts2访问ServletAPI的三种方式
查看>>
一周总结
查看>>
将txt文件转化为json进行操作
查看>>
[MySQL优化案例]系列 — slave延迟很大优化方法
查看>>
线性表4 - 数据结构和算法09
查看>>
C语言数据类型char
查看>>
Python线程详解
查看>>
Online Patching--EBS R12.2最大的改进
查看>>
Binary Search Tree Iterator leetcode
查看>>
Oracle性能优化--DBMS_PROFILER
查看>>