数据科学是各种工具、算法和机器学习原理的融合,目标是从原始数据中发现隐藏模式。所以,数据科学主要用于决策和预测,利用预测性的因果分析、预测性分析(预测性加决策科学)和机器学习。
预测性因果分析–如果你想要一个可以预测未来某个特定事件的可能性的模型,你需要应用预测性因果分析。比方说,如果你是以信贷方式提供资金,那么客户未来按时支付信贷的概率是你关心的问题。在这里,你可以建立一个模型,对客户的付款历史进行预测性分析,以预测未来是否会按时付款。
预测性分析–如果你想要一个具有自己决策的智能的模型,并且能够用动态参数来修改它,你当然需要为它进行规范性分析。这个相对较新的领域都是关于提供建议的。换句话说,它不仅预测而且建议一系列规定的行动和相关结果。
这方面最好的例子是谷歌的自动驾驶汽车,我之前也讨论过。车辆收集的数据可以用来训练自动驾驶汽车。你可以在这些数据上运行算法,给它带来智能。这将使你的汽车能够做出决定,如何时转弯,走哪条路,何时减速或加速。
用于预测的机器学习–如果你有一家金融公司的交易数据,并需要建立一个模型来确定未来的趋势,那么机器学习算法是最好的选择。这属于监督式学习的范式。它被称为有监督的,因为你已经有了数据,你可以在此基础上训练你的机器。例如,可以使用欺诈性购买的历史记录来训练一个欺诈检测模型。
模式发现的机器学习–如果你没有可以进行预测的参数,那么你需要在数据集中找出隐藏的模式,以便能够做出有意义的预测。这只不过是无监督模式,因为你没有任何预定义的标签进行分组。用于模式发现的最常见的算法是聚类法。
比方说,你在一家电话公司工作,你需要在一个地区安装信号塔来建立一个网络。然后,你可以使用聚类技术来寻找那些能确保所有用户都能收到最佳信号强度的塔台位置。
Data Science的生命周期
阶段1-考察。在你开始项目之前,了解各种规格、要求、优先事项和所需预算是很重要的。
第二阶段–数据准备。在这个阶段,你需要分析沙箱,在整个项目期间,你可以在沙箱中进行分析。
阶段3-模型规划。数据科学模型规划 – Edureka在这里,你将确定绘制变量之间关系的方法和技术。
第四阶段-建立模型。在这个阶段,你将开发用于训练和测试的数据集。
第五阶段-操作化。 数据科学操作化 – Edureka在这个阶段,你要交付最终报告、简报、代码和技术文件。
第六阶段-交流结果。现在,重要的是要评估你是否已经能够实现你在第一阶段计划的目标。
下面是一个数据科学考试代写的高分案例:
1. Support Vector Machines
(a) Set up and describe the optimization problem that a soft-margin support vector machine classifier solves.
(b) True or false. Please provide a reasoning. Which of the following are true of support vector machines?
(i) Increasing the hyperparameter C tends to decrease the training error
(ii) The hard-margin SVM is a special case of the soft-margin with the hyperparameter C set to zero
(iii) Increasing the hyperparameter C tends to decrease the margin
(iv) Increasing the hyperparameter C tends to decrease the sensitivity to outliers
2. Consider a Naive Bayes classifier with 3 binary features X1, X2 and X3, and one binary output, Y
(a) How many parameters must be estimated to train such a naive Bayes classifier? Please list them.
(b) How many parameters would have to be estimated to learn the above classifier if we do not make the naive Bayes conditional independence assumption?
3. Trees
(a) Please explain the binary recursive splitting algorithm that is used to fit regression trees.
Can you provide a formal argument how regression trees relate to ordinary least squares?
(b) Classification trees. You are given the following cloud of points with two separate labels reflecting a binary classification setting for a categorical dependent variable yi ∈ {0, 1} and two numeric features X1, X2. Can you illustrate what the decision boundary would look like when fitting trees?
4. Asymptomatic Testing and Optimal Self Isolation
You are an economist advising the government to devise a socially- and economically optimal testing and self isolation strategy.