一、机器学习的定义
机器学习(Machine Learning)是计算机科学的子领域,也是人工智能的一个分支和实现方式。机器学习所关注的是计算机程序如何随着经验积累自动提高性能。机器学习的形式化描述: 对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么就称这个计算机程序在从经验E学习。
机器学习主要的理论基础涉及到概率论、数理统计、数值逼近、最优化理论、计算复 杂理论等,核心要素是数据、算法和模型。
二、机器学习的发展
机器学习的发展分为知识推理期、知识工程期、浅层学习和深度学习几个阶段。在机器学习的发展过程中,随着人们对智能的理解和现实问题的解决方法演变,大致出现了符号主义、贝叶斯、联结主义、进化主义、行为类推主义五大流派。
三、机器学习的演化
四、机器学习、人工智能和数据挖掘
机器学习是人工智能的一个分支,它是实现人工智能的一个核心技术,即以机器学习为手段解决人工智能中的问题。机器学习是通过一些让计算机可以自动“学习”的算法并从数据中分析获得规律,然后利用规律对新样本进行预测。
数据挖掘是从大量的业务数据中挖掘隐藏、有用的、正确的知识促进决策的执行。数据挖掘的很多算法都来自于机器学习,并在实际应用中进行优化。机器学习最近几年也逐渐跳出实验室, 解决从实际的数据中学习模式,解决实际问题。数据挖掘和机器学习的交集越来越大。
五、机器学习典型应用领域
艺术创作
金融领域
医疗领域
自然语言处理
网络安全
工业领域
娱乐行业
六、机器学习应用
人机大战
AlphaGo是深度卷积神经网络CNN、加强 学习RL、蒙特卡洛树搜索MCTS三者相结合的产物
趋势预测
Google流感趋势预测
社保欺诈
反垃圾邮件系统
个性化推荐
七、机器学习流程
机器学习是一门入门容易但精通难的学科
机器学习分析人员需要掌握行业知识以了解业务流程、理解数据背后的隐含信息以合理解读数据、从变化的角度和时间维度把握需求以确定使用哪些数据,这是数据分析的基础
机器学习的主要流程是明确分析目标、数据收集、数据预处理、建模分析、结果评估、部署使用以及学习更新。
八、机器学习怎么做
明确数据分析目标:明确数据分析目标是机器学习首要的重要步骤,这个步骤需 要与用户进行充分的沟通。
数据收集:充足、全面的高质量数据是机器学习的基础。
数据预处理:数据清理,为保证数据的质量,必要的数据治理是需要的。
数据建模:算法本身没有绝对的好坏,不同的机器学习算法都有各自的使用范围。选择合适的建模方法或算法,算法的好坏需要实验比较确定。此阶段是机器学习的核心部分,使用精巧复杂的分析方法从 数据中提取知识,包括选择建模技术、生成测试设计以及构 建和评估模型。算法调优(包括参数或结构等方面),机器学习算法是科学,应用是艺术。
效果评估:选定模型之后,就可以评估机器学习结果在多大程度上能够 帮助实现业务目标。此阶段的要素包括评估学习结果,以便 为机器学习的过程提供反馈。
部署使用 更新:有效的机器学习结果会改善客户业务决策的效果,给客户带来价值。因为业务可能发生变化,在部署过程中需要更新机器学习的模型等。机器学习不是一劳永逸的事情(递增式学习)。
九、机器学习常用算法
监督学习:支持向量机SVM、决策树、朴素贝叶斯分类、k-近邻算法KNN
非监督学习:主成分分析、奇异值分解、K-均值聚类
强化学习:Q-learning
聚类算法
分类算法
回归分析
关联分析
十、数据挖掘常用算法
推荐算法
社会网络分析-文本分析
十一、机器学习常见问题
数据质量问题与预处理
数据量较少
数据量过多
维度灾难
数据不完整
异常数据
十二、数据分析常见陷阱
1、错误理解相关关系
事物间的相关性并不意味着存在因果关系,或者有可能其因果关系颠倒了
需要深入理解业务,规避大部分错误
需要分析是否由第三方变量同时引起两种变量的变化,找出其原因
2、错误的比较对象
机器学习中的结果或效果进行比较时,容易将不同样本集进行结果比较,比较对象不合理,其结果自然无效,结论便不能成立
3、数据抽样
数据抽样时如果出现偏差可能会影响分析结果
需要考虑采样标准
4、忽略或关注极值
忽视极值可能失去某类样本或丢失某项重要特征
过于关注极值可能会对结果造成偏差,影响结论
5、相信巧合数据
实验中多次重复实验可避免巧合数据的出现
6、数据未做归一化
两个数据进行比较时,容易进行总数比较,而忽视比例的比较
7、忽视第三方数据
搜集或使用爬虫获得更多数据使数据源更丰富
8、过度关心统计指标
可能会忽视某些方法或结论成立的前提条件
十二、机器学习方法的选择
理解目标要求是机器学习方法选择的关键,首先要 对问题进行分类,如果数据集中有标签则可进行监 督式学习,反之可应用无监督学习
熟悉各类机器学习方法的特性是分析方法选择的基 础,不仅需要了解如何使用各类分析算法,还要了解其实现的原理
在选择模型前,要对数据进行探索性分析
机器学习方法选择过程中可在几个可能模型中分析选出较优的模型
选择模型后,比较不同模型的拟合程度,反复调整参数使模型结果趋于稳定
十三、机器学习项目团队的组建
职能岗位
项目经理
业务专家
机器学习工程师
数据建模人员
可视化人员
评估人员
其他
十四、机器学习人才培养的难题
数理要求高
学习成本高
跨学科综合能力
实践机会少
十五、机器学习技能要求
十六、常见的机器学习平台
Python
R
TensorFlow
Caffe
开源社区Github