疫情居家起间,学习了北京邮电大学 艾新波老师的MOOC 课程之R语言数据分析,十分精彩,特整理听课笔记,便于回顾,也飨读者。全课程共有三篇笔记,本篇为第一篇。
数据科学最令人着迷的地方:一旦进行量化,看似风马牛不相及的事物或属性,经过数学运算,居然可以画上等号,刻画各种各样的规律。
第一章 问道
艾新波 北京邮电大学 副教授 数据科学最令人着迷的地方:一旦进行量化,看似风马牛不相及的事物或属性,经过数学运算,居然可以画上等号,刻画各种各样的规律。
第二章 所谓学习,归类而已
课程主题,数据分析是主体,R语言是工具。
数据挖掘,和机器学习,所涉及的内容基本上是一样的。就算法模型而言,这两者不需要区分。
数据挖掘,就是数据管理技术和数据分析技术。数据分析,其实就是机器学习。
所以本课程中,数据挖掘 数据分析 机器学习,这三个概念不做区分了。
数据分析 约等于,认识数据+关联+分类+聚类
机器学习的核心就是归类。因为机器学习,有监督学习–分类为代表,无监督学习–聚类为代表。因为分类,和聚类,都可以算作一种归类。
机器学习,所能发现的规律/模型,本质上就是某种关系结构。
有监督学习:映射关系
无监督学习:距离关系
机器学习的一般过程就是,“实事求是”,事就是数据,求就是算法,是就是模型。
求模型的过程,与数学化归的思想如出一辙,化未知f为已知h,用已知逼近未知。
所谓的机器学习,就是通过算法从模型集中选出一个最贴近观察记录的模型,用来表示我们想要的关系结构,要刻画贴近的程度,需要一个量化标准,我们称之为策略。所以,机器学习的三要素就是,算法、模型、策略。
何为建模?模型真的是,一砖一瓦建立的吗?其实不是,其实更多是一个选模的过程。模型不在于构建,而在于选择。模型的选择,其实是一个优化的问题。
建模好比是,量体裁衣。不同类型的模型集,每年都层出不穷(类似与不同类型的衣服款式层出不穷),款式(模型类)选定之后,显然要做的事情就是确定其参数(确定好参数,便拟合好了模型)。
科学推理的方式,就是两种,归纳(从特殊到一般)和演绎(从一般到特殊)。
所以机器学习的过程,是一个归纳的过程。归纳法,由于没有(或者无法)穷举考察对象的全体,因此它的结论带有猜想的性质,属于似真推理,或然性推理。将获得模型进行应用的时候,可以视为一种演绎的过程。
格言联璧话学习
- 数学是宇宙的语言,这个世界真正的逻辑是概率计算。
- 相关并不意味着因果。
- 所有的模型都是错的,但是有些模型是有用的。
- 没有明确的证据表明,一个模型会优于另外一个模型。
- 成功的机器学习的应用,不是因为拥有最好的模型,而是拥有最多的数据。
- 特征选不好,参数调到老。
- 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。
- 如何赢得机器学习的比赛,那就是把别人的模型拿过来然后集成在一起。
- 数据科学家就是一个比计算机科学家懂更多统计,比统计学家懂更多统计的人。
- 关键在于问题而非模型本身,数据科学家的基本素养,首先是业务敏感,其次算法老道,第三编程熟悉。
第三章 源于数学,归于工程
数学,是研究模式的科学。 机器学习的两大视角:概率与几何 通过一个监督学习的例子,可以发现,通过概率与几何的视角,就可以将诸多学习算法统一成一条线。 理论是灰色的,而工程之树常青。唯有实践才是完整的,一个最小的工程,都有书本上的理论所覆盖不到的地方。要想找对的感觉,最好的方式就是在具体的情境中实践。多一些工程思维,由理性认识再次上升到感性认识。