-
Notifications
You must be signed in to change notification settings - Fork 0
智能计算系统(2月11日)
人工智能:人制造出来的机器表现出来的智能
机器学习是对能通过经验自动改进的计算机算法的研究(Mitchell)
机器学习是用数据或以往的经验,以此提升计算机程序的能力(Alpaydin)
机器学习是研究如何通过计算的手段、利用经验来改善系统自身性能的一门学科(周志华)
典型监督学习过程:一堆训练数据,监督学习里面数据带有标签,通过机器学习方法的训练,得到机器学习的模型,当来了新的数据,送到模型,模型会预测一个结果
标量:斜体小写字母
向量:黑斜体小写字母
矩阵:黑斜体大写字母
模型函数:H(x)
激活函数:G(x)
损失函数:L(x)
输入数据:x
真实值(实际值):y
计算值(模型输出值):y带上小尖帽
从最简单的线性回归模型开始,直至搭建出一个完整的神经网络架构
什么是回归(regression)和线性回归?回归是一种用统计方法来分析一个因变量和一组自变量关系的方法
为什么叫做回归?因为在19世纪,英国有个科学家,做了身高回归,算出儿子身高与父亲身高的关系,得出一个结论,父母的身高可能异于平均身高,但是孩子的身高还是会往平均身高回归
线性回归是最简单,研究最充分
首先:单变量线性回归模型(一元回归模型):线性回归可以找到一些点的集合背后的规律,一个点集可以用一条直线来拟合,这条拟合出来的直线的参数特征,就是线性回归找到的点集背后的规律
多变量线性回归模型
寻找参数W,使得L(W)最小,可以用最小二乘法
这里用迭代法(梯度下降法)寻找参数:
1、初始先给定一个W,如0向量或随机向量
2、沿着梯度下降的方向进行迭代,使更新后的L(W)不断变小,迭代至找到使得L(W)最小的W值停止,从而得到回归模型参数
人工神经网络:
1943年,神经元模型,人类大脑计算模型
57-58年,感知机模型,单层,奠定现在神经网络主要主流模型基础
69年,感知机模型不能解决线性不可分的问题,XOR问题不能解决
86年,反向传播算法
98年,手写数字识别,卷积神经网络,LeNet
2006年,深度人工神经学习,AI复苏,在工业上巨大价值
06年之后,深度学习快速发展
生物神经元,生物学领域,一个生物神经元有多个树突(接受传入信息);有一条轴突,轴突尾端有许多轴突末梢(给其他多个神经元传递信息)。轴突末梢跟其它生物神经元的树突产生连接的位置叫做“突触”
人工神经网络借鉴和继承
机器学习领域,人工神经元是一个包含输入、输出与计算功能的模型。不严格的说,其输入可类比为生物神经元的树突,其输出可类比为神经元的轴突,其计算可类比为细胞体
x1,x2...xn是外界输入,每个输入有自己的一个权重w1,w2...wn,加权汇总,再通过一个激活函数,得到输出
生物神经元:人工神经元=老鼠:米老鼠
感知机(Perceptron)模型
H(x)=sign(wTx+b),sign(x)=1,x大于等于0;sign(x)=-1,x小于0
它对应的是一个超平面wTx+b=0,超平面可以将一个线性可分的数据集T里面的所有的样本点正确地分为两类
超平面:如果在二维空间里面的超平面就是一条一维的直线,三维空间里面的一个超平面就是一个二维的平面,四维空间里面的一个超平面就是三维体等等
感知机的目标找到(w,b)
sign()是一个激活函数,现在不多用了,因为被证明了,全部用线性激活函数,整个神经网络都不能去解一个线性不可分的问题,因此,目前工业上多用非线性激活函数
训练集,m组,每组里面有一个x,一个y,每一个x都对应了一个标签,y取值+1或-1,如何找到一个超平面,可以将正负样本分到平面两侧,证明数据集可分
分错的点与超平面的距离越小越好
距离怎么计算?距离在机器学习中是一个比较宽泛的概念,1、非负;2、自反;3、三角不等式
欧式距离
||w||是w的L2范数
误分类的点满足什么条件:
损失函数极小化的最优化问题可使用:随机梯度下降法
随机选取误分类点(xj,yj),对w,b以α为步长进行更新,通过迭代可以使得损失函数L(w,b)不断减小,直到为0