惠州网站建设 骏域网站建设想注册一个公司怎么注册
惠州网站建设 骏域网站建设,想注册一个公司怎么注册,邵阳相亲网站,国家企业信用公示信息公示网吴恩达机器学习深度学习前言机器学习部分特征缩放梯度下降是否收敛分类算法逻辑回归决策边界逻辑回归的成本函数损失函数 L梯度下降实现过拟合问题Solusion深度学习部分需求预测神经网络计算机视觉神经网络层向前传播的神经网络推理基本模型的发展前馈神经网络卷积神…吴恩达机器学习深度学习前言机器学习部分特征缩放梯度下降是否收敛分类算法逻辑回归决策边界逻辑回归的成本函数损失函数 L梯度下降实现过拟合问题Solusion深度学习部分需求预测神经网络计算机视觉神经网络层向前传播的神经网络推理基本模型的发展前馈神经网络卷积神经网络CNN卷积池化简单RNNRNN变体 LSTM GRULSTM长短期记忆网络GRUtransformer结语前言课程已经学了将近一半才想起来记笔记 学的时候总以为自己能记得住 就光想着偷懒 但是事实说明不手动敲一下实时的学习体会是不行的事实上我已经忘了上个星期学了啥… 这个月争取补上尽量 话不能说太满…题外话今天刚刚看了马斯克最新的一期访谈 就聊到了 AI AGI 机器人的一些发展 加上最近几天 千问 元宝大模型的突然爆火 这才刚刚开年 像阿里 字节这些大厂就豪掷这么多亿 摆明了让我们薅这个羊毛 那为啥呢 资本也不傻呀对吧 具体原因咱小老百姓也不晓得 不过每天薅一杯奶茶还是舒服的说来也巧 我前段时间看了对于目前国内大厂财报的分析 目前国内的局势总体来说就是四大金刚五小龙 在过去的一年 豆包毫无疑问是国内的TOP1 给字节带来的受益也是非常可观的 我想大部分人现在有问题都不会去搜百度而是选择豆包 这也是目前百度在5小龙垫底的原因之一把 好了就说到这吧 其余大家感兴趣也可以搜来看看 兴许可以拿来吹吹牛X其实 我觉得这门课学起来 还是相当有趣 我时不时就回想起一句话 在现在这个时代即便你不学计算机 仍然需要去了解 机器学习及其相关的知识 因为可能十年之后AI真的是会重塑各行各业 就拿最近写的一些行测题目举例子 也都会出现AI和当前生产生活的一些跨界融合作为题干机器学习部分特征缩放对于特征缩放这个概念我们引入一个老生常谈的模型 对于给定的一些特征对房产进行估值 这里跟前面不同的是 这里的重点不在于估值而是在于参数的合适选取其实下面这张图想要告诉我们的事情很简单 对于一个范围比较大的变量 x1 这里指代的是房屋面积 我们规定它的取值范围是300-2000如果这里我直接告诉你 x1前面的系数w1 选取必须要谨慎 这是不太好的 因为凡事往往都有一个对比 那么这个时候我们聚焦于x2它指代的是卧室的数量 我们将它的范围限定为0-5 那么如果他前面的系数w2 突然增大10 对于整体的价格 也仅仅最多变动50而w1就不一样了 假如此时的房子是2000平米的 w1每每变动 对于价格的影响都是2000正负 这对于x2 它的影响就相当大了因此 往往一个优秀的模型对于这种范围比较大的 参数 它前面的系数会选取的格外谨慎下面 上部分的两张图就是我们 特征 到 成本函数的等高线图 不难发现的是 对于范围较大的x1前的参数w1 它只要变化一点 对于整体的影响就非常大 这也符合我们前面的分析 从图像上来看是一个椭圆这其实非常像概率论中的二维随机变量的图 不知道有没有联系…-下部分的两张图是对特征进行变换之后 使得 我们的曲线图趋向于一个圆 这是下面要介绍的内容 也就是本小节的重点——特征缩放基于平均值的归一化基于正态分布的归一化 那么学过正态分布的朋友肯定知道 要想进行下面的这种标准化 那么就必须计算出均值u以及标准差σ对吧 然后这个新的变量就服从标准正态分布 相应的 对于这两个新变量的范围就成功被我们规格化了进行合适的特征缩放往往是可以加快梯度下降的速度的梯度下降是否收敛梯度下降的目的是找到参数 w 和 b 使得能够最小化 代价函数 j下面的这张曲线图就展示了 梯度下降运行良好时 随着我们参数更新迭代的次数越来越多 代价函数就逐渐趋于一个稳定值了 这个时候我们就可以说 此时梯度下降是收敛的 这条曲线我们称之为学习曲线当然还有一种是依赖于自动收敛测试 大概的思路就是设置一个阈值 比如说此时代价函数的变化已经小于这个阈值 我们就可以说 此时收敛了分类算法区别于前面的线性回归 对于取值非常有限的情况 事实证明 使用线性回归并不能很好的来解决就比如下面个肿瘤分类模型 我们的最终目的是根据肿瘤的大小去估计是否是良性我们可以尝试设置一个阈值来感知 比如说当我们函数的值小于0.5 表现在图像上就是 结果位于y0.5下方 那么我们就认为是良性 反之就为恶性这个时候会有一个问题就是 假如出现了一个比较极端的训练样本 就可能会干扰我们的分类 就类似下面这种情况他的结果在图像上表现出来就是我们的决策边界向右移动了 这显然偏离了我们最开始的目的逻辑回归这可能是世界上使用最广泛的分类算法。这时候我们需要引入一个逻辑函数gz我们从这个关于z的函数就可以大致看出来 这个函数的图像 如果此时z为0那么分母就变成了2 整体的结果就如图像所示 与y轴的交点是0.5 如果z不断变大 直至趋向于无穷 整体的值是不断趋紧于1的 反之则趋向于0那么这个z到底是什么呢 从数值来看它就是我们前面说的线性回归的函数值 但是他的作用是结合sigmoid函数来实现逻辑回归这里我们来解释一下逻辑回归到底是如何工作的 我们通过计算的z值带入函数中 得到了一个0-1的数 这个时候我们将这个数看作为是一个概率 具体来说就是 在一组特定的参数 x w b下使得y1的概率 这个y在我们之前的例子中就是用于分类肿瘤是否为良性 理解这个是比较关建但是啊 我们的y 只能有一种取值 就像别人问你这题会不会 你回答他如会一样 这是不可取的 所以到底怎么来断定y的值到底是0 还是1呢 这个时候我们可以通过设置一个阈值来实现 比如说我规定 结果超过0.5 就可以说y1或者为真在右下角是一些等价替换 最终就是当wxb0的时候 y1决策边界有了前面的基础部分 那么下面这两张图片就是在说决策边界 至于这个东西到底怎么来理解 之后就明白啦首先我们来看第一张图片 这个时候我们的训练集 不在是单特征了 而是会有两个特征 一个是x1 一个是x2 这时候对应于我们的方程就很自然变成了二元方程对于红色的X我们视作为使得y为1的样本 而圆圈则是使得y为0的样本 在之前的单特征环节 我们总是想要去弄清楚什么时候y0什么时候y1 而在进行等价之后 发现其实想要找的是wxb的取值情况那么这里也是一样的 前面的w1 w2 b依旧是参数 这个时候我们不妨对其进行赋值 1 1 3 在计算完z的值之后 我们依旧想要知道这个z和0的大小关系这个东西就有点像啥吧 大部分朋友肯定知道 我们在研究一个函数的形态的时候常用的工具就是求导 比如说我现在想要知道这个函数的单调性 那么我肯定是令一阶导等于0对啊 这就相当于是一个临界状态那到这里也是一样的 我先二话不说把这条分界线找出来 就是下面这条紫色的线 实在看不懂就把 x2换成y就能看懂了非线性的决策边界逻辑回归的成本函数在之前 我们在计算成本函数的时候采用的是做差开方求和取平均的形式 但是在逻辑回归中并不可取 根本原因在于其函数形式会导致J呈现非U型 在图像上来看像一座又一座山峰 那么如果强行使用梯度下降来尝试找到最小值 那么很容易就掉进去了 也就是在寻找到一个局部最小值就停止了损失函数 L通过前面的学习 我们知道如果依旧使用之前在线性回归学习的成本函数 那么此时是非凸函数 说人话就是整体看起来并不是一个U形 那么我们就引入损失函数L对于y1的情况 我们的损失函数的形状是U的左半部分 由于我们关心的参数fz总是一个0-1的数 所以超过1的蓝色曲线是不要的 只保留粉色框框里面的内容 将其放大 就是左边的形态 我们会发现一件事情就是 随着f自变量的增大损失函数L的值是逐渐的趋紧于0的这也就意味着这一件事情 如果此时你的模型预测是1 那么损失就接近于0 这时候正好就是属于我们y1的情况 是不是感觉非常奇妙这是假如y0的时候 单调性和上面正好相反 大概是同增异减 这个时候如果f为0 那么损失函数 的值也接近为0 也就意味着估计大概率正确在引入新的损失函数之后 我们会发现其图像是凸函数 呈现出一个U型 这也就意味着我们可以采用梯度下降得到一个局部最小值 当最终找到一组参数w b能够最小化我们的成本函数 那么久可以得到一组相当不错的逻辑回归参数值对损失函数和成本函数进行简化 结合y只有两种取值 本质上是将一个分段函数 改造成了一个简化完的成本函数梯度下降实现我们依旧是选取了合适的学习率 来对每个参数进行不断更新 直到导数为0即我们的成本函数已经被最小化了与线性回归虽然长得很类似 但是由于我们对于函数f的定义发生了变化 所以 其实他们是完全不同的过拟合问题机器学习的目的是找出既不过拟合或者说高方差可以理解为波动程度大也不欠拟合的模型 这个刚刚好其实是比较难以把握的 所以我觉得才是值得去探索的对于过拟合问题 其实我们可以从它的名字来理解 比如第一张图 它的拟合效果就不好 因为给出的线性回归 并没有很好的匹配我们的训练集而相对而言的最右边的图片就是另一个极端 它通过了所有数据 但是我们并不认为他是一条好的曲线 反倒是过拟合了 因为非常有可能出现反常现象 例如对于同一个小区的房子 面积越大越便宜这是另一个例子Solusion上面说了这么多 下面我们来讨论一下如何解决过拟合问题1 使用更多的数据来进行训练2 特征选择3 正则化 减少参数大小深度学习部分深度学习是机器学习的 “深度进化版”现在大火的 ChatGPT、图像识别、语音转文字基本都属于深度学习。其实深度学习的核心就是深度 这么一说看似是废话 但是事实上确实是这样 现实生活中比较复杂的问题 所以我们在说深度学习区别于机器学习的特征是什么呢 主要有两个 一个是巨大 一个是缺乏可解释性 因为我们在学习机器学习的时候往往都是可以通过数学公式来严格证明的 但是深度学习往往一层都有很多参数 有些时候是没办法通过数学来证明 而是通过讲故事的方法 比如 一种动物每捕食一次就会休息两次这种下面我们来学习当今世界上最强大的学习算法——神经网络相比于我们之前学习的逻辑回归和线性回归 神经网络的神奇之处在哪呢 为什么这个概念已经提出好几十年了 但是最近几年才这么火爆你 一方面是科技算力的进步 因为神经网络的驱动器就是GPU 那么什么是GPU大家都知道CPU 如果用一个比如来形容 CPU就是学霸 但是他一次只能又快又准的做一道题 而相反GPU是一群小学生 每个人只会加减乘除这种运算 而神经网络正好需要的就是小学生 因为在这个网络里面存在着海量的基础运算 人数越多就意味着并行的效率越高逻辑回归只能用「你手工造好的特征」而神经网络能自己从原始数据里「学出特征」。逻辑回归你必须手动喂它“特征”逻辑回归的结构非常简单输入 → 加权求和 → 输出概率它不会自己抽象规律只会做线性加权。你必须提前告诉它• 图片里有没有边缘• 声音里有没有高频• 文本里有没有某个关键词• 数据里哪些是有用的字段这些都叫人工特征工程。你不造它就学不到。逻辑回归 只会算线性公式的“笨学生”必须你把知识点整理好喂给它。2. 神经网络自带「特征提取层」神经网络有多层隐藏层这就是关键• 第一层学简单特征边缘、纹理、基本组合• 中间层学复杂特征形状、结构、模式• 最后层学分类/预测整个过程原始数据 → 网络自己学特征 → 再做预测你不用告诉它“什么是边缘”“什么是结构”它自己从数据里学。3. 最直观的对比以图片分类为例• 逻辑回归你要手动写算法提取边缘、角点、颜色直方图…再把这些喂给模型。• 神经网络如CNN直接丢像素进去它自己学会边缘 → 纹理 → 部件 → 整体物体。不用人工设计特征。4. 总结成一句最精髓的话• 逻辑回归只能学习特征的权重特征要你手工造。• 神经网络可以直接学习「特征本身」不用手动设计。这就是为什么深度学习一出来传统特征工程就慢慢被替代了。需求预测下面展示的是根据多个特征来预测一件衬衫的是否会畅销在这里我们引入层的概念 下面这三个小圆圈就构成了一个层 他们依靠的是相似的输入在上面的例子中我们已经了解到了层的概念 但是如果要构建一个大的神经网络 如果每一层都进行手动选择哪些特征作为输入 其实是不现实的 那么往往使用笨方法会起到奇效 也就是是说 我们不纠结选择而是干脆不选择具体来说就是让每一个特征作为下一层条件 在不断的计算中 自动去忽略那些无关紧要因素的影响并且去调整影响因素的权重 这是很牛的如果遮住最左边的输入层 只保留中间的隐藏层和输出层 那么我们就会发现这其实就是逻辑回归 我们在用三个更为“优秀”的特征来预测这件衬衫是否会畅销那么为什么说这些特征更优秀呢 这是因为这些特征相比于价格 原料这些原始特征更加有望去进行成功预测 但是在逻辑回归中这些优秀的特征是需要我们自己去设置的但是神经网络里 我们只需要丢给他像下面输入层那样的基础数据 就可以自己去学习 自己背后去生成这些优秀特征 这也是神经网络的神奇之处神经网络计算机视觉下面就是一个经典的应用场景 图像识别 我们将这个1000*1000像素的图像放大 我们得到了每一个像素的亮度值然后我们将其组成一个向量X 这就构成了我们的输入下面就展示了在背后神经网络在不同的隐藏层都在干什么我们会惊奇的发现 在第一层他在试图找寻相似的轮廓 第二层他在找对应位置上是否存在眼睛 第三层他已经通过大致的拼凑在试图匹配人脸了 你会发现他完全是在模仿我们人脑的思维轨迹 但是这些东西都是他自己学习的并没有人告诉他应该这么做 这是很惊人的神经网络层下面就是结合了我们之前学习的逻辑回归 继续详细的展示了具体每一层的神经元的激活值是如何计算的下面的小标表示的是一个顺序 上面的小标展示的是当前的层数如果将一个神经元的传递过程放大就是下面这样 第一层的输出就是第二层的输入如果是一个二元分类 那么他就会根据aactivation这个激活值来决定是输出yes还是no向前传播的神经网络推理推理下面是一个关于温度和时间影响咖啡好坏的例子 我们通过输入一组向量 分别表示温度和时间 来去进行推理在这种情况之下 烹饪的咖啡是否是好的下面就是具体的推理过程基本模型的发展前馈神经网络下面就是每一次神经网络的基本构成及其原理 需要注意的是 由于我们计算出来的阈值很可能是0-1之间的数 所以我们常常利用的是非线性的函数 而并非像高低电平一样的函数卷积神经网络CNN卷积池化加快计算速度 保留最典型的特征问题 所以提出了RNN简单RNN原理主要功能缺点通过下面的结构就可以看出来 非常明显 上下文限制 和速度慢需要注意的是我们通过SIGMOD函数返回的是一个0-1的值 一般用于控制更新或者遗忘的比例 而通过tanh函数返回的是一个-1到1的值 可以控制增减 这个在下面还是会用到 比较重要RNN变体 LSTM GRULSTM长短期记忆网络基本结构GRUtransformer这是在17年提出的一个模型 到现在为止已经过去了八年多 但是如今依然是最优秀的模型 在学习transform架构之前 我们需要它和前面的区别是什么1 彻底抛弃循环结构 我们关注到前面的RNN它每次在计算的时候 不仅需要单次的输入 而且需要根据前面的输出作为参数来进行传递2 完全基于自注意力机制bert编码器 双向注意力 文本处理GPT解码器 单向注意力经典模式结语上个月浪费不少时间在纠结是否能进复试上 一方面确实今年发挥真的一般 小池子不知道会不会爆炸 -另一方面有时候很难一直保持理性对待一些 啥软引流贴 明明知道自己已经花了大功夫搜集资料 理性分析过了 心里大概有数了 但还是有些难绷 在做相关事情的时候难免被影响心态~2月份 3个小目标 1 python过一遍基础以前听老师说过python是比较好入门的 加上有C基础也了解过一些 应该学起来不难 2 机器学习深度学习 前部分章节争取学完3 省考试一试 平时没事写一写题 记得第一次做行测就蒙了60多 希望真考试也有好运气 万一以后想考公也已经知道怎么学了~平时别吓自己 少看社交平台引流帖 等月底成绩出来 如果意料之中 就抓紧准备后续就行