2026/4/18 3:16:50
网站建设
项目流程
哪种公司一般会做网站,wordpress 导航图标,杭州大的做网站的公司,备份wordpress到百度云机器学习核心概念与主流算法#xff08;通俗详细版#xff09;
机器学习本质上就是让计算机从一堆数据里“自己找规律”#xff0c;然后用这个规律去解决新问题。比如让计算机看1000张猫和狗的照片#xff0c;它总结出“猫有尖耳朵、狗有大尾巴”的规律后#xff0c;就能…机器学习核心概念与主流算法通俗详细版机器学习本质上就是让计算机从一堆数据里“自己找规律”然后用这个规律去解决新问题。比如让计算机看1000张猫和狗的照片它总结出“猫有尖耳朵、狗有大尾巴”的规律后就能分辨新的照片是猫还是狗。下面用大白话生活化例子把核心概念、模型评价、主流算法讲透保证全面又好懂。一、 机器学习基本概念先搞懂“地基”1. 核心四件套缺一不可可以把机器学习比作**“学生做题找规律”**对应四个核心要素数据就是“练习题”。特征X XX题目的已知条件比如“照片里动物的耳朵形状、尾巴长度”。标签y yy题目的标准答案比如“这是猫/这是狗”“房价是100万”。注意有些任务没有标签比如把一堆照片分成“长得像的几类”这种叫无监督学习。模型就是“学生总结的规律公式”。比如“耳朵尖尾巴短猫”数学上写成y f ( X ) yf(X)yf(X)f ff就是模型。损失函数就是“错题本”。衡量模型预测的答案和真实标签的差距。比如模型预测房价是90万实际是100万损失就是10万。差距越小模型越好。优化器就是“老师帮学生改错题的方法”。发现模型预测错了优化器会调整模型的参数比如把“耳朵尖”的权重调高让下次预测更准。最常见的就是梯度下降——像下山一样一步步找到损失最小的“最低点”。2. 机器学习三大类按“有没有标准答案”分学习类型通俗理解有没有标签y yy生活例子监督学习做“有答案的练习题”有看带标签的猫狗照片学分类看历史房价数据学预测房价无监督学习玩“找相似的拼图”无把一堆用户的购物记录分成“喜欢美妆的”“喜欢数码的”几类强化学习玩“闯关游戏”无直接标签有“奖励/惩罚”机器人走路走对一步给奖励摔了给惩罚慢慢学怎么不摔跤3. 两个关键问题新手必踩坑过拟合学生死记硬背练习题换一道新题就不会了。比如模型记住“照片里的猫是白色的”遇到黑色的猫就认不出来。欠拟合学生没总结出规律连练习题都做不对。比如模型只总结“有尾巴的是猫”结果把狗也当成猫。二、 模型评价方法与指标怎么判断“模型好不好用”训练出模型后不能直接用——得先“考试打分”。核心是看模型对“没见过的新数据”准不准泛化能力。1. 三种“考试方法”数据怎么分把所有数据分成“练习题”和“考试题”常见三种分法留出法最简单操作把数据按7:3或8:2分成训练集练习题和测试集考试题。例子1000张猫狗照片700张用来训练300张用来测试准确率。缺点运气不好的话测试集全是难分辨的照片分数就不准。交叉验证法最靠谱操作把数据分成5份或10份轮流用4份训练、1份测试最后取平均分。例子1000张照片分10份每次用900张训练100张测试测10次取平均准确率。优点分数稳定不会因为一次分法不好而误判模型。自助法适合小数据操作对小样本数据比如只有100张照片反复“有放回抽样”生成新的训练集。缺点会引入抽样偏差不如交叉验证常用。2. 监督学习评价指标分“回归”和“分类”两类1 回归任务预测连续值比如房价、气温目标是预测值和真实值越接近越好常用4个指标指标通俗理解怎么看好坏例子均方误差MSE预测值和真实值差的平方的平均值数值越小越好预测房价误差(90-100)² (110-100)² / 2 100均方根误差RMSEMSE开根号和原数据单位一致数值越小越好上面例子RMSE10万直接对应房价误差平均绝对误差MAE预测值和真实值差的绝对值的平均值数值越小越好对异常值不敏感上面例子MAE(1010)/210万决定系数R 2 R^2R2模型能解释数据规律的比例越接近1越好0表示模型瞎猜R 2 0.9 R^20.9R20.9表示模型能解释90%的房价变化原因小提醒MSE对异常值敏感比如有一个离谱的预测误差会让MSE暴涨MAE更稳健。2 分类任务预测离散类别比如猫/狗、垃圾邮件/正常邮件先搞懂混淆矩阵分类问题的“万能基础表”它是所有指标的源头预测为正例比如猫预测为负例比如狗真实正例猫真阳性TP猜对了假阴性FN把猫当成狗漏检真实负例狗假阳性FP把狗当成猫误检真阴性TN猜对了基于这个表衍生出5个常用指标指标公式大白话版通俗理解适用场景准确率Accuracy(TPTN)/(总样本数)整体猜对的比例样本均衡猫和狗数量差不多精确率PrecisionTP/(TPFP)预测为正例的样本里真的是正例的比例怕误检比如垃圾邮件识别宁可漏过也别把正常邮件标为垃圾召回率RecallTP/(TPFN)真实正例里被预测出来的比例怕漏检比如癌症检测宁可误判也别漏掉癌症患者F1分数2×(精确率×召回率)/(精确率召回率)平衡精确率和召回率两者都要兼顾比如电商商品分类AUC-ROCROC曲线下的面积模型区分正负例的能力样本不均衡比如1000个样本里只有10个猫小提醒准确率看着好用但样本不均衡时会骗人比如990只狗10只猫模型全预测成狗准确率99%但猫全错了。3. 无监督学习评价指标没有标准答案怎么打分无监督学习比如聚类没有标签只能看“聚的类紧不紧、类之间离得远不远”常用两个指标轮廓系数取值-1~1越接近1越好。通俗理解同一个簇里的样本挨得近不同簇的样本离得远轮廓系数就高。互信息如果有外部标签比如聚类后想对比真实的用户类别可以衡量聚类结果和真实标签的匹配度。三、 主流AI算法原理逐个拆解通俗好懂算法是机器学习的“工具”不同工具适合不同任务。下面按回归、分类、聚类、深度学习四大类讲每个算法都讲“核心思想例子优缺点”。1. 回归算法预测连续值房价、气温、销量1 线性回归最基础相当于“学一次函数”核心思想假设特征和标签是直线关系比如“房子面积越大房价越高”拟合一条最优直线y ω x b y \omega x byωxbω \omegaω是斜率b bb是截距。怎么找最优直线最小化均方误差MSE——让所有数据点到直线的距离平方和最小。例子用“面积、楼层、地段”3个特征拟合直线预测房价。扩展玩法多项式回归特征不够用加入x 2 x^2x2面积平方、x 1 x 2 x_1x_2x1x2面积×地段拟合曲线解决非线性问题。正则化Lasso/Ridge怕过拟合给斜率ω \omegaω加个“惩罚”让它别太大防止模型死记硬背。优缺点简单好理解、计算快但只能处理线性关系复杂问题不行。2 ARIMA回归专门预测时间序列销量、股价、气温核心思想针对随时间变化的数据比如每月销量总结“历史规律”预测未来。比如“销量每年双11暴涨春节下跌”。模型三要素A R I M A ( p , d , q ) ARIMA(p,d,q)ARIMA(p,d,q)AR§ 自回归“今天的销量由前p天的销量决定”。比如p3就是用前3天销量预测今天。I(d) 差分解决数据“不平稳”问题。比如销量每年都涨有趋势做1次差分今天销量-昨天销量就变成平稳的波动数据了。MA(q) 移动平均“今天的销量由前q天的预测误差决定”。比如q2用前2天的误差调整今天的预测值。例子用过去12个月的奶茶销量预测下个月销量。优缺点专门解决单变量时间序列问题效果稳但不能处理多特征比如加“天气”“促销”复杂场景不如LSTM。2. 分类算法预测离散类别猫/狗、垃圾邮件/正常邮件1 决策树像“相亲时的筛选流程”核心思想模拟人类一步步做决策的过程比如“相亲时先看颜值→再看性格→最后看收入”最终决定“要不要继续聊”。算法里就是“先选一个最能区分类别的特征→把数据分成两堆→再在每堆里选特征→直到所有数据都分好类”。怎么选特征用“信息增益”“基尼系数”判断——哪个特征能让数据分得更干净就先选哪个。例子用“耳朵形状、尾巴长度、叫声”三个特征建决策树分辨猫和狗耳朵尖→是→叫声是喵→是→猫否→狐狸噪声 →否→尾巴长→是→狗否→兔子噪声关键步骤剪枝树长得太深会过拟合比如记住“白色的猫才是猫”剪去不重要的分支让模型更通用。优缺点结果可视化、好解释但单棵树容易过拟合不稳定。2 随机森林“多个决策树专家投票”核心思想解决决策树的缺点——建一堆决策树让它们投票决定最终类别。怎么建多棵树对训练集有放回抽样比如1000个样本抽1000次生成不同的子训练集有的样本会重复有的会被漏掉。每个子训练集建一棵决策树随机选部分特征比如3个特征里只选2个。分类时多数投票比如10棵树里7棵说猫就判为猫回归时取平均值。例子10棵决策树一起分辨猫狗避免单棵树“看走眼”。优缺点抗过拟合、稳定、能处理高维数据缺点是模型复杂不好解释。3 KNN“看邻居是谁我就是谁”核心思想“物以类聚人以群分”属于懒惰学习——训练时啥也不学预测时才干活。预测步骤选一个数字k kk比如k5代表“看最近的5个邻居”。计算待预测样本和所有训练样本的距离比如欧氏距离两点之间直线距离。找距离最近的5个邻居看它们的类别——多数投票分类或取平均回归。例子新样本的5个邻居里3个是猫2个是狗→判为猫。关键参数k kk值越小模型越敏感容易过拟合k kk值越大模型越迟钝容易欠拟合。优缺点简单易懂、不用训练但数据量大时计算慢对距离敏感比如特征单位不一样要先归一化。4 朴素贝叶斯“靠概率猜类别适合文本分类”核心思想基于贝叶斯定理计算“样本属于某个类别的概率”概率最大的就是预测类别。关键假设特征之间相互独立“朴素”的由来。比如分辨垃圾邮件时假设“免费”“中奖”这两个词的出现是独立的。计算步骤以垃圾邮件识别为例统计训练集垃圾邮件占比30%先验概率垃圾邮件里“免费”出现的概率是80%条件概率。新邮件里有“免费”→计算“是垃圾邮件的概率”和“是正常邮件的概率”→概率大的就是结果。例子垃圾邮件识别、文本分类比如新闻分体育/娱乐。优缺点训练快、适合高维稀疏数据比如文本但特征独立的假设在现实中很少成立复杂场景效果一般。5 支持向量机SVM“找一条最宽的分界线”核心思想在特征空间里找一条最大间隔的超平面把不同类别的样本分开。超平面二维是直线三维是平面高维是超平面。间隔样本到超平面的距离间隔越宽模型泛化能力越强。关键概念支持向量距离超平面最近的样本点决定了超平面的位置。核函数解决线性不可分问题。比如数据是“环形分布”用高斯核函数把数据映射到高维空间就能找到超平面了。例子用“花瓣长度、宽度”两个特征找直线分开鸢尾花的两个品种。优缺点小样本下效果好泛化能力强但数据量大时训练慢对参数敏感。3. 聚类算法无监督“把相似的东西放一堆”1 K-Means“指定分几堆然后慢慢调”核心思想把数据分成k kk个簇让簇内样本尽量像簇间样本尽量不像。聚类步骤像分水果选k kk个样本当“初始簇中心”比如选2个苹果当两堆的中心。计算每个样本到k kk个中心的距离分到最近的簇里。重新计算每个簇的中心簇内样本的平均值。重复2-3步直到簇中心不再变化。例子把用户分成k 3 k3k3类分别推荐不同的商品。优缺点简单高效、适合大规模数据缺点是要预先指定k kk值对初始中心敏感只能分球形簇环形数据分不好。2 DBSCAN“按密度分堆能找噪声”核心思想基于密度聚类——“密度高的地方就是一个簇密度低的地方是噪声”。关键概念用“人扎堆”举例ε \varepsilonε邻域每个人周围1米的范围。MinPts邻域里至少有5个人才算“扎堆”。核心点邻域里≥5个人比如广场中央的人。边界点在核心点的邻域里但自己邻域里人不够比如广场边缘的人。噪声点不在任何核心点的邻域里比如单独站在路边的人。聚类步骤遍历所有人找到所有核心点。把相邻的核心点划成一个簇比如广场上的几堆人。边界点归到最近的核心点簇里。剩下的是噪声点。例子把地图上的GPS点聚类找出人群聚集的商圈孤立的点是噪声。优缺点不用指定k kk值能分任意形状的簇能识别噪声缺点是对ε \varepsilonε和 MinPts 敏感高维数据效果差。4. 神经网络与深度学习“模拟人脑处理复杂问题”深度学习就是**“深层的神经网络”层数越多越能提取复杂特征。可以把它比作“多层流水线工人”**每层工人负责提取一个特征最后一层工人给出结果。1 基础从单层感知机到多层感知机MLP单层感知机最简单的神经网络相当于“一个线性分类器”。结构输入层特征→输出层预测结果。缺点只能处理线性可分问题解决不了“异或问题”比如“1和0异或得10和0异或得0”画不出一条直线分开。多层感知机MLP给单层感知机加隐藏层引入激活函数比如ReLU解决非线性问题。结构输入层→隐藏层可多层→输出层。工作原理输入层接收特征→隐藏层层层提取特征比如从“像素点”提取“边缘”再提取“形状”→输出层给出预测。训练方法反向传播——从输出层的误差出发一层层往回调整参数最小化损失。2 卷积神经网络CNN“专门处理图像”核心思想利用图像的局部相关性比如猫的耳朵是连在一起的不用看整张图用“卷积层池化层”提取特征减少参数。核心层作用用看猫的照片举例卷积层像“放大镜”每次看图片的一小块提取局部特征比如边缘、纹理。关键权值共享——同一个卷积核放大镜用在整张图上大大减少参数。池化层像“压缩图片”把特征图缩小比如2×2的区域取最大值减少计算量防止过拟合。全连接层把卷积层提取的特征映射到最终的分类结果猫/狗。经典模型LeNet-5手写数字识别、AlexNetImageNet大赛冠军、ResNet用残差连接解决梯度消失能做很深的网络。应用场景图像识别、目标检测比如YOLO算法、图像分割。3 循环神经网络RNN“专门处理序列数据”核心思想处理有顺序的数据比如文本、语音、时间序列网络里有“记忆”能记住前面的信息。比如读句子“我爱吃苹果它是一种___”RNN能记住前面的“苹果”预测后面是“水果”。结构特点有循环连接——隐藏层的输出会反馈到自己作为下一个时刻的输入。缺点长期依赖问题——句子太长时后面的信息会“忘记”前面的内容比如读100字的句子记不住开头的词。4 LSTM/GRU“改进版RNN记性更好”核心思想给RNN加门控机制像“开关”一样选择性地“记住有用的信息忘记没用的信息”。LSTM的三个门遗忘门忘记不重要的信息比如句子里的“的”“了”。输入门记住重要的信息比如句子里的“苹果”。输出门输出当前需要的信息。GRU简化LSTM的结构只有两个门训练速度更快效果和LSTM差不多。应用场景语音识别、机器翻译、时间序列预测比如用多特征预测销量。5 Transformer“现在最火的模型基于注意力机制”核心思想不用循环连接靠自注意力机制同时看所有位置的信息比如读句子时同时看“苹果”和“水果”的关系训练速度快。关键创新多头注意力从不同角度看特征之间的关系。位置编码给序列数据加位置信息因为注意力机制没有顺序。应用场景大语言模型比如GPT、BERT、多模态任务比如图文生成。四、 算法怎么选一张表搞定任务类型推荐算法适用场景回归简单线性线性回归房价预测、成绩预测回归时间序列ARIMA单变量/LSTM多变量销量预测、股价预测分类可解释性要求高决策树医疗诊断、风控评分分类高维数据、稳定随机森林电商商品分类、客户流失预测分类文本、小样本朴素贝叶斯/SVM垃圾邮件识别、文本分类聚类大规模、球形簇K-Means用户分群、商品聚类聚类任意形状、含噪声DBSCAN异常检测、GPS点聚类复杂图像任务CNN目标检测、图像分割复杂序列任务LSTM/Transformer机器翻译、语音识别