摘要:很多大学生在学习人工智能时会有一个疑问:为什么数学这么重要?人工智能看起来是编程、是算法、是模型,但这些表面上的“工具”背后,支撑它们的正是数学逻辑。就像建筑需要地基一样,人工智能的每一层技术结构都离不开数学作为支撑。
很多大学生在学习人工智能时会有一个疑问:为什么数学这么重要?
人工智能看起来是编程、是算法、是模型,但这些表面上的“工具”背后,支撑它们的正是数学逻辑。就像建筑需要地基一样,人工智能的每一层技术结构都离不开数学作为支撑。
换句话说,没有数学,就没有人工智能。数学不只是“辅助工具”,而是人工智能的操作系统。
在人工智能中,几乎所有的数据都会被转化为向量(vector)和矩阵(matrix)。
图像:像素点组成二维矩阵。文本:单词被转化为向量(词向量 embedding)。语音:声波被离散化为特征矩阵。因此,矩阵不只是一个数学概念,它是现实世界进入人工智能世界的翻译器。
在深度学习中,神经网络的每一层都可以理解为矩阵运算:
输入数据(矩阵) × 权重(矩阵) + 偏置(向量) → 激活函数 → 输出结果。整个训练过程,就是通过梯度下降来不断优化这些权重矩阵。
人工智能处理的是高维数据,高维度会导致计算量巨大、过拟合等问题。奇异值分解(SVD)和主成分分析(PCA)等方法,能够帮助我们降维,提取最有价值的特征。
人工智能的本质是在不确定中寻找规律。
比如:
概率是 AI 世界里的语言,它量化了不确定性。
贝叶斯定理被称为“人工智能的灵魂公式”:
P(A∣B)=P(B∣A)P(A)P(B)P(A|B) = \frac{P(B|A)P(A)}{P(B)}P(A∣B)=P(B)P(B∣A)P(A)
它解释了如何根据已有的先验知识,结合新的证据,推断某个事件发生的可能性。
应用举例:
医学诊断:结合症状与病史,计算患者患某种疾病的概率。搜索引擎:根据点击行为和用户画像,推断用户最可能想要的结果。机器学习模型,本质上就是在假设数据服从某种概率分布,并基于此进行学习。
在神经网络中,我们的目标是最小化损失函数。要知道如何让模型变得更好,就必须计算“损失函数对权重的导数”,也就是梯度。
wnew=wold−η⋅∂L∂ww_{new} = w_{old} - \eta \cdot \frac{\partial L}{\partial w}wnew=wold−η⋅∂w∂L
这就是梯度下降公式,其中:
LLL = 损失函数www = 权重参数η\etaη = 学习率积分更多用于概率分布的计算。比如:
在概率密度函数中,某一段区间的积分代表该事件发生的概率。在强化学习中,积分用于计算期望回报。梯度下降(GD):最基础的方法,但计算量大。随机梯度下降(SGD):每次用一部分样本更新,更高效。Adam 优化器:结合动量与自适应学习率,被广泛应用。优化算法的选择,直接影响模型的收敛速度和性能。
信息论中最核心的概念是熵:
H(X)=−∑p(x)logp(x)H(X) = -\sum p(x) \log p(x)H(X)=−∑p(x)logp(x)
熵衡量了一个系统的不确定性。熵越大,意味着系统越混乱、越难预测。
在分类问题中,我们常用交叉熵作为损失函数。它衡量了模型预测分布与真实分布之间的差距。
比如:图像识别模型预测“这是一只猫”的概率是 0.7,而真实标签是 1(100% 是猫),交叉熵损失就会惩罚这种偏差。
误区一:只学公式,不懂应用很多同学会背诵公式,但一旦遇到实际场景就懵了。解决方法是通过代码和案例,把公式转化为直观操作。误区二:跳过数学,直接上手框架
如果不懂数学,可能能跑通模型,但无法调参,更无法创新。建议一:数学与编程结合
学习数学时,要同时写 Python 代码,用 numpy、pytorch 实现公式。建议二:先掌握直觉,再推导公式
不要死磕证明,要先理解公式解决了什么问题,再去钻研其推导。
对大学生来说,掌握这些数学基础,就相当于拿到了人工智能的“底层钥匙”。未来无论是研究深度学习、强化学习,还是自然语言处理,数学都将是不可绕过的基石。
来源:AI国际站