当前位置: 首页 > 原理解释

svm的原理及公式推导-SVM 原理及公式推导

最近刚考完了 SVM(赞成向量机)的终极版题库,手里的考卷翻得能听到纸张摩擦声。作为搞那些算法题多年的老法师,今天不跟你讲那些教科书上写着“先定义核函数、再推导对偶形式”的废话,咱们直接跳到真事,看看模型是如何在脑子里打架的。 SVM 说白了就是个找“最吵”的人的活儿。想象一下你要给一堆人贴标签,每个人心里都认定自己是个好人要么坏人,但互相之间全打架,哪位也不服哪位。Goal 只有一个:把好人全贴对,把坏人全贴错,并且最关键的是,哪位最离谱、违反规矩的那条线(叫边界)得来回最远。
这就是所谓的“最大间隔”。 数学上,这就像你在平面上画一条线,把你画出来的点分清楚两类。但你不能随意画,你得画得够远。出于距离越远,容错率越高,万一赶明儿有新数据乱蹦,误判的概率就越低。SVM 就盯着这个“最大间隔”做文章。 公式推导实际上挺绕的,但换个角度想就明白了。假设两类数据分别是 $X_a$ 和 $X_b$,我们想找一个权重向量 $omega$ 和偏置 $b$,使得分类器 $f(x) = omega cdot x + b$ 能把两类分明显。为了让分类器最稳,我们要让两类样本之间距离拉得最大。
这个距离实际上跟 $omega$ 的模长成反比关系(在参数变换后),也就是说,$omega$ 越大,分界线越陡,两边距离越近,那肯定不中。$omega$ 越小,分界线越平,两边距离拉得远,容错率才高。 这就引出了那个著名的约束条件:$sum (omega_i y_i)^2$ 要最小。出于 $omega_i$ 越小越好,故此我们要让 $omega$ 尽可能小。而 $omega$ 和 $w$ 之间的关系是 $omega = w / Sigma y_i$(这只是个标量估摸,实际是向量形式)。把 $omega$ 代回去,你会发现所有的 $omega$ 都要归零。
这看起来像啥?直接丢进 $w=0$ 的坑里哈。 自然,你不能直接扔,得一步一步来。先定义分类误差。对于第 $i$ 个样本,要是它被分错了,那它的损失不是 0,而是一个惩罚值。
这个惩罚值跟分类毛病的严重程度相关,也跟距离相关。最经典的惩罚函数就是 H 函数,它包含两局部:一是分类错的代价,二是点够远了算啥代价(一般跟距离成反比)。 当我们要最大化分类效果时,实际上就是在最小化这个不好办的代价。
这就回到了对偶难题。原难题里涉及了所有的样本点,这在计算超大数据量时简直是灾难。但对偶难题的魔力在于,它只跟那些“暴力”的样本相关。
那些离分界线特别远的样本,它们的权重就特别大;那些离分界线特别近的样本,权重就特别小,就连趋近于 0。 这就好比你站在台阶上往下跳,只有踩在台阶边缘(赞成向量)上的人才会让你停住。其他的一般/平平人(一般/平平样本)滑下去你就保险了。
这就是为啥 SVM 如此智慧的地方。 举个例子。假设你手里有两堆数据,一堆是红色的,一堆是蓝色的。红色的都在左边,蓝色的都在右边。
要是随意画一条线,左边可能把蓝色的全挤错了,右边把红色的也全挤错了。
这时候你会认定这线画得不够规矩。SVM 会疯狂计算:要是你抓着左边的第一个红点不放,把右边的蓝点往那一推,整个乙类的分类误差是不是就会爆炸?要是抓着右边的第一个蓝点不放,把左边的红点往左拉,整体毛病率是不是也翻倍? 只要你抓住了这两个点,你就锁定了那个“最离谱”的边界。
这个边界拍板了你既能把红色的放对,也能把蓝色的放对。其他的点呢?只要略微靠近一点要么远离一点,分类效果就会提升。
那你干嘛还要纠结那些不起眼的点?只要它们离得够远,分类器就能自动忽略它们。 并且这个“抓得紧”的点,实际上跟数据的分布密度相关。
要是某个点离边界特别近,它的权重系数会挺大,意味着这个点在决策面上占了挺大分量。
这在三维空间里,简直就是个庞大的垂直柱子,死死撑住分界线。你略微往右边推一点,这个柱子可能会崩;往左边推,也可能崩。一旦崩了,那边的分类可能就彻底乱了。 故此,SVM 的精髓就在这儿。它不追求完美的线性分割,出于它可能根本找不到;它追求的是一种“鲁棒”的分割。它通过惩罚大的权重系数,把那些离得近的噪声点“踢”出去,只让那些真正拍板分界的关键点留下。 你看,这就是 SVM。它不是那种乖乖跟着公式走的学生,它是个懂点玄学的工程师。在写代码的时候,你会发现它不需求你写复杂的特征缩放,也不需求你刻意去中心化数据。只需求把那些离边界近的样本凑在一起,让它们形成最大的冲突,让它们的权重自动跑起来就行。 最终再唠叨两句。别看推导过程挺抽象,但归根结底就是那个“最大间隔”的概念。
只要理解了这一点,所有的公式都是你脑子里的辅助工具。下次想搞 SVM 的时候,不用死记硬背那些矩阵运算,想想那个红蓝大战的故事,硬扛着就能过。
毕竟,算法的真谛,往往就藏在那一堆看似无涉的数据里,等着我们去揪出那个最坏的情况。
相关标签:

猜你喜欢

热门阅读

  • 赖柴尔定理-赖柴尔定理
  • 迪拜哪个国家的城市?-迪拜在哪国城市
  • 李毅吧番号及出处-李毅吧番号及出处
  • 贴春联的由来简介50字-春联由来简述
  • 思乡的名言和出处-思乡名言及出处

其他分站