当前位置: 首页 > 原理解释

逐步回归的原理-逐步回归原理简述

在咱们实际干活的时候,听说回归这事儿,往往比教科书上讲的那些事儿要复杂得多,也更有味道。大量人一上来就翻旧书,找那些“自相矛盾”的引用来搞混淆,结局愣是把事件给搞晕了。
实际上这话不对,回归最核心的意思就一条:拿一个已经跟目标变量跟上的变量,去跟目标变量本身比一比,差异到底在哪儿。 就拿咱们最常用的线性回归来说吧,它就是个“解渴”的模型。
说白了,就是拿一个跟目标变量高度相关的变量当“水”,往杯子里倒,看这杯子里的水是不是确实咸了。
比如咱们想预测房价,房价跟面积肯定相关系,但房价跟距离地铁站的距离也相关系。
这时候,咱们就能够用“距离地铁站的距离”这个变量,去跟“房价”这个目标值比一比。你会发现,同一个变量(距离),它作为自变量,它作为因变量,结局不一样。
这就验证了它跟目标变量相关性不一样,要么说它跟目标变量有差异。 举个具体的例子,假设咱们在研究一个小区的房子价格。咱们发现,房子的面积越大,价格越高。
那咱们能不能直接拿房子面积去跟房价做对比呢?这彻底OK,出于这俩变量表现得忒像了。可要是咱们换个思路,拿“距离地铁站的距离”去跟房价做对比,结局呢?你会发现,离地铁站越近的房子,价格一般越高。
这时候,咱们用“距离地铁站”这个变量去跟房价比,它跟房价相关性确实不一样了,要么说它跟房价有差异。
这就构成了回归模型的根本逻辑:就是看一个变量,它跟目标变量到底是沾上了点,还是彻底脱了轨。 实际上,大量人就认定回归就是好办的线性方程啦,这实际上是个大误区。回归的本质不是为了写出最完美的公式,而是为了搞清楚变量之间的关系到底长啥样。
有时候,咱们写的公式看着挺整,但代入数据一看,结局全是负数,要么跟常识背道而驰,这时候就要停下来琢磨:是不是公式写错了?
是不是数据有难题?
是不是咱们理解错了变量跟目标之间的关联? 还有一个事儿得提,回归模型它不是万能的,它也有它的弱点。
比方说,要是咱们想用“身高”去预测“身高”,这模型肯定跑不通,出于身高跟身高忒像了,相关性忒高了,线性的关系也就存有于一个点上了。
这时候,咱们就得换个思路,比如用“身高”去预测“腰围”,要么用“腰围”去预测“身高”,这时候模型可能就行得通。
这就是回归最了得的地方,它不是一刀切的,是看变量之间到底能不能形成线性的关系。 也就是说,回归就是个“找茬”的过程。它拿一个已经跟目标变量跟上的变量,去跟目标变量本身比一比,看看它们之间到底有没有啥关系。
要是关系明显,那咱们就能写出个公式来;要是关系不明显,要么关系忒怪,那咱们就得赶紧换思路,要么重新审视一下咱们用的数据。 最终得说句大实话,回归这事儿,最费事的不是推导公式,而是数据要准。你要是拿错了变量,拿错了数据,那再好的模型也是白搭。
故此,在实际工作中,咱们得有个“试错”的心态,先跑通个线性模型,看看结局咋样,再根据结局调整模型结构,要么干脆换两个变量再试一次。
这就是回归的价值所在,它不是为了炫技,而是为了把那些乱七八糟的变量关系给理一理顺。
相关标签:

猜你喜欢

热门阅读

  • 赖柴尔定理-赖柴尔定理
  • 迪拜哪个国家的城市?-迪拜在哪国城市
  • 李毅吧番号及出处-李毅吧番号及出处
  • 贴春联的由来简介50字-春联由来简述
  • 思乡的名言和出处-思乡名言及出处

其他分站