线性回归模型的算法步骤,线性回归是什么算法

数据挖掘有很多重要的方法,线性回归分析就是其中之一。我们在高中和大学都有接触过线性回归的概念,这里就不赘述了。本文也不会涉及到有关数学理论方面的知识,还是以应用场景、操作方法的介绍为主。

线性回归模型的算法步骤,线性回归是什么算法

一、应用场景:

首先,一起来了解一下线性回归分析的作用。在我们的日常生活中,线性回归分析是会被常常用到的。运用线性回归分析,我们可以了解到两组数据间有没有存在相关性。如,当我们想知道广告费用的投入对销售额增长的影响程度时,就可以运用。公司应不应该加大广告费投入,如果未来投入一定的广告费用,预测销售额可以达到多少…这一系列问题都可以通过线性回归分析去得出答案。

线性回归模型的算法步骤,线性回归是什么算法

线性回归分析方法运用的前提是要具备两组以上的数据,然后就可以开始应用检验啦。下面给大家演示一下线性回归分析的方法、操作过程,用到的工具是Python。

二、Python实现过程:

第1步:数据导入

首先要做的就是把本地的EXCEL或者CSV文件读取到Python里,我们可以引用pandas库去读取数据:

线性回归模型的算法步骤,线性回归是什么算法

待数据读取成功后,我们需要对数据进行确认,用到的方法是将打印数据与EXCEL数据进行对比:

线性回归模型的算法步骤,线性回归是什么算法

第2步:计算相关系数

如上文所说,线性回归分析的前提是要有2组数据。在数学上通常是用皮尔逊相关系数来进行检验,这个数值越接近1,就代表两组数据越具有相关性,我们可以用corr这个函数来对广告费以及销售额进行检验:

线性回归模型的算法步骤,线性回归是什么算法

然后,打印data1,可见相关系数的值就已经得出了。数据为0.93,与1非常接近,有数据可知这2组数据的相关性是非常高的:

线性回归模型的算法步骤,线性回归是什么算法

第3步:画图

为了更加直观地对这两组数据进行呈现,我们可以画一个散点图,接入matplotlib,X轴为广告费用,Y轴为销售额设置。接着利用plot()函数来画图,最后利用show()函数进行图表呈现:

线性回归模型的算法步骤,线性回归是什么算法

打印一下,我们看看图形的效果,从图中可以看中,散点图点排列基本在一条直线上的,由此可知广告费用与销售额是呈正相关的,广告费用越多,销售额也会随之增长,这也对我们上面计算出来的相关系数提供了一个非常好的佐证:

线性回归模型的算法步骤,线性回归是什么算法

第4步:建立线性回归模型

用y=ks+b公式表示线性回归的方程,X为自变量、Y为因变量、K为斜率、b为直线在轴上的截距。接入sklearn库,对着上面的数据建立线性回归模型,sklearn库主要是进行机器学习。先利用LinearRegression()对象定义,再利用fit()函数对X、Y的值进行模型训练,最后输出coef_,代表k值、是intercept_,代表b值两个数据:

线性回归模型的算法步骤,线性回归是什么算法

输出后的数据如下,k是17.3,b是291.9:

线性回归模型的算法步骤,线性回归是什么算法

利用score()函数对模型的拟合程度进行检验,当数值越接近1,就代表该模型的拟合程度越好:

线性回归模型的算法步骤,线性回归是什么算法

计算结果出来了,0.879,已经非常接近1了,可见模型的拟合程度很好,能投入到实际应用中去使用:

线性回归模型的算法步骤,线性回归是什么算法

第5步:数据预测

k和b的值也出来了,现在只需要x的值就能够推算得出y值数据,现在我们可以利用这个原理去对数据进行预测。这里可以利用predict()函数接入一个参数对数据进行预测,例如下面我们看看广告费在20万的时候,销售额预计会有多少:

线性回归模型的算法步骤,线性回归是什么算法

最后算出来的销售额是638万:

线性回归模型的算法步骤,线性回归是什么算法

三、后续建议

从python的实现过程来看,通过写代码的形式能够实现线性回归分析的整个过程,但是毕竟大部分小伙伴都没有接触过这门编程语言,如果真要用python去做的话可能会难度比较大。那么有没有更加简洁一点的方法呢?当然有!再给大家介绍一个更加简便的方法,用到的工具是smartbi。

线性回归模型的算法步骤,线性回归是什么算法

当前界面为数据挖掘界面,工具栏位于界面的左边,可以看到工具栏上的组件有很多。这个也就是ETL工作界面,ETL常应用于数据清洗上。ETL的数据源治理能力非常出色。如果把ETL和数据挖掘结合起来,必然可以大幅提高数据分析的效率。

线性回归模型的算法步骤,线性回归是什么算法

第一步要做的是先把数据源读取到ETL的界面里,我们可以把EXCEL文件这个组件拖拽进来,并把上面的广告费用的EXCEL文件读取进来:

线性回归模型的算法步骤,线性回归是什么算法

如果EXCEL文件中存在着多个sheet,还需要把读取Excelsheet这个组件拖拽进来,并读取您的目标sheet:

线性回归模型的算法步骤,线性回归是什么算法

完成数据读取后,预览数据源:

线性回归模型的算法步骤,线性回归是什么算法

接下来是广告费用、销售额的相关系数计算,将相关性分析的组件拖拽进来,将其和上面的组件进行连接:

线性回归模型的算法步骤,线性回归是什么算法

鼠标选中相关系分析,在右边的待选列里把销售额和广告费用选中,并移动到右边:

线性回归模型的算法步骤,线性回归是什么算法

查看输出效果,只需要点击广告费用、销售额的中间区域,相关性系数为0.94。该数据与Python计算结果一致:

线性回归模型的算法步骤,线性回归是什么算法

由于篇幅有限,散点图、数据预测等其他功能实现的方法就不多做介绍了,有兴趣的小伙伴可以自行去研究一下。

郑重声明:本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系管理员(admin#loooy.com)删除。
(0)
上一篇 2022年12月23日 09:16
下一篇 2022年12月23日 09:30

相关推荐

  • 霍乱为什么可怕?传播途径有哪些?死亡率多少?

      最近官方正式通报:武汉大学出现一例霍乱病例,消息一出,立即登上各网站热搜榜的第一名!网上很多人说,都没有听说过霍乱这种病;很多人都是通过《霍乱时期的爱情》这本书开始知道霍乱这两…

    2022年7月24日
  • 匈牙利一票否决欧盟反华声明 匈牙利外长访华

    反对声 据新华社布拉格9月5电 (记者王义)维谢格拉德集团成员匈牙利、捷克、波兰和斯洛伐克总理4日在捷克首都布拉格召开会议,会后四国发表声明,拒绝接受欧盟提出的重新分配12万名难民…

    2022年7月8日
  • 广州2022中考成绩总分(附各科题型分值)

      2021年广州中考录取计分科目满分为810分,与现行中考的总分值保持不变。      广州市初中学业水平考各科目试卷结构   (一)语文 题型 题量 分值 选择题与非选择题 积…

    2022年7月31日
  • 红烧茄子怎么做好吃(红烧茄子怎么做好吃)

    简要回答 红烧茄子的做法是热油爆香蒜,放入盐腌制过的茄子,中火翻炒至茄子变色。把青椒和西红柿倒入,加白糖、盐调味,加少许水熬制粘稠。最后撒上蒜末,红烧茄子即可出锅。 01 准备食材…

    2022年10月22日
  • 怎么看智能水表

    智能IC卡水表是一种利用现代微电子技术现代传感技术智能IC卡技术对用水量进行计量并进行用水数据传递及结算交易的新型水表这与传统水表一般只具有流量采集和机械指针显示用水量的功能相比,…

    2022年10月22日
  • 行程码怎么弄

    小孩的行程码怎么弄 小孩的行程码怎么弄,最近疫情反复,厨师出示健康码行程码是出行的必备工作但是小孩子因为没有手机,所以出行时无法亮码导致行程耽误下面我就帮大家整理下小孩的行程码怎么…

    2022年10月25日
  • 净水机排名前10名品牌

    1冰尊净水器2022年冰尊BENSHION被中央电视台CCTV推荐上榜,我们要相信品牌的力量冰尊净水器一直被模仿,从未被超越冰尊净水器优势技术强资格老效果好21世纪的今天,冰尊净水…

    2022年10月21日
  • 请问丼饭中的“丼”念jing还是dong?

    丼饭中的“丼”念dong,牛丼(dōng)饭。丼在字典里只有jǐng和dǎn两个读音,就笃定叫做“牛胆饭”,其实是错误的。牛丼饭源于日本,发音DONBURI(丼ぶりどんぶり),丼简…

    2022年11月19日
  • 李晨不娶范冰冰真实原因 李晨和范冰冰分手原因

    娱乐圈里有很多被大家看好的明星情侣,因为各种各样的原因不能走到一起,而最有代表性的就是李晨和范冰冰了 但这次范冰冰给李晨澄清,也算是替男友正名了。 之前很多范冰冰的粉丝都攻击李晨,…

    2022年12月16日
  • 比较甜的歌

    听起来很甜很心动的歌有心动有点甜爱情36计1心动是陈洁仪在2011年1月25日发行的专辑重译收录的一首歌曲后来在我是歌手第三季第一场演唱了这首歌曲,可惜却只拿到了尾部排名,在。 甜…

    2022年10月22日