最小二乘法 知识点题库

已知两个变量x,y之间具有线性相关关系,试验测得(x,y)的四组值分别为(1,2),(2,4),(3,5),(4,7),则y与x之间的回归直线方程为(  )

A . y=0.8x+3 B . y=-1.2x+7.5 C . y=1.6x+0.5 D . y=1.3x+1.2
在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为 ,且成绩分布在 ,分数在 以上(含 )的同学获奖. 按文理科用分层抽样的方法抽取 人的成绩作为样本,得到成绩的频率分布直方图(见下图).

  1. (1) 填写下面的 列联表,能否有超过 的把握认为“获奖与学生的文理科有关”?
  2. (2) 将上述调査所得的频率视为概率,现从参赛学生中,任意抽取 名学生,记“获奖”学生人数为 ,求 的分布列及数学期望.


    文科生

    理科生

    合计

    获奖



    不获奖




    合计



    附表及公式:

    ,其中

某地区2007年至2013年农村居民家庭纯收入y(单位:千元)的数据如下表:

附:回归直线的斜率和截距的最小二乘法估计公式分别为:

  1. (1) 求 关于 的线性回归方程;
  2. (2) 利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
下图是我国2010年至2016年生活垃圾无害化处理量(单位:亿吨)的折线图

注:年份代码1~7分别对应年份2010~2016

参考数据: .

参考公式:

相关系数  

回归方程  中斜率和截距的最小二乘估计公式分别为:

   

  1. (1) 由折线图看出,可用线性回归模型拟合yt的关系,请求出相关系数r , 并用相关系数的大小说明yt相关性的强弱;
  2. (2) 建立y关于t的回归方程(系数精确到0.01),预测2018年我国生活垃圾无害化处理量.
由一组样本数据 得到的回归直线方程为 ,那么下面说法不正确是(   )
A . 直线 必经过点 B . 直线 至少经过点 中的一个 C . 直线 的斜率为 D . 直线 和各点 的总偏差 是该坐标平面上所有直线与这些点的偏差中最小的直线
某县畜牧技术员张三和李四9年来一直对该县山羊养殖业的规模进行跟踪调查,张三提供了该县某山羊养殖场年养殖数量y(单位:万只)与相应年份x(序号)的数据表和散点图(如图所示),根据散点图,发现y与x有较强的线性相关关系.

年份序号x

1

2

3

4

5

6

7

8

9

年养殖山羊y/万只

1.2

1.5

1.6

1.6

1.8

2.5

2.6

2.7

图片_x0020_100005

  1. (1) 根据表中的数据和所给统计量,求y关于x的线性回归方程(参考统计量:
  2. (2) 李四提供了该县山羊养殖场的个数 (单位:个)关于x的回归方程 .

    试估计:①该县第一年养殖山羊多少万只?

    ②到第几年,该县山羊养殖的数量与第一年相比缩小了?

    附:回归直线方程的斜率和截距的最小二乘估计公式分别为:

从某居民区随机抽取10个家庭,获得第 个家庭的月收入 (单位:千元)与月储蓄 ,(单位:千元)的数据资料,算出 ,附:线性回归方程 ,其中 为样本平均值.
  1. (1) 求家庭的月储蓄 对月收入x的线性回归方程
  2. (2) 若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
个人所得税是国家对本国公民、居住在本国境内的个人的所得和境外个人来源于本国的所得征收的一种所得税.我国在1980年9月10日,第五届全国人民代表大会第三次会议通过并公布了《中华人民共和国个人所得税法》.公民依法诚信纳税是义务,更是责任现将自2013年至2017年的个人所得税收入统计如下

并制作了时间代号x与个人所得税收入的如如图所示的散点图:

根据散点图判断,可用①y=menx与② 作为年个人所得税收入y关于时间代号x的回归方程,经过数据运算和处理,得到如下数据:

以下计算过程中四舍五入保留两位小数.

  1. (1) 根据所给数据,分别求出①,②中y关于x的回归方程;
  2. (2) 已知2018年个人所得税收人为13.87千亿元,用2018年的数据验证(1)中所得两个回归方程,哪个更适宜作为y关于时间代号x的回归方程?
  3. (3) 你还能从统计学哪些角度来进一步确认哪个回归方程更适宜? (只需叙述,不必计算)

    附:对于一组数据 其回归直线 的斜率和截距的最小二乘估计分别为:

根据国家统计局数据,1978年至2018年我国GDP总量从0.37万亿元跃升至90万亿元,实际增长了242倍多,综合国力大幅提升.

将年份1978,1988,1998,2008,2018分别用1,2,3,4,5代替,并表示为 表示全国GDP总量,表中 .

3

26.474

1.903

10

209.76

14.05

参考数据:

4

5

6

7

8

的近似值

55

148

403

1097

2981

  1. (1) 根据数据及统计图表,判断 (其中 为自然对数的底数)哪一个更适宜作为全国GDP总量y关于t的回归方程类型?(给出判断即可,不必说明理由),并求出y关于t的回归方程.
  2. (2) 使用参考数据,估计2020年的全国GDP总量.

    线性回归方程 中斜率和截距的最小二乘法估计公式分别为:

    .

设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi , yi)(i=1,2,…,n),用最小二乘法建立的回归方程为 =0.85x-85.71,则下列结论中不正确的是(   )
A . y与x具有正的线性相关关系 B . 回归直线过样本点的中心( C . 若该大学某女生身高增加1cm,则其体重约增加0.85kg D . 若该大学某女生身高为170cm,则可断定其体重必为58.79kg
一个调查学生记忆力的研究团队从某中学随机挑选100名学生进行记忆测试,通过讲解100个陌生单词后,相隔十分钟进行听写测试,间隔时间 (分钟)和答对人数 的统计表格如下:

时间 (分钟)

10

20

30

40

50

60

70

80

90

100

答对人数

98

70

52

36

30

20

15

11

5

5

1.99

1.85

1.72

1.56

1.48

1.30

1.18

1.04

0.7

0.7

时间 与答对人数 的散点图如图:

图片_x0020_698153681

附: ,对于一组数据 ,……, ,其回归直线 的斜率和截距的最小二乘估计分别为: .请根据表格数据回答下列问题:

  1. (1) 根据散点图判断, ,哪个更适宣作为线性回归类型?(给出判断即可,不必说明理由)
  2. (2) 根据(1)的判断结果,建立y与t的回归方程;(数据保留3位有效数字)
  3. (3) 根据(2)请估算要想记住 的内容,至多间隔多少分钟重新记忆一遍.(参考数据:
某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应数据:

x

2

4

5

6

8

y

30

40

60

50

70

参考公式用最小二乘法求线性回归方程系数公式: .

  1. (1) 画出散点图;
  2. (2) 求y关于x的线性回归方程.
  3. (3) 如果广告费支出为一千万元,预测销售额大约为多少百万元?
某市预测2000年到2004年人口总数与年份的关系如下表所示

年份200x(年)

0

1

2

3

4

人口数y(十)万

5

7

8

11

19

(参考数值:0×5+1×7+2×8+3×11+4×19=132,

参考公式:用最小二乘法求线性回归方程系数公式 )

  1. (1) 请根据上表提供的数据,计算 ,用最小二乘法求出y关于x的线性回归方程
  2. (2) 据此估计2005年该城市人口总数.
为了了解某校高中生的身体质量情况,某调查机构进行了一次高一学生体重和身高的抽样调查,从中抽取了8名学生(编号为 )的身高 和体重 数据.如下表,某调查机构分析发现学生的身高和体重之间有较强的线性相关关系,在编号为6的体检数据丢失之前,调查员甲已进行相关的数据分析并计算出该组数据的线性回归方程为 ,且根据回归方程预估一名身高为 的学生体重为 ,计算得到的其他数据如下: .

学生的编号

1

2

3

4

5

6

7

8

身高

164

176

165

163

170

172

168

182

体重

60

72

77

54

72

55

附:回归直线方程 的斜率和截距的最小二乘法估计分别为: .

  1. (1) 求 的值及表格中8名学生体重的平均值
  2. (2) 在数据处理时,调查员乙发现编号为8的学生体重数据有误,应为 ,身高数据无误.请你根据调查员乙更正的数据重新计算线性回归方程,并据此预估一名身高为 的学生的体重.
已知 的几组对应数据如表:

0

1

2

3

4

2

3

6

9

10

根据上表利用最小二乘法求得回归直线方程 中的 ,那么 .

在某种产品表面进行腐蚀性实验,得到腐蚀深度 与腐蚀时向 之间对应的一组数据:

时间

5

10

15

20

35

40

50

深度

6

10

I0

13

16

17

19

(可能用到的公式与数据: ,其中

  1. (1) 求数据6,10,10,13,16,17,19的均值 与方差
  2. (2) 试求腐蚀深度 对时间 的回归直线方程,并预测第100秒时产品表面的腐蚀深度(计算结果保留小数点后两位).

一个国家的数学实力往往影响着国家的科技发展,几乎所有的重大科技进展都与数学息息相关,我国第五代通讯技术 的进步就是源于数学算法的优化.华为公司所研发的Single 算法在部署 基站时可以把原来的 基站利用起来以节省开支,华为创始人任正非将之归功于“数学的力量”,近年来,我国加大 基站建设力度,基站已覆盖所有地级市,并逐步延伸到乡村.

附:设 ,则 ,对于样本 的线性回归方程

  1. (1) 现抽样调查英市所轴的 地和 基站覆盖情况,各取100个村,调查情况如下表:

    已覆盖

    未覆盖

    A

    20

    80

    B

    25

    75

    视样本的频率为总体的概率,假设从 地和 地所有村中各随机抽取2个村,求这4个村中 已覆盖的村比 地多的概率;

  2. (2) 该市2020年已建成的 基站数 与月份 的数据如下表:

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    283

    340

    428

    547

    701

    905

    1151

    1423

    1721

    2109

    2601

    3381

    探究上表中的数据发现,因年初受新冠疫情影响, 基站建设进度比较慢,随着疫情得到有效控制, 基站建设进度越来越快,根据散点图分析,已建成的 基站数呈现先慢后快的非线性变化趋势,采用非线性回归模型 拟合比较合理,请结合参考数据,求 基站数 关于月份 的回归方程.( 的值精确到0.01).

中国是世界上沙漠化最严重的国家之一,沙漠化造成生态系统失衡,可耕地面积不断缩小,对中国工农业生产和人民生活带来严重影响.随着综合国力逐步增强,西北某地区大力兴建防风林带,引水拉沙,引洪淤地,开展了改造沙漠的巨大工程,该地区于2017年投入沙漠治理经费2亿元,从2018年到2020年连续3年每年增加沙漠治理经费1亿元,近4年沙漠治理经费投入x(亿元)和沙漠治理面积y(万亩)的相关数据如下表所示:

年份

2017

2018

2019

2020

x

2

3

4

5

y

26

39

49

54

  1. (1) 通过绘制散点图看出,可用线性回归模型拟合y与x的关系,请用相关系数加以说明;(结果保留3位小数)
  2. (2) 建立y关于z的回归方程;
  3. (3) 若保持以往的沙漠治理经费增加幅度,请预测到哪一年沙漠治理面积突破100万亩.

    参考数据:

    参考公式:相关系数 ..

随着科技进步,近来年,我国新能源汽车产业迅速发展.以下是中国汽车工业协会2022年2月公布的近六年我国新能源乘用车的年销售量数据:

年份

2016

2017

2018

2019

2020

2021

年份代码x

1

2

3

4

5

6

新能源乘用车年销售y(万辆)

50

78

126

121

137

352

参考数据:设u=lny,其中ui=lnyi

 

 

 

 

e3.63

e5.94

e6.27

144

4.78

841

5.70

37.71

380

528

参考公式:对于一组具有线性相关关系的数据(xi , yi)(i=1,2,3,⋅⋅⋅,n),其回归直线 的斜率和截距的最小二乘估计公式分别为

  1. (1) 根据表中数据,求出y关于x的线性回归方程;(结果保留整数)
  2. (2) 若用y=menx模型拟合y与x的关系,可得回归方程为 ,请分别利用(1)与(2)中两个模型,求2022年我国新能源乘用车的年销售量的预测值;
对具有线性相关关系的变量x,y,测得一组数据如下表

x

1

4

5

6

9

y

15

40

60

70

80

根据上表,利用最小二乘法得到回归直线方程为 , 据此模型来预测当时,y的估计值为(       )

A . 340.5 B . 350.5 C . 360.5 D . 370.5