第一套练习题
一、单选题,把答案写在答题纸上。(每小题2分,共10小题,共20分)
1.若有两个数据文件,它们有一些相同的变量,只是两个变量的个案不同,这是若要把两个文件合并,则需用( )方法。
A. 横向合并 B.纵向合并 C.分类汇总 D.横向和纵向合并结合
2.下列情况适合用直方图来表示的是( )
A.购买5种不同款式手机的消费者的频数分布 B.学生考试成绩等级的频数分布
C.某市所有居民存款金额分组后的频数分析 D.某班不同年龄学生的频数分布
3.若检验学生学习电子商务课程前后对电子商务重要性的认知程度是否发生了显著变化,可采用( )检验方法。
A.McNemar B.符号检验 C.符号秩检验 D.曼-惠特尼U检验
4.列联表中行列变量之间是否独立,可用( )检验方法。
A.t B. F C.卡方 D. Z
5.对某个高速路段行驶的120辆汽车的车速进行测量后发现,平均车速是85公里/小时,标准差是4公里/小时,下列哪个车速可以看作是异常值( )
A.78公里/小时 B.82公里/小时 C.91公里/小时 D.98公里/小时
6.有如下样本数据:1、2、3、4、5、6、8、10,它们的标准差是( )
A.3.04 B.2.74 C.1.5 D.4.875
7.若要检验某组电器工作的寿命是否服从指数分布,则需采用非参数检验中的( )方法
A.卡方检验 B.二项分布 C.K-S检验 D.游程检验
8.下列关于相关系数的说法,错误的是( )
A.r=0表示两变量不存在任何相关关系
B.r=1表示两变量存在完全正相关
C.相关系数r取值在-1到1之间。
D.
表示两变量之间具有较强的线性关系
9.对变量进行的聚类属于层次聚类的( )类型
A.K B.R C. Q D.S
10.下列不属于因子正交旋转方式的是( )
A.四次方最大法 B.方差最大法 C等量最大法 D.协方差最大法
二、判断题,正确的打√,错误的打×。把答案写在答题纸上。(每小题2分,共5小题,共10分)
1..sav格式文件可以用Excel打开。( )
2.若要计算学生的得优课程数需要在SPSS中计数。( )
3.观测值的序列是101100010101110,则该序列的游程数是9。( )
4.对于多选项问题进行分解时,若对多选的个数没有要求,且也不需排序时,可用二分法进行分解。( )
5.线性回归模型的参数是利用最大二乘估计方法得到的。( )
三、基本操作分析题。( 第2小题每题15分,第1、3、4小题每题10分,共45分)
1. 现有某工厂50个工人生产的零件数数据放在数据文件“零件数数据.sav”中,现要求:
(1)对该数据进行描述性统计分析,要求得出平均值、标准差、偏度系数与峰度系数,并分析该数据是否服从标准正态分布。(6分)
(2)对该数据进行分组,分为四组,分别为第1组(110以下 )、第2组(110~120)、第3组(120~130)、第4组(130-140 )。方法采用“重新编码为不同变量”,对分好组的数据进行基本描述统计分析。要求列出每组的频数。( 4分 )
2. 10名不同年龄妇女(岁)的收缩压测定值(kPa)如表1所示,试进行回归分析。
表1 收缩压数据
妇女号
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
7
|
9
|
10
|
年龄Xi
|
56
|
42
|
72
|
36
|
63
|
47
|
55
|
49
|
38
|
42
|
收缩压Yi
|
19.6
|
16.7
|
21.3
|
15.7
|
19.8
|
17.1
|
20
|
19.3
|
15.3
|
18.7
|
要求:
(1)以收缩压为因变量Y,年龄为自变量X建立一元线性回归方程,得出模型汇总表2和方差分析表3,求出表2中A的结果,并对表2和表3结果进行分析说明。(9分);
|
表2 模型汇总
|
|
|
模型
|
R
|
R 方
|
调整 R 方
|
标准 估计的误差
|
|
|
1
|
0.891
|
A
|
0.768
|
0.97317
|
|
|
a. 预测变量: (常量), 年龄。
|
|
表3 Anovab
|
模型
|
平方和
|
df
|
均方
|
F
|
Sig.
|
1
|
回归
|
29.148
|
1
|
29.148
|
30.778
|
0.001a
|
残差
|
7.577
|
8
|
0.947
|
|
|
总计
|
36.725
|
9
|
|
|
|
a. 预测变量: (常量), 年龄。
|
b. 因变量: 收缩压
|
(2)得出回归系数表4,写出表中C的结果,并对该结果进行检验。(6分)。
表4 回归系数表
模型
|
非标准化系数
|
标准系数
|
t
|
Sig.
|
B
|
标准 误差
|
试用版
|
1
|
(常量)
|
10.531
|
1.443
|
|
7.300
|
0.000
|
年龄
|
C
|
0.028
|
0.891
|
5.548
|
0.001
|
3.某白酒品牌为了打开市场扩大销量,决定从营销策略和销售地区这两个因素入手进行研究,目前有四种营销选择:促销活动能够、线上销售、新品开发和广告投放,白酒销售着重对应4个地区展开:华北、华东、东南和西南地区。每个地区抽取三个不同的时间点进行调研,对不同地区试行四种营销策略后对应的效益水平值记录下来。
(1)为了检验四个不同地区的效益水平是否有显著差异,现得出单因素方差分析表5,
①计算表5中D和E的结果;(2分)
②针对表5,检验四个不同地区的效益水平是否有显著差异(
)?(3分)
表5 ANOVA
|
收益水平
|
|
平方和
|
df
|
均方
|
F
|
显著性
|
组之间
|
6.352
|
3
|
2.117
|
E
|
0.000
|
组内
|
6.746
|
D
|
0.153
|
|
|
总计
|
13.098
|
47
|
|
|
|
(2)为了检验不同地区试行四种营销策略后对应的效益水平是否有显著差异,得出了结果表6,
对表6的结果进行分析,并说明地区和营销策略对收益水平是否产生了交互作用?该模型属于饱和模型还是非饱和模型?(5分)
表6 主体间效应的检验
|
因变量: 收益水平
|
源
|
III 类平方和
|
自由度
|
均方
|
F
|
显著性
|
校正的模型
|
9.505a
|
15
|
0.634
|
5.643
|
0.000
|
截距
|
129.692
|
1
|
129.692
|
1154.955
|
0.000
|
地区
|
6.352
|
3
|
2.117
|
18.857
|
0.000
|
营销策略
|
1.962
|
3
|
0.654
|
5.825
|
0.003
|
地区* 营销策略
|
1.190
|
9
|
0.132
|
1.178
|
0.342
|
错误
|
3.593
|
32
|
0.112
|
|
|
总计
|
142.790
|
48
|
|
|
|
校正后的总变异
|
13.098
|
47
|
|
|
|
a. R 平方 = .726 (调整后的 R 平方 = .597)
|

图1 聚类结果图
某运动队对13名运动员的生理状况和心理状况进行评估,对他们进行分别编号1-13,利用生理分与心理分对这13名运动员进行聚类分析,得出聚类的树状图如图1,请根据树状图列出聚成四类时的结果,并分析这是属于哪种聚类分析方法?在SPSS中的操作步骤是什么(10分)
四、综合分析题。(第1小题10分,第2小题15分,共2题,共25分)
1.某日从两台机器加工的同一种零件中分别抽取10个和9个样品,测量其尺寸(单位:cm):
甲机器:6.25, 5.78, 6.45, 6.00, 5.88, 5.76, 6.00, 5.85, 5.94, 5.79
乙机器:6.08, 6.25, 5.94, 5.94, 5.79, 6.03, 5.85, 6.10, 5.93
据以往的经验,甲乙机器生产的零件尺寸均服从正态分布。设显著性水平α=0.05,问两台机器生产的零件尺寸的均值有无显著差异?现已得出两独立样本t检验的结果表7,请分析表7中结果,并说出这是属于参数检验还是非参数检验?(10分)。
表7 两独立样本检验结果
|
|
列出方差相等性检验
|
平均值相等性的t 检验
|
F
|
显著性
|
t
|
自由度
|
显著性 (双尾)
|
平均差
|
标准误差差值
|
差值的 95% 置信区间
|
下限
|
上限
|
机器零件尺寸
|
已假设方差齐性
|
1.005
|
0.330
|
-0.231
|
17
|
0.820
|
-0.0200
|
0.08662
|
-0.20275
|
0.16275
|
未假设方差齐性
|
|
|
-0.237
|
15.33
|
0.816
|
-0.0200
|
0.08456
|
-0.19990
|
0.15990
|
2.现有“基本建设投资分析.sav”数据,对其进行因子分析后,得到的结果有下表:
表 8 KMO 和巴特利特检验
|
KMO 取样适切性量数。
|
0.706
|
Bartlett 的球形度检验
|
上次读取的卡方
|
119.614
|
自由度
|
10
|
显著性
|
0.000
|
表9 总方差解释
|
组件
|
初始特征值
|
提取载荷平方和
|
旋转载荷平方和
|
总计
|
方差百分比
|
累积%
|
总计
|
方差百分比
|
累积%
|
总计
|
方差百分比
|
累积%
|
1
|
3.526
|
70.518
|
70.518
|
3.526
|
70.518
|
70.518
|
3.244
|
64.889
|
64.889
|
2
|
0.923
|
18.452
|
88.970
|
0.923
|
18.452
|
88.970
|
1.204
|
24.081
|
88.970
|
3
|
0.306
|
6.112
|
95.082
|
|
|
|
|
|
|
4
|
0.200
|
3.993
|
99.075
|
|
|
|
|
|
|
5
|
0.046
|
0.925
|
100.000
|
|
|
|
|
|
|
提取方法:主成份分析。
|
(1)从表8结果分析该数据适合进行因子分析吗?为什么?(4分);
(2)从表9结果可以看出提取几个因子?它们的累积方差贡献率达到多少?(4分);
(3)针对“基本建设投资分析.sav”数据,你认为除了因子分析外,还可以进行哪些分析,说出2种方法。并请选择其中一种方法进行数据分析。(7分)。
第二套练习题
一、单选题,把答案写在答题纸上。(每小题2分,共10小题,共20分)
1. 现有某学校某班学生的两份数据文件,一份是关于该校该班学生的学号、 姓名、年龄的数据,一份是关于该班学生的学号、英语课程的成绩、数学课程的成绩,则需通过( )在一个文件中。
A. 纵向合并 B. 横向合并 C.分类汇总 D..筛选
2. 某公司职工的文化程度在SPSS中的测量标准是( )
A. 有序 B. 名义 C.度量 D.其它
3.两个无联系的企业生产的同种产品的使用寿命的分布是否存在显著差异需采用( )检验方法
A.两独立样本t检验 B.两配对样本t检验
C.两独立样本的 K-S检验 D.符号检验
4.若检验不同对象针对某种观点的看法是否一致,可用( )检验方法。
A.t B. F C.卡方 D. Z
5.对某个高速路段行驶的120辆汽车的车速进行测量后发现,平均车速是80公里/小时,标准差是4公里/小时,下列哪个车速可以看作是异常值( )
A.78公里/小时 B.82公里/小时 C.91公里/小时 D.96公里/小时
6.有如下样本数据:1、2、3、4、6、8、10、12,它们的标准差是( )
A.3.96 B.2.74 C.1.5 D.15.64
7.若要检验某组电器工作是否正常,则需采用非参数检验中的( )方法
A.卡方检验 B.二项分布 C.K-S检验 D.游程检验
8.下列相关系数中,线性相关程度最弱的是( )
A. -0.6 B. 0.3 C. 0.8 D.-0.9
9.( )型聚类是对变量进行聚类。
A.K B.Q C.R D.S
10.下列不属于因子正交旋转方式的是( )
A.四次方最大法 B.方差最大法 C等量最大法 D.协方差最大法
二、判断题,正确的打√,错误的打×。把答案写在答题纸上。(每小题2分,共5小题,共10分)
1..SPSS软件可以打开Excel数据。( )
2. 能够描述数据离散程度的测度值有方差、标准差、平均值等。( )
3.观测值的序列是101100010101110,则该序列的游程数是10。( )
4. 在某一多选项问题中,若要求在10个选项中选出最多的3个,且要有顺序要求时,可选择多选项二分法。( )
5.线性回归模型的参数是利用最小二乘估计方法得到的。( )
三、基本操作分析题。( 第2小题每题15分,第1、3、4小题每题10分,共45分)
1. 某行业管理局所属40个企业的某年的产品销售收入数据放在数据文件“销售收入.sav”中,现要求:
(1)对该数据进行描述性统计分析,要求得出平均值、标准差、偏度系数与峰度系数,并分析该数据是否服从标准正态分布。
(2)对产品销售数据进行分组,分为四组。按规定,销售收入在125万元以上的先进企业,115~125万元为
良好企业,105~ 115万元以上的为一般企业,105万元以下的为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。方法采用“重新编码为不同变量”。对分好组的销售收入进行基本描述统计分析。要求列出每组的频数。( 4分 )
2. 一家电器销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费用对月销售额做出估计。下面表1是近8个月的销售额与广告费用数据:
表1 电器公司的销售额和广告费用数据
月销售收入
Y(万元)
|
电视广告费用
X1(万元)
|
报纸广告费用
X2(万元)
|
96
90
95
92
95
94
94
94
|
5
|
1.5
|
2
|
2
|
4
|
1.5
|
2.5
|
2.5
|
3
|
3.3
|
3.5
|
2.3
|
2.5
|
4.2
|
3
|
2.5
|
(1)利用表1中数据,建立电器的月销售收入关于电视广告费用和报纸广告费用的回归模型,得出模型摘要表2和方差分析表3,求出表2中的A和表3中的B,并对表中结果进行分析说明。(8分)
表2 模型摘要
|
|
模型
|
R
|
R 平方
|
调整后的R 平方
|
标准估算的错误
|
|
1
|
0.959a
|
A
|
0.887
|
0.64259
|
|
a. 预测变量:(常量),报纸广告费用, 电视广告费用
|
|
|
|
表3 ANOVAa
|
模型
|
平方和
|
自由度
|
均方
|
F
|
显著性
|
1
|
回归
|
23.435
|
2
|
11.718
|
B
|
0.002b
|
残差
|
2.065
|
5
|
0.413
|
|
|
总计
|
25.500
|
7
|
|
|
|
a. 因变量:月销售收入
|
b. 预测变量:(常量),报纸广告费用, 电视广告费用
|
(2)得出回归系数表4,求出系数C和D,并对系数进行检验。(7分)
表4系数a
|
模型
|
非标准化系数
|
标准系数
|
t
|
显著性
|
B
|
标准错误
|
贝塔
|
1
|
(常量)
|
83.230
|
1.574
|
|
52.882
|
0.000
|
电视广告费用x1
|
C
|
0.304
|
1.153
|
7.532
|
0.001
|
报纸广告费用x2
|
D
|
0.321
|
0.621
|
4.057
|
0.010
|
a. 因变量:月销售收入
|
3.某白酒品牌为了打开市场扩大销量,决定从营销策略和销售地区这两个因素入手进行研究,目前有四种营销选择:促销活动能够、线上销售、新品开发和广告投放,白酒销售着重对应4个地区展开:华北、华东、东南和西南地区。每个地区抽取三个不同的时间点进行调研,对不同地区试行四种营销策略后对应的效益水平值记录下来。为了检验四个不同地区的效益水平是否有显著差异,现得出单因素方差分析表5和表6:
表5 ANOVA
|
收益水平
|
|
平方和
|
df
|
均方
|
F
|
显著性
|
组之间
|
6.352
|
E
|
2.117
|
F
|
0.000
|
组内
|
6.746
|
44
|
0.153
|
|
|
总计
|
13.098
|
47
|
|
|
|
表6 方差同质性检验
|
|
收益水平
|
|
Levene 统计
|
df1
|
df2
|
显著性
|
|
1.234
|
3
|
44
|
0.309
|
|
(1)计算E和F的结果。(4分)
(2)针对表5,检验四个不同地区的效益水平是否有显著差异(
)?(3分)
(3)根据表6结果,分析四个不同地区的效益水平的方差是否相等?是否符合方差分析的假定条件?(3分)
4.现有10个国家的出生率和死亡率的指标数据,现对这些数据进行聚类,得到了树状图1,请问这是通过什么聚类方法得到的树状图?当聚成4类时,列出具体每一类的结果。在SPSS中的操作步骤是什么(10分)
图1 聚类树状图
四、综合分析题。(第1小题10分,第2小题15分,共2题,共25分)
1.政府为了帮助年轻人提高工作技能,进行了一系列有针对性的就业能力和工作技能培训项目,为检验培训工作的成效,对25例年轻人进行了问卷调查,主要包括培训前和培训后的收入情况,调查结果见数据文件培训前后.sav所示。要求剔除培训前的收入差异,试分析培训对收入的提高是否有显著影响?现已得出两配对样本t检验的结果表(表7、表8),请分析表7和表8中结果,并说明这是参数检验还是非参数检验(10分)。
表7 配对样本相关性
|
|
数字
|
相关系数
|
显著性
|
配对1
|
培训前收入& 培训后收入
|
25
|
0.815
|
0.000
|
表8 配对样本检验
|
|
配对差值
|
t
|
自由度
|
显著性 (双尾)
|
平均值(E)
|
标准偏差
|
标准误差平均值
|
差值的95% 置信区间
|
下限
|
上限
|
配对1
|
培训前收入- 培训后收入
|
-6.96000
|
4.21782
|
.84356
|
-8.70103
|
-5.21897
|
-8.251
|
24
|
0.000
|
2.现有30个学生的数学、物理、化学、语文、历史、英语课程的成绩,现试着对这30个学生的6门课的成绩进行因子分析。数据见学生各科成绩.sav。
(1)得出KMO和Bartlett检验表9,分析这些变量是否适合进行因子分析?(4分)
表9 KMO 和巴特利特检验
|
KMO 取样适切性量数。
|
0.755
|
Bartlett 的球形度检验
|
上次读取的卡方
|
86.576
|
自由度
|
15
|
显著性
|
0.000
|
(2)得出因子解释原有变量总方差的情况表10,并分析根据特征根大于1时可以提出几个因子?这几个因子的累计方差贡献率可以达到多少?(4分)
表10 总方差解释
|
组件
|
初始特征值
|
提取载荷平方和
|
旋转载荷平方和
|
总计
|
方差百分比
|
累积%
|
总计
|
方差百分比
|
累积%
|
总计
|
方差百分比
|
累积%
|
1
|
3.238
|
53.972
|
53.972
|
3.238
|
53.972
|
53.972
|
2.572
|
42.861
|
42.861
|
2
|
1.277
|
21.288
|
75.260
|
1.277
|
21.288
|
75.260
|
1.944
|
32.400
|
75.260
|
3
|
0.681
|
11.346
|
86.607
|
|
|
|
|
|
|
4
|
0.458
|
7.634
|
94.240
|
|
|
|
|
|
|
5
|
0.212
|
3.526
|
97.767
|
|
|
|
|
|
|
6
|
0.134
|
2.233
|
100.000
|
|
|
|
|
|
|
提取方法:主成份分析。
|
(3)针对“学生各科成绩.sav”数据,你认为除了因子分析外,还可以进行哪些分析,说出至少2种,并选择其中一种方法进行数据分析。(7分)。