数据分析 知识点题库

用EXCEL工作表记录全年级学生的期末考试成绩,包含学生的姓名、班级、科目成绩、总分等信息,能快速得到平均总分最高的班级的最好方法是(   )。
A . 按学生的总分排序 B . 按班级+总分排序 C . 自动筛选 D . 按班级对总分进行分类汇总
王老师想了解全班同学的成绩变化情况,比较容易的成绩分析方法是(   )
A . 将每次考试成绩张贴出来,进行直观比较 B . 将每位同学的每次考试成绩记录在笔记本上然后进行分析 C . 将每位同学的每次考试成绩记录在Execl中,然后利用图表进行分析 D . 每位同学自己统计分析自己的成绩,然后汇报给王老师
请分析如下图表中所包含哪些信息?请简要述之。

图片_x0020_21

EXCEL中分类汇总之前首先要对分类字段进行(  )
A . 有效计算 B . 排序 C . 筛选 D . 汇总
某超市使用Excel软件对饮料销售数据进行分析,界面如图所示:

  1. (1) 当前工作表的名称是
  2. (2) 正确计算各种饮料占销售总额百分比的值,需在H2单元格中输入公式(计算公式:占销售总额百分比=销售额(元)/销售总额(元)),并从H2单元格自动填充到H13单元格。
  3. (3) 设置数据区域H2:H13的百分比格式,操作步骤有:

    ①在“分类”中选择“百分比”;

    ②在对话框中选择“数字”选项卡;

    ③选定数据区域H2:H13;

    ④在选定区域内右击鼠标,并选择“设置单元格格式”命令;

    ⑤单击“确定”按钮。

      正确的操作顺序是:(填序号)。

  4. (4) 若将图a中“销售额(元)”所在列的数值格式设置为两位小数,那么“占销售总额百分比”所在列的计算结果(填:会/不会)发生变化。
  5. (5) 观察图b可知该图表类型是(填:柱形图/条形图/折线图/饼图),要得到该图表,需在如图c中选(填字母)。

  6. (6) 观察图b可知,毛利润最大的饮料名称是
Excel中“求平均数”的函数是(  )
A . Min( ) B . Sum( ) C . Average( ) D . Max( )
数据聚类分析的主要任务是(    )
A . 对数据进行预处理,发现和处理缺失值,异常数据、绘制直方图,观察数据分布的特征,求最大值、最小值、极差等描述性统计量。 B . 分析发现存在于大量数据之间的关联性和相关性,从而描述一个事物的共同规律和模式。 C . 是一种探索性的分析。不必事先给出一个分类标准,而是让其自动分类。 D . 是数据分析中最基本的方法。先基于样本数据构建分类器,然后进行预测。
数据分析的基本方法包括(   )
A . 特征探索、关联分析、聚类分析、数据分类 B . 特征探索、聚类分析、数据分类 C . 特征探索、数据分类 D . 关联分析、聚类分析、数据分类
聚类分析的基本算法从数据点集合中固定选择K个点作为初始的聚集中心,每个中心点代表着每个聚集中心的平均值。
小王收集了2021大年初一到初七的电影票房数据,并用Excel软件进行数据处理,如图所示。

图a

请回答以下问题:

  1. (1) 区域J3:J12的数据是通过公式计算得到的,在J3单元格输入公式  ,再使用自动填充功能完成区域J4:J12的计算。

    (提示:票房占比=单部电影总票房/一周总票房*100)

  2. (2) 表中有具体名称的9部电影已经按2月12日票房降序排序,则排序时应该选择的数据区域是
  3. (3) 复制图a中A2:J11的数据到新工作表,对2月12日票房和总票房分别设置筛选条件为“最大4项”,则筛选出的结果有项。
  4. (4) 根据图a中的数据创建了如图b所示的图表,下列说法正确的是         (单选,填字母)

    图b

    A . 该图表使用了折线图,能较好体现变化趋势 B . 创建该图表的数据区域是A2:I8 C . 在图a的工作表中“电影名称”列前插入一列,图表会随之变化
项目学习:解密盛唐时期诗人关系

[项目情境]

唐代诗人史传有名有姓者不下千余人,他们组成了大大小小不同的朋友圈。有的因为诗风接近,如李白代表的浪漫主义、杜甫代表的现实主义、王维代表的田园山水、芩参代表的边塞诗风;有的因为年龄大体相近,如盛唐时期的李白、杜甫、贺知章等;有的因为政见相近,如韩愈作为古文运动的领袖级人物,当时很多文人墨客以进人他的朋友圈为荣。在盛唐时期有这样一个朋友圈,他们的友谊跨越数十年,诗人之间通过互动诗歌,表达、抒发情感,是他们朋友圈的一种表现方式,用计算机来分析这个时代的唐诗,就会发现诗人之间有着你意想不到的千丝万缕的关系。学校某研究性学习小组利用大数据分析技术,通过对诗词分析,绘制盛唐时期几位诗人(杜甫、李白、王维、孟浩然……)之间的社交关系网络图,试图推测哪位诗人是同时代诗人的核心,哪位诗人的影响最大,从而更好地学习、理解唐诗。

[项目准备]为完成项目,需要确定主题、目标、制订规划等各项工作。在此不一一展示。明确的主题——盛唐时期的诗人及诗词分析和诗人社交关系网络图

[项目实施]项目研究主要以诗人诗作为依据。具体实施过程如下:

  1. (1) 明确需要采集的数据,选择合适的采集途径、工具和方法。

    全唐诗一共四万多首,分析采集相关数据的条件:①盛唐时期;②诗人、诗人之间经常称呼对方的别名;③考虑到同名同姓的问题,因此还需要诗人的生卒年的信息。

    根据要求,完成答题。

    ①全唐诗数量较多,一共四万多首,来源分散,存储在互联网不同的服务器与各客户终端。从大数据存储与计算的角度来看,由此可知大数据具有的特征。(单选)

    A.精确让位于模糊

    B.价值密度低

    C.分布式存储

    D.变化速度快

    ②网络上如此海量的关于唐诗的数据,有文字图片、视频、音频等。这些数据种类和格式也不一致,表明各种数据共存于网络中。(多选)

    A.结构化

    B.半结构化

    C.非结构化

    D.网状结构

    ③面对繁杂的数据,学习小组决定研究解密盛唐时期诗人关系,并利用计算机程序从网络中采集诗人别名等相关的文本数据,并以一定的数据结构存储,形成盛唐诗库。存储数据主要有两种方式,一种是,一种是数据云存储。你建议学习小组采用数据存储方式,理由是

  2. (2) 利用Python程序采集、整理、分析数据。

    第一步,从互联网中筛选出符合条件的诗人及诗作等文本,整理并形成盛唐诗库;第二步,确定人物关系分析策略,即从唐诗库中搜索、统计诗人或别名的引用次数,确定二人之间的疏密关系,规则是诗的标题和正文中只要提到过对方,那么两者之间的引用关系加1,若一首诗中提到多次对方,只算一次引用;第三步,编写程序并调试验证。

    用爬虫程序段(如下图所示)采集数据。根据要求,完成答题。

     

    使用爬虫程序获取文本数据并形成唐诗库文件,所使用的数据采集方法为(选填:系统日志采集法、网络数据采集法、其他数据采集方法)。阅读程序可知,每首诗存放于列表poem[ ]中(以唐诗“春晓”为例,如下表),采集后的数据保存在poet.txt文件中,该文件是一个(选填:数据库文件、文档文件、图像文件、网页文件)。该数据采集方法可以将非结构化数据从网页中抽取出来,将其存储为统一的数据文件,并以化的方式存储(选填:结构化、半结构化)。

    Poem[0]

    Poem[1]

    Poem[2]

    Poem[3]

    “春晓”

    “唐"

    “孟浩然”

    “春眠不觉晓……花落知多少”

    以诗人甲,乙为例,解密二人关系。根据要求,完成答题。

    ①数据处理过程中要运用一定的分析方法对大量、无序的数据进行整理、分析,挖掘数据内在的结构和规律,从而提取有价值的、有意义的数据。数据分析一般包括特征探索、关联分析、聚类与分类等。让计算机搜索遍历唐诗库中有关甲,乙两位诗人的诗文,统计两位诗,人或别名相互的引用次数,找寻二人之间的关联。这是运用了(选填:特征探索、关联分析、聚类与分类)方法进行数据分析,也是(选填:枚举、二分查找、排序)算法思想去求解这一问题的体现。

    ②编制计算机程序解决问题的过程中,是编程的核心, 是解决问题的方法和步骤。选用Python程序设计语言编写程序,Python属于(选填:分析问题、设计算法、编写程序、调试运行、机器语言、汇编语言高级语言)。图a示意,使用 (选填:自然语言、流程图、伪代码)进行算法描述,且运用循环控制结构嵌套了控制结构,如果要跳出本次循环体的执行,应使用语句实现跳转。

    ③阅读程序(图b示意),程序中以“#”开头的语句,其作用是,程序调试完成,通过“另存为”保存文件,文件后缀名为

  3. (3) 分析数据,进行可视化表达,并推测盛唐时期诗人关系。

    解密盛唐时期诗人关系。根据要求,完成答题。

    ①数据的可视化以易于理解的方式展示和诠释数据之间的关系、趋势与规律等,使人们更好地理解数据。从常用和实用的维度,数据可视化的呈现类型主要分为探索型和解释型,其中型可以帮助人们发现数据背后的价值,型则把数据简单明了地解释给人们(选填:探索、解释)。数据分析类型不同可视化呈现方式也不同,如关于趋势的分析,可用类型的图表呈现,关于比例的分析,可用类型的图表呈现,关于关系的分析,可用类型的图表呈现。

    ②学习小组选择用网络关系图呈现盛唐时期诗人社会网络关系(如图所示)。图中,箭头表示诗人之间的引用关系,如李白引用了贺知章,那么就有李白指向贺知章箭头;箭头的粗细程度则表示了诗人之间引用关系的强弱,如李白引用孟浩然的数量达4次,箭头就要粗一些。

    ③观察图示,从绘制的盛唐的诗人社交关系网络图,尝试推测哪位诗人是盛唐诗人的核心,哪位诗人的影响最大,请简要阐述。(要求100字左右)

    ④通过对该项目案例的研究学习,请谈谈大数据对学习生活的影响。

如图所示,从中可以看出(    )

A . 公司职员人数2006年比2005年有所增加 B . 公司男职员所占比例2006年比2005年有所下降 C . 公司男职员人数2006年比2005年有所减少 D . 公司女职员人数2006年比2005年有所增加
列关于投针实验的描述错误的是(     )。
A . 投针实验起源于18世纪 B . 投针实验应用了蒙特卡洛方法并采用计算机进行模拟 C . 投针实验中拋掷的次数越多,结果偏离越大 D . 投针实验可通过“网络画板”平台进行模拟
使用Excel软件对某学校“校园文化节”节目评分进行数据处理,如图所示,回答下列问题: 

  1. (1)  各大节目的得分是将“主题内容”、“舞台效果”、“表现演绎”、“总体印象”的成绩分别乘以对应的权重后相加所得。通过 G3 单元格中的公式,对 G4:G20 进行自动填充,则G3单元格中的公式是。 
  2. (2) 为了要对比分析图中歌唱类各节目(主题内容、舞台效果、表现演绎、总体印象)的得分情况,请写出一种分析方法:
    A.哪些数据是本次分析必需的,写出数据区域。  B.如何分析这些数据,选用哪种图表类型
  3. (3) 若要对图中舞蹈类按得分进行降序排序,需选择的排序区域是
小王收集了“近三年某高校部分系的学生人数”的相关数据,并使用Excel软件进行数据处理,如图a所示。

图a

  1. (1) 区域H3:J5中的数据是通过SUMIF函数计算得到的,在H3中输入公式再通过自动填充完成H列、I列、J列的相关区域的计算。(提示:SUMIF函数用于统计某个区域中满足条件的单元格数值之和。例如求2019年5个系的总人数:=SUMIF(A3:A17,G5,E3:E17))
  2. (2) 根据图a中的数据,制作了一张“2018年人数统计”的统计图表,如图b所示,图表的数据区域是

    图b

  3. (3) 对图a中的数据进行统计分析,下列说法正确的是               (多选,填字母)
    A . 列E的数据是通过公式计算得到的,已知“E3”单元格的公式是“=C3+D3”,小李不小心把D3单元格的数据输成了“*”,这时E3单元格中将会显示为“#VALUE!” B . 选择“A2:E17”按照“总人数”降序排序后,图13-b的图表不会发生改变 C . 以“入学年份”等于“2018年”,“男生人数”最大1项进行筛选可以筛选到“2018年”中“男生人数”最多的记录 D . 以“入学年份”等于“2017年”,“系名”等于“?学?”可筛选出2017年“数学系”和“化学系”的记录
大数据时代已经在悄悄地改变我们的日常生活,也使人们日常生活更为便捷,如移动支付、网络约车出行、网络购物、网络预约挂号等。以下不属于大数据分析的是(   )
A . 特征探索 B . 关联分析 C . 聚类与分类 D . 建模分析
平均分析就是运用的方法,来反映总体在一定时间、地点条件下某一数量特征的
数据分析的常用方法有等。
德国男人超市购买婴儿纸尿布的同时往往还购买啤酒,计算机分析超市的购物数据后发现了这一规律,于是将啤酒货架移到了婴儿纸尿布货架旁,啤酒和纸尿布的销量都有所增加。计算机分析购物数据发现这一规律的过程属于
数据分析的方法主要有对比分析、平均分析。对比分析是指将两个或两个以上的数据进行比较,分析它们的差异,来反映总体在一定时间、地点条件下某一数量特征的一般水平。