5.4.1 数据可视化表达的方式 知识点题库

如图所示,下面程序实现读取数据文件,进行可视化呈现,直观地展示了历年来报考研究生人数变化趋势。阅读程序回答问题:

  1. (1) 本程序中引用了第三方库,写出库名称,从代码中找出来。
  2. (2) 本程序读取了数据文件,文件名称是什么?
  3. (3) 读取数据文件的数据赋值到二维表型数据结构对象中,这个对象的名称是什么?
  4. (4) 本程序实现了数据可视化,呈现的图表为柱形图、折线图还是散点图?通过哪行代码来实现?
  5. (5) 本程序文件实现的图表的标题是什么?阅读程序,从其中找出来。
有关数据可视化呈现的说法中,正确的是(   )
A . 能提升数据分析的效率 B . 能丰富人的视觉效果 C . 能更好地理解数据 D . 以上都正确
数据可视化是指以图形、图像和动画等方式更加直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等。
22018年2~12月的移动应用程序(APP)数量分类占比情况如图所示,分析并描述图中数据的特征和规律(写出两条)。

 ② 

请在空格处填写正确的代码,使程序完善。

实现功能:绘制y=x2-2x+ 1的图像

图片_x0020_100005

#加载numpy模块并限简洁的别名为np

import numpy as np

#加载matplotlib.pyplot模块并限简洁的别名为plt

import matplotlib.pyplot as plt

#x在-7到9之间,每隔0.1取一个点

x=np.arange(-7,9,0.1)

= x**2-2*x+1

plt.plot(x,)

plt.title('y=x*x-2*x+1')

plt.xlabel('x')

plt.ylabel('y')

plt.

如下图表格所示,是浙江省2016年各月份家庭用电统计表,请仔细阅读回答下列问题:

  1. (1) 根据H3单元格中的公式可以推算出I3中单元格公式为
  2. (2) 若在某次修改后,C列部分显示内容为“###”,则可能的原因是
  3. (3) 为了更直观地反映执行峰谷电和不执行峰谷电之间的变化,小赵创建了如下图所示的柱形图表,该图表的数据区域为
  4. (4) 小赵对区域A2:I14数据按“总电量”进行排序,是否(选填:会/不会)对柱形图表效果产生影响。
学校气象小组使用自动测温仪在校园测量了1月12日的气温,并利用Python绘制了这天的气温图,该图如下所示:

  1. (1) 在以上Python程序中,变量Y的数据类型是
  2. (2) 在以上Python程序中,第8行横线处的代码是
  3. (3) 通过观察,气温釆样间隔时间是个小时。
如图所示,该图表的类型是(    )

A . 柱形图 B . 面积图 C . 折线图 D . 圆柱图
下列关于Excel图表的叙述,不正确的是(    )
A . 条形图擅长比较数据间的多少与大小关系 B . 柱形图擅长比较数据间的多少与大小关系 C . 折线图擅长表现数据的变化趋势 D . 饼形图擅长表现数据的变化趋势
在利用统计图表进行数据可视化表达时,为了显示出随时间而变化的连续数据的发展趋势,最适宜应用的图表是(    )。
A . 柱形图 B . 饼形图 C . 折线图 D . 雷达图
小张收集了2016年浙江省各地级市GDP的数据,并使用 Excel软件进行数据处理,如图a所示。

图a

请回答下列问题:

  1. (1) 区域E3:E14的数据是通过公式计算得到的,并用自动填充功能完成区域E4:E14的计算,则E3单元格中的公式是
  2. (2) 小张操作时不小心删除了D3单元格的内容,则E3显示的内容是(填A . #DIV/0!/B . #VALUE!/C . #REF!)。
  3. (3) 根据图a中数据,小张制作了一张图表,如图b所示,创建该图表的数据区域是

    图b

  4. (4) 将区域A2:G14的数据复制到新工作表,在新工作表中相关数据进行筛选操作,筛选设置如图c所示,则按此设置筛选出的城市有个。

    图c

某连锁超市收集了城北路店2017年某月部分水果销售数据,并用Excel软件进行数据处理,如下图表格所示。请回答下列问题:

  1. (1) 若将上图表格中的F3:F11数据格式设置为两位小数,则单元格F12中的数据(选填:会/不会)发生改变。
  2. (2) 将上图表格中的区域A1:G11的数据复制到新工作表中,在新工作表中对“数量”和“利润”两列数据进行筛选操作,筛选设置均如下图所示,则筛选出的水果名称为

  3. (3) 根据表格中的数据制作图表如下图所示,则该图表的数据区域为

  4. (4) 根据“利润”列数据,用RANK函数和自动填充功能,在区域G3:G11中计算各水果利润的名次,则G3中的公式为

    (提示:RANK函数用于计算某数字在一列数字中相对于其他数字的大小排名。例如:=RANK(A3,$A$3:$A$11)表示A3单元格中的数字在A3:A11中的排名)

2021年5月11日,国家统计局公布第七次全国人口普查主要数据结果,数据显示,在人口年龄构成方面,0至14岁人口为25338万人,占17.95%;15至59岁人口为89438万人,占63.35%;60岁及以上人口为26402万人,占18.70%。我们可以运用以下哪种图表形象地呈现我国人口年龄结构?(     )
A . 折线图 B . 词云图 C . 饼图 D . 柱形图
关于大数据处理,下列说法正确的是
A . 处理大数据时, 一般采用分治思想 B . 对图结构的数据一般采用流计算模式进行处理 C . 文本数据处理时需要将非结构化的文本原始状态转化成结构化数据 D . 数据的可视化可以帮助用户更快捷观察与追踪数据
使用Excel软件处理某届快乐阳光幼儿歌唱比赛数据,如图a所示。

请回答下列问题:

  1. (1) 区域G3:G31的数据是在G3单元格输入公式后,通过自动填充实现计算,则G3单元格中的公式应为
  2. (2) 设置如图b所示的筛选条件,下列地区中能显示的是              (单选,填字母)

    ①温州②甘孜州③黔东南州④湘西自治州⑤万州区

    A . ①② B . ①⑤ C . ②⑤ D . ③④
  3. (3) 为了解各省市入围情况,绘制图表如图c所示,结合图a和图c,下列说法正确的是       (多选,填字母)。

    A . 修改B列城市名,图表不会发生变化 B . 在图a所示工作表的G列前插入一列,图表不会发生变化 C . 对A2:C434区域,按“省份”筛选浙江省,图表会发生变化 D . 对A2:C434区域,按“省份”为主要关键字进行升序排序,图表会发生变化
小清收集了2016~2020年我国电力、燃料及水消耗量的部分数据,并使用Excel软件对数据进行处理,如图a所示。

图a

请回答下列问题:

  1. (1) 区域E4:E8的数据是通过公式计算得到的,在E4单元格中输入公式,再使用自动填充功能完成区域E5:E8的计算。 
  2. (2) 利用“设置单元格格式”将E列数值设置保留1位小数后,以“住户用电量占年总耗电量比%”为主要关键字,以“住户”为次要关键字,将A4:J8单元格区域内数据进行降序排序,则2019年数据所在行标值为。 
  3. (3) 为了反映2016~2020年我国水消耗量变化情况,根据图a中的数据创作的图表如图b所示。综合图a和图b,下列说法正确的有(   )(多选,填字母)。

    图b

    A . 创建该图表的数据区域为A2:A8,J2:J8 B . 2016~2019年间水消耗量逐年递增,2020年出现下降情况 C . 要分别筛选出五年内“汽油”和“液化石油气”消耗量最高年份,可同时对H、I列设置筛选条件“最大的一项” D . 交换C列和D列的数据位置,会影响E列数据值的计算
图表是常用的数据可视化表达方式,基本类型有柱状图、饼图和折线图等。要直观地呈现全国各年龄段人口所占比例,最适合的图表类型是
以下关于数据可视化描述中,不恰当的是(   )。
A . 通过图形化手段清晰有效地传达与沟通信息 B . 选择合适的图表类型才有助于对信息的理解 C . 数据可视化有利于推动数据思维提升并发现业务逻辑 D . 尽量从视觉设计的角度制作数据可视化图表
小明搜集了某网络购物平台2021年1月1日至2021年9月30日时间段内的日用化妆品销售数据,原始数据如下图a所示。

  1. (1) 小明对数据进行了整理,下列操作不恰当的是(   )(单选,填字母)。
    A . 发现记录中有6 条重复,对这6 条记录进行了删除 B . 发现记录中有38 处数据项缺失,直接删除相关记录 C . 将某条记录中订单日期“2050-6-9”订正为“2021-6-9” D . 将某条记录中订单日期“2021#3#11”修改为“2021-3-11”
  2. (2) 小明发现数据中仍有极少量时间段外的记录混杂其中,利用Python 及pandas 模块进行处理。请回答问题:

    ① 采用pandas 模块中的(单选:填字母:A .Series / B .DataFrame)

    数据结构存储全部数据会比较高效。

    ② 全部数据保存于变量df 中,为筛选出订单日期为2021 年第一季度内的所有记录,

    可以执行Python 语句df1 =  ,则df1 中保存筛选结果。(单选,填字母。

    提示:多条件筛选时,条件之间用“&”连接,表示需要同时满足这多个条件)

    A.df[ (df['订单日期'] <= '2021-1-1' ) & (df ['订单日期'] <= '2021-3-31') ]

    B.df [ (df ['订单日期'] >= '2021-1-1') & (df ['订单日期'] >= '2021-3-31') ]

    C.df [(df ['订单日期'] >= '2021-1-1') & (df ['订单日期'] <= '2021-3-31')]

  3. (3) 经过以上两步处理之后,为了解“所在地市”第一季度“订购数量”前10 名的情况,

    编写如下Python 程序段:

    #数据整理结果保存于变量df1中,代码略

    g = df1.groupby('所在地市', as_index = False).sum()

    print           )

    则划线处的代码可为(   )(多选,填字母)

    A . g.sort_values('订购数量',ascending = False) [0:10] B . g.sort_values('订购数量',ascending = True).tail(10) C . g.sort_values('订购数量',ascending = True)[0:10] D . g.sort_values('订购数量',ascending = False).head(10)
  4. (4) 根据以上数据整理结果,小明对第一季度所在地市的“订购数量”进行可视化处理,如图b所示。

    实现上述功能的Python程序部分代码如下:

    #按“所在地市”对第一季度数据分组并求和,再按“订购数量”升序排序

    #选取最后10条数据,存入变量s,代码略

    import matplotlib.pyplot as plt

    x = s['所在地市']

    y =

    plt.barh(x, y, color = 'r')

    plt.show( )

    程序中划线处代码应为

  5. (5) 小明借助大数据技术,对近几年来该网络购物平台的日用化妆品销售数据进行了分析。

    应用该分析结果可能提供的数据服务是(列举一条即可)。

某中学为更好组织高三学生参加某高校的三位一体招生考试(该高校三位一体招生学业水平考试成绩折算如下:各科学考等级按A=10分、B=9分、C=8、D=6分进行折算),统计了所有学生学业水平成绩情况,并保存在“学考成绩.xlsx”中,如图a所示。用Python读取“学考成绩.xlsx”文件,并计算每个学生的折算分,筛选出各班“A总数”最多的前5条数据,导出到“各班前5名统计.xlsx”文件中。同时为直观展示各班折算分92分以上人数对比,生成图b所示图表。

图 a

图 b

  1. (1) 在对表格进行整理时发现,表格中关于“德乐蕊”的记录,可能存在的数据问题是 (选填:A .数据缺失/B .数据异常/C .逻辑错误/D .格式不一致)。
  2. (2) “各班前5名统计.xlsx”文件中共有 位学生数据。
  3. (3) 请在下述程序的划线处填上合适的代码。

    Python 程序代码如下:

    import pandas as pd

    import matplotlib.pyplot as plt

    plt.rcParams['font.sans-serif']=['SimHei']

    df=pd.read_excel('学考成绩.xlsx')

    #正常显示汉字

    df.折算分=

    #对df以“班级”为主要关键字升序、“A总数”为次要关键词降序进行排序

    df_sort=df.sort_values(['班级', 'A 总数'], ascending=[True, False])

    result=df_sort.head(5)

    for i in range(2, 7):

    result=result.append(df_sort[ ].head(5), ignore_index=True) result.to_excel('各班前5名统计.xlsx')

    df=df[df.折算分>=92]

    df_count=df.groupby('班级').count( )

    #修改“折算分”列名为“上线人数”

    df_count = df_count.rename(columns={'折算分':'上线人数'})

    x=df count.index

    y=

    plt.figure(figsize=(8, 4))

    plt.bar(x, y,  label='上线人数')

    plt.ylim(15, 30)

    plt.legend( )

    plt.show( )