大数据的概念与特征 知识点题库

数据的多样性体现在(   )
A . 数据与信息不可分离 B . 数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等 C . 数据是有多种实际意义的
下列对大数据的理解错误的是(   )。
A . 从互联网产生大数据的角度来看,大数据具有“4V”特征,分别是大量(Volume),多样(Variety),低价值密度(Value),高速(Velocity)。 B . 从互联网思维的角度来看,大数据具有三个特征:样本渐趋于总体,精确让位于模糊,相关性重于因果。 C . 从大数据存储与计算的角度来看,大数据具有两个特征:分布式存储和分布式并行计算。 D . 以上都不对
大数据最显著的特征是(   )
A . 数据规模大 B . 数据处理速度快                            C . 数据类型多 D . 数据价值密度高
下列关于大数据的特征,说法正确的是(  )
A . 数据价值密度高 B . 数据类型少 C . 数据基本无变化 D . 数据体量巨大
下列不属于大数据特征的是(    )
A . 数据体量大 B . 处理速度快 C . 数据类型多 D . 价值密度高
我们每天都在跟各类软件打交道:聊天购物、看新闻和短视频……每一次我们的点击和滑动都会成为数据的一部分,有关组织通过数据的搜集、存储分析和可视化技术,解决大数据海量、高速、多变、价值密度低的问题,使数据从散乱的信息变成知识和智慧,帮助组织解决发展中遇到的实际问题。

对于上述描述,下列说法不正确的是(    )

A . 你的每次上网行为及相关数据可能会被采集 B . 你在上网时的每次操作,蕴含着巨大的价值 C . 你在聊天、购物、看新闻和短视频等过程中,有可能泄露个人隐私 D . 网站提供给你的“个性化推荐”,依赖于你的上网行为
下列选项中属于大数据的是(    )

①气象卫星采集的数据 ②微信使用中产生的数据 ③地感线圈记录的车辆通行数据

④校门口保安手持测温仪测量入校师生的体温数据 ⑤学生网上高考报名数据

A . ①②③ B . ①②③④ C . ①②③⑤ D . ①②③④⑤
当前社会中,最为突出的大数据环境是(   )。
A . 互联网 B . 物联网 C . 综合国力 D . 自然资源
大数据最显著的特征是(     )
A . 数据体量大 B . 数据类型繁多 C . 价值密度低 D . 变化速度快
在信息社会背景下,开展调查的过程中,收集的数据一定要具有(    )。
A . 完整性 B . 可用性 C . 真实性 D . 多样性
大数据的最显著特征是(       )
A . 数据处理速度快 B . 数据类型多样 C . 数据规模大 D . 数据价值密度高
下列关于大数据的特征,说法正确的是(    )。
A . 应用价值低 B . 数据容量巨大 C . 数据存取速度慢 D . 数据类型少
项目学习:解密盛唐时期诗人关系

[项目情境]

唐代诗人史传有名有姓者不下千余人,他们组成了大大小小不同的朋友圈。有的因为诗风接近,如李白代表的浪漫主义、杜甫代表的现实主义、王维代表的田园山水、芩参代表的边塞诗风;有的因为年龄大体相近,如盛唐时期的李白、杜甫、贺知章等;有的因为政见相近,如韩愈作为古文运动的领袖级人物,当时很多文人墨客以进人他的朋友圈为荣。在盛唐时期有这样一个朋友圈,他们的友谊跨越数十年,诗人之间通过互动诗歌,表达、抒发情感,是他们朋友圈的一种表现方式,用计算机来分析这个时代的唐诗,就会发现诗人之间有着你意想不到的千丝万缕的关系。学校某研究性学习小组利用大数据分析技术,通过对诗词分析,绘制盛唐时期几位诗人(杜甫、李白、王维、孟浩然……)之间的社交关系网络图,试图推测哪位诗人是同时代诗人的核心,哪位诗人的影响最大,从而更好地学习、理解唐诗。

[项目准备]为完成项目,需要确定主题、目标、制订规划等各项工作。在此不一一展示。明确的主题——盛唐时期的诗人及诗词分析和诗人社交关系网络图

[项目实施]项目研究主要以诗人诗作为依据。具体实施过程如下:

  1. (1) 明确需要采集的数据,选择合适的采集途径、工具和方法。

    全唐诗一共四万多首,分析采集相关数据的条件:①盛唐时期;②诗人、诗人之间经常称呼对方的别名;③考虑到同名同姓的问题,因此还需要诗人的生卒年的信息。

    根据要求,完成答题。

    ①全唐诗数量较多,一共四万多首,来源分散,存储在互联网不同的服务器与各客户终端。从大数据存储与计算的角度来看,由此可知大数据具有的特征。(单选)

    A.精确让位于模糊

    B.价值密度低

    C.分布式存储

    D.变化速度快

    ②网络上如此海量的关于唐诗的数据,有文字图片、视频、音频等。这些数据种类和格式也不一致,表明各种数据共存于网络中。(多选)

    A.结构化

    B.半结构化

    C.非结构化

    D.网状结构

    ③面对繁杂的数据,学习小组决定研究解密盛唐时期诗人关系,并利用计算机程序从网络中采集诗人别名等相关的文本数据,并以一定的数据结构存储,形成盛唐诗库。存储数据主要有两种方式,一种是,一种是数据云存储。你建议学习小组采用数据存储方式,理由是

  2. (2) 利用Python程序采集、整理、分析数据。

    第一步,从互联网中筛选出符合条件的诗人及诗作等文本,整理并形成盛唐诗库;第二步,确定人物关系分析策略,即从唐诗库中搜索、统计诗人或别名的引用次数,确定二人之间的疏密关系,规则是诗的标题和正文中只要提到过对方,那么两者之间的引用关系加1,若一首诗中提到多次对方,只算一次引用;第三步,编写程序并调试验证。

    用爬虫程序段(如下图所示)采集数据。根据要求,完成答题。

     

    使用爬虫程序获取文本数据并形成唐诗库文件,所使用的数据采集方法为(选填:系统日志采集法、网络数据采集法、其他数据采集方法)。阅读程序可知,每首诗存放于列表poem[ ]中(以唐诗“春晓”为例,如下表),采集后的数据保存在poet.txt文件中,该文件是一个(选填:数据库文件、文档文件、图像文件、网页文件)。该数据采集方法可以将非结构化数据从网页中抽取出来,将其存储为统一的数据文件,并以化的方式存储(选填:结构化、半结构化)。

    Poem[0]

    Poem[1]

    Poem[2]

    Poem[3]

    “春晓”

    “唐"

    “孟浩然”

    “春眠不觉晓……花落知多少”

    以诗人甲,乙为例,解密二人关系。根据要求,完成答题。

    ①数据处理过程中要运用一定的分析方法对大量、无序的数据进行整理、分析,挖掘数据内在的结构和规律,从而提取有价值的、有意义的数据。数据分析一般包括特征探索、关联分析、聚类与分类等。让计算机搜索遍历唐诗库中有关甲,乙两位诗人的诗文,统计两位诗,人或别名相互的引用次数,找寻二人之间的关联。这是运用了(选填:特征探索、关联分析、聚类与分类)方法进行数据分析,也是(选填:枚举、二分查找、排序)算法思想去求解这一问题的体现。

    ②编制计算机程序解决问题的过程中,是编程的核心, 是解决问题的方法和步骤。选用Python程序设计语言编写程序,Python属于(选填:分析问题、设计算法、编写程序、调试运行、机器语言、汇编语言高级语言)。图a示意,使用 (选填:自然语言、流程图、伪代码)进行算法描述,且运用循环控制结构嵌套了控制结构,如果要跳出本次循环体的执行,应使用语句实现跳转。

    ③阅读程序(图b示意),程序中以“#”开头的语句,其作用是,程序调试完成,通过“另存为”保存文件,文件后缀名为

  3. (3) 分析数据,进行可视化表达,并推测盛唐时期诗人关系。

    解密盛唐时期诗人关系。根据要求,完成答题。

    ①数据的可视化以易于理解的方式展示和诠释数据之间的关系、趋势与规律等,使人们更好地理解数据。从常用和实用的维度,数据可视化的呈现类型主要分为探索型和解释型,其中型可以帮助人们发现数据背后的价值,型则把数据简单明了地解释给人们(选填:探索、解释)。数据分析类型不同可视化呈现方式也不同,如关于趋势的分析,可用类型的图表呈现,关于比例的分析,可用类型的图表呈现,关于关系的分析,可用类型的图表呈现。

    ②学习小组选择用网络关系图呈现盛唐时期诗人社会网络关系(如图所示)。图中,箭头表示诗人之间的引用关系,如李白引用了贺知章,那么就有李白指向贺知章箭头;箭头的粗细程度则表示了诗人之间引用关系的强弱,如李白引用孟浩然的数量达4次,箭头就要粗一些。

    ③观察图示,从绘制的盛唐的诗人社交关系网络图,尝试推测哪位诗人是盛唐诗人的核心,哪位诗人的影响最大,请简要阐述。(要求100字左右)

    ④通过对该项目案例的研究学习,请谈谈大数据对学习生活的影响。

大数据是以大、多、快、高为主要特征的数据集合,它正快速发展为对数量巨大、来源分散、格式多样的数据进行,从中发现新知识,创造新价值、提升新能力的新一代信息技术和服务业态。
大数据时代,数据使用的关键是(      )   
A . 数据收集 B . 数据存储 C . 数据分析 D . 数据再利用
同一小区中发现有新冠病例,其他住户的健康码马上会变色,这主要得益于(    )
A . 数据体量大 B . 价值密度高 C . 数据处理的速度快 D . 数据产生的速度快
手机导航能实时提示前方路况,主要体现了大数据的(    )特征
A . 数据体量巨大 B . 速度快 C . 数据类型多 D . 价值密度低
唐诗数量较多,一共四万多首,来源分散,存储在互联网不同的服务器与各客户终端。从大数据存储与计算的角度来看,由此可知大数据具有(   )的特征。
A . 精确让位于模糊 B . 价值密度低 C . 分布式存储 D . 变化速度快
 2022年的北京冬奥会,我国取得了历史最好成绩,人工智能技术也以科技手段助运动员们一臂之力。研究团队利用基于深度学习原理的人工智能技术,建立神经网络模型,实现对动作视频中人体关节点的计算机自动识别,进而建立起适用于竞技体育和一般生物力学研究的计算机系统——无反光点人体运动自动捕捉人工智能系统。目前该系统已应用在国家速度滑冰和越野滑雪项目的训练中,获得超过8000人次的赛时动作技术数据,使机器深度学习越发“得心应手”,对于滑冰与滑雪运动员的动作捕捉与技术分析,既能精准到具体细节,又能快速反馈分析结果。

请回答下面小题。

  1. (1) 根据以上描述,下列说法不正确的是(     )
    A . 随着获取的动作数据逐渐增加,该技术对于数据的反馈会更有效 B . 该技术主要体现动作与结果的关系,说明大数据更注重事物之间的相关性 C . 该技术捕捉到的每一个数据都来自于真实数据,体现了大数据价值密度高的特点 D . 能根据动作自动捕捉进行分析,并快速反馈分析结果,体现了大数据速度快的特点
  2. (2) 根据以上描述,人工智能技术助力运动员主要基于以下哪种方法(      )
    A . 符号主义 B . 联结主义 C . 行为主义 D . 建构主义