文本数据的处理与可视化知识点题库

文本数据处理的主要步骤包括：

①结果呈现②特征提取③分词④数据分析⑤文本数据获取

正确的顺序是( )

A . ⑤②④① B . ⑤③①④ C . ⑤③②④① D . ⑤①③②④

分析某水果的用户评论内容，创建的标签云如图所示。

其中用作文本的特征项的是( )

A . 字 B . 词 C . 句子 D . 段落

下列数据分析中可能涉及文本情感分析的是( )

A . 用户评论内容分析 B . 用户年龄分布分析 C . 评论发布设备分析 D . 用户男女比例分析

使用百度搜索关键词“春节”，将采集到的结果数据存储为chj.txt文件，如图1所示。处理chj.txt文件中的数据后生成chjfc.txt文件，如图2所示。

请回答下列问题：

（1）文件chj.txt中的数据为(选填：“结构化数据”或“非结构化数据”)。
（2）处理文件chj.txt中的数据生成chjfc.txt文件的过程，一般称为。
（3）编写如下Python程序，读取chjf.txt文件中的数据，并统计其中各词语(2个及以上文字构成)出现的次数。在划线处填写合适代码，完善程序。
txt = open('chjfc. txt', 'r', encoding='utf-8'). read( )

words-txt. split( )

word_ counts={ }

for word in words：

    if len(word)==1：

    continue

else：

          ①            #可以为1行或多行代码

    #使用word_counts计算词语word在words中出现的次数

word_ list=list(word_counts. items( ))      #返回所有键值对信息，生成列表

word_ list. sort(key-lambda x：x[1], reverse=True)     #按词语出现次数降序排序

for i in range(20)：

    word, times=      ②

    print(word, times)

程序中划线①处应填写的代码是

程序中划线②处应填写的代码是
（4）去除步骤(3)程序的统计结果中的非特征词(如代词介词连词等)后，制作的标签云如图所示，标签云中最能表现文件chj.txt中文本特征的词有(写出3~5个)。

文本数据处理的主要应用有( )

①搜索引擎②自动摘要③论文查重④成绩查询⑤自动应答

A . ①④⑤ B . ①②③⑤ C . ②③④ D . ②③④⑤

下列数据处理中，不属于文本数据处理的是( )

A . 对简历数据进行关键信息提取，构建人才画像，匹配精准岗位 B . 分析消费者的意见数据，挖掘用户观点，辅助运营决策 C . 实时监测景区的人流数据，及时导流、限流 D . 解析大量合同文档，有效监控风险条款，节省人力和时间成本

小张收集了近段时间要学习的英文单词，存储为“data.txt" 文件，格式如图所示。

data. txt 记事本

他处理“data.txt”文件中英文单词的Python程序段如下：

file='data.txt'

word_ c=[]

n=0

for word in open(file)：

if word[0：1]=='c'：

word_c. append(word)

print(word)

print('字母c开头的单词个数：'，n)

（1）划线处的代码为。
（2）该程序段运行后，列表word_c中的数据为。

某全英文教材文件"textbook.txt"内容如图所示。编写Python程序，分析该书中的单词使用情况。程序代码如下，请回答下面问题。

（1）图1中单词的间隔有。
（2）自定义函数cleantext( )的功能是。
（3）在划线处填入合适代码，完善程序。
import pandas as pd

def cleantext( )：

    txt = open("textbook.txt"，"r"). read( )

    txt=     ①            #将字符串中所有大写字母转为小写

    for ch in '! ( );:''',.? ' :

        txt = txt.replace(ch，"")       #用空格替代ch的值

    return txt

booktxt = cleantext( )

words = booktxt. split( )

#以空格为分隔符分割文本并生成列表

counts= { }

for word in words：

    counts[word]=counts. get( word，0)+1

items= -list(counts. items( ))    #返回所有键值对信息，生成列表

df= pd.DataFrame(items，columns=['word'，'times'])

df1= df.sort _values('word')

df1.plot( x='word', y='times', kind='line', igsize=(8，3))

df2=    ②

print('文件中出现的不同单词数：'，     ③          )

print(df2[：10])

① ② ③
（4）运行程序，输出结果如图2所示，绘制的图形如图3所示。结合两图分析，该教材中出现次数超过50次的单词有哪些?这些单词有什么特征?

（5）若将该教材中单词的掌握程度分为“非常熟练”“熟练”“一般”三类输出，请完善下表。

掌握程度	程序末尾须添加的输出语句
非常熟练(出现10次以上)
熟练(出现2~10次)
一般(出现1次)

关于文本素材的采集和处理，下列说法正确的是( )

A . 文本素材指的是纯文本内容 B . 文本素材只能键盘输入 C . 表格数据转换为图形文件可以采用屏幕硬拷贝 D . 文字特效可以用记事本实现

学生处王老师收集到各班“我心向党、礼赞百年”活动文稿，尝试使用“在线词云图生成网站”生成如图所示词云图，将文本挖掘可视化。下列关于词云图的说法错误的是（）

A . 词云图是目前常见的关键词数据可视化表达的一种方式 B . 词云图只能通过字体大小表示关键词的重要程度 C . 可以通过词云图快速获取文本数据中所蕴含的关键信息 D . 可以通过词云图直观呈现活动文稿中关键词出现频次

文本数据处理的一般过程不包括( )

A . 数据共享 B . 特征提取 C . 数据分析 D . 结果呈现

文本数据处理的一般过程不包括（）。

A . 特征提取 B . 数据分析 C . 数据共享 D . 结果呈现

文本数据处理的一般过程不包括（）。

A . 结果呈现 B . 特征提取 C . 分词 D . 数据共享

文本数据处理的一般过程包括 ( )

①分词 ②特征提取 ③数据分析 ④结果呈现

A . ①②③ B . ①③④ C . ①②④ D . ①②③④

关于大数据处理，下列说法正确的是

A . 处理大数据时，一般采用分治思想 B . 对图结构的数据一般采用流计算模式进行处理 C . 文本数据处理时需要将非结构化的文本原始状态转化成结构化数据 D . 数据的可视化可以帮助用户更快捷观察与追踪数据

学生处王老师收集到各班“我心向党、礼赞百年”活动文稿，尝试使用“在线词云图生成网站”生成如右所示词云图，将文本挖掘可视化。下列关于词云图的说法错误的是（）

A . 词云图是目前常见的关键词数据可视化表达的一种方式 B . 词云图只能通过字体大小表示关键词的重要程度 C . 可以通过词云图快速获取文本数据中所蕴含的关键信息建党百年 D . 可以通过词云图直观呈现活动文稿中关键词出现频次

分词是文本数据处理中的步骤之一。基于词典的分词，所采用的词典需要经常更新。编写一个在词典中删除单词的程序，功能为：输入需删除的单词，在词典中查找并将其删除。

（1）组织字典中的单词，链表相比较数组的优势有（单选，填字母：A .可快速查找任何一个单词/ B .存储空间少/ C .插入、删除操作无需频繁移动单词）
（2）实现上述功能的部分Python 程序如下，请在划线处填入合适的代码。
word = ["yellow", "accent", "call", "excel", "tea", "little", "brother"]      #存储结点的数据区域

turn = [4,-1,6,2,5,3,1]      #存储结点的指针区域

del_word = input("请输入要删除的单词：")

head = 0       #头指针为head

pre_point = -1

while point != -1:

if :

point = turn[point]

break #break退出当前循环

pre_point = point

point = turn[point]

if pre_point == -1: #删除头节点

head = point

elif point == -1: #删除尾节点

turn[pre_point] = -1

else:

turn[pre_point] = point

point = head

print("删除单词后词典为：")

while point != -1:

print(word[point],end=" ")

print('\n')

小王要对这10篇作文随机抽取1篇进行分词处理，并进行频率统计，在统计频率时需要去除单个的文字，请回答下列各题。文章收集后存放目录如图a所示，生成的词云如图b所示。

import import import

pandas as pd

os,jieba,re,random,wordcloud

matplotlib.pyplot as plt

from PIL import Image

wzdir = "./2021 浙江高考满分作文/"

wz = os.listdir(wzdir) #获得文件夹中所有文件的名称列表

wzrd = ①

f=open(wzdir+wzrd[0],encoding="utf-8")

dd=f.read ()

f.close()

#使用正则表达式去除文章中的标点符号

ss = re.sub("[、，。：“”；？\n]","",dd)

wb = jieba.lcut(ss,cut_all=True)

word = {}

for i in wb:

t =i.strip()

if len(t)>1:

if t in word:

word[t]+=1

else:

②

wc = wordcloud.WordCloud(font_path="msyh.ttc", width=800, height=600) wc.background_color="white"

wc.fit_words (word)

img = wc.to_array()

plt.rcParams['font.sans-serif']=['SimHei'] plt.figure()

plt.imshow(img)

plt.axis(False)

plt.title(wzrd[0].split(".")[0])

③

#支持中文显示

（1）为实现上述功能①处代码为

A . random.sample(wz,1) B . random.shuffle(wz) C . random.randint(1,10)
（2）请将②③处代码补充完整
②③

文本数据的处理与可视化 知识点题库

文本数据的处理与可视化知识点题库