文本数据的处理与可视化 知识点题库

文本数据处理的主要步骤包括:

①结果呈现②特征提取③分词④数据分析⑤文本数据获取

正确的顺序是(    )

A . ⑤②④① B . ⑤③①④ C . ⑤③②④① D . ⑤①③②④
分析某水果的用户评论内容,创建的标签云如图所示。

其中用作文本的特征项的是(    )

A . B . C . 句子 D . 段落
下列数据分析中可能涉及文本情感分析的是(    )
A . 用户评论内容分析 B . 用户年龄分布分析 C . 评论发布设备分析 D . 用户男女比例分析
使用百度搜索关键词“春节”,将采集到的结果数据存储为chj.txt文件,如图1所示。处理chj.txt文件中的数据后生成chjfc.txt文件,如图2所示。

请回答下列问题:

  1. (1) 文件chj.txt中的数据为(选填:“结构化数据”或“非结构化数据”)。
  2. (2) 处理文件chj.txt中的数据生成chjfc.txt文件的过程,一般称为 。
  3. (3) 编写如下Python程序,读取chjf.txt文件中的数据,并统计其中各词语(2个及以上文字构成)出现的次数。在划线处填写合适代码,完善程序。

    txt = open('chjfc. txt', 'r', encoding='utf-8'). read( )

    words-txt. split( )

    word_ counts={ }

    for word in words:

        if len(word)==1:

        continue

    else:

              ①            #可以为1行或多行代码

        #使用word_counts计算词语word在words中出现的次数

    word_ list=list(word_counts. items( ))      #返回所有键值对信息,生成列表

    word_ list. sort(key-lambda x:x[1], reverse=True)     #按词语出现次数降序排序

    for i in range(20):

        word, times=      ②       

        print(word, times)

    程序中划线①处应填写的代码是

    程序中划线②处应填写的代码是

  4. (4) 去除步骤(3)程序的统计结果中的非特征词(如代词介词连词等)后,制作的标签云如图所示,标签云中最能表现文件chj.txt中文本特征的词有(写出3~5个)。

文本数据处理的主要应用有(    )

①搜索引擎②自动摘要③论文查重④成绩查询⑤自动应答

A . ①④⑤ B . ①②③⑤ C . ②③④ D . ②③④⑤
下列数据处理中,不属于文本数据处理的是(    )
A . 对简历数据进行关键信息提取,构建人才画像,匹配精准岗位 B . 分析消费者的意见数据,挖掘用户观点,辅助运营决策 C . 实时监测景区的人流数据,及时导流、限流 D . 解析大量合同文档,有效监控风险条款,节省人力和时间成本
小张收集了近段时间要学习的英文单词,存储为“data.txt" 文件,格式如图所示。

data. txt 记事本

他处理“data.txt”文件中英文单词的Python程序段如下:

file='data.txt'

word_ c=[]

n=0

for word in open(file):

    if word[0:1]=='c':

       word_c. append(word)

       print(word)

                

print('字母c开头的单词个数:',n)

  1. (1) 划线处的代码为
  2. (2) 该程序段运行后,列表word_c中的数据为
某全英文教材文件"textbook.txt"内容如图所示。编写Python程序,分析该书中的单词使用情况。程序代码如下,请回答下面问题。

 

  1. (1) 图1中单词的间隔有 。
  2. (2) 自定义函数cleantext( )的功能是
  3. (3) 在划线处填入合适代码,完善程序。

    import pandas as pd

    def cleantext( ):

        txt = open("textbook.txt","r"). read( )

        txt=     ①            #将字符串中所有大写字母转为小写

        for ch in '! ( );:''',.? ' :

            txt = txt.replace(ch,"")       #用空格替代ch的值

        return txt

    booktxt = cleantext( )

    words = booktxt. split( )

    #以空格为分隔符分割文本并生成列表

    counts= { }

    for word in words:

        counts[word]=counts. get( word,0)+1

    items= -list(counts. items( ))    #返回所有键值对信息,生成列表

    df= pd.DataFrame(items,columns=['word','times'])

    df1= df.sort _values('word')

    df1.plot( x='word', y='times', kind='line', igsize=(8,3))

    df2=    ②       

    print('文件中出现的不同单词数:',     ③          )

    print(df2[:10])

     ② ③ 

  4. (4) 运行程序,输出结果如图2所示,绘制的图形如图3所示。结合两图分析,该教材中出现次数超过50次的单词有哪些?这些单词有什么特征?

  5. (5) 若将该教材中单词的掌握程度分为“非常熟练”“熟练”“一般”三类输 出,请完善下表。

    掌握程度

    程序末尾须添加的输出语句

    非常熟练(出现10次以上)

    熟练(出现2~10次)

    一般(出现1次)

关于文本素材的采集和处理,下列说法正确的是(    )
A . 文本素材指的是纯文本内容 B . 文本素材只能键盘输入 C . 表格数据转换为图形文件可以采用屏幕硬拷贝 D . 文字特效可以用记事本实现
学生处王老师收集到各班“我心向党、礼赞百年”活动文稿,尝试使用“在线词云图生成网站”生成如图所示词云图,将文本挖掘可视化。下列关于词云图的说法错误的是(    )

A . 词云图是目前常见的关键词数据可视化表达的一种方式 B . 词云图只能通过字体大小表示关键词的重要程度 C . 可以通过词云图快速获取文本数据中所蕴含的关键信息 D . 可以通过词云图直观呈现活动文稿中关键词出现频次
文本数据处理的一般过程不包括(     )
A . 数据共享 B . 特征提取 C . 数据分析 D . 结果呈现
文本数据处理的一般过程不包括(     )。
A . 特征提取 B . 数据分析 C . 数据共享 D . 结果呈现
文本数据处理的一般过程不包括(     )。
A . 结果呈现 B . 特征提取 C . 分词 D . 数据共享
文本数据处理的一般过程包括 (      )

①分词                  ②特征提取            ③数据分析            ④结果呈现

A . ①②③ B . ①③④ C . ①②④ D . ①②③④
关于大数据处理,下列说法正确的是
A . 处理大数据时, 一般采用分治思想 B . 对图结构的数据一般采用流计算模式进行处理 C . 文本数据处理时需要将非结构化的文本原始状态转化成结构化数据 D . 数据的可视化可以帮助用户更快捷观察与追踪数据
学生处王老师收集到各班“我心向党、礼赞百年”活动文稿,尝试使用“在线词云图生成网站”生成如右所示词云图,将文本挖掘可视化。下列关于词云图的说法错误的是(    )

A . 词云图是目前常见的关键词数据可视化表达的一种方式 B . 词云图只能通过字体大小表示关键词的重要程度 C . 可以通过词云图快速获取文本数据中所蕴含的关键信息建党百年 D . 可以通过词云图直观呈现活动文稿中关键词出现频次
分词是文本数据处理中的步骤之一。基于词典的分词,所采用的词典需要经常更新。编写一个在词典中删除单词的程序,功能为:输入需删除的单词,在词典中查找并将其删除。
  1. (1) 组织字典中的单词,链表相比较数组的优势有 (单选,填字母:A .可快速查找任何一个单词/ B .存储空间少/ C .插入、删除操作无需频繁移动单词)
  2. (2) 实现上述功能的部分Python 程序如下,请在划线处填入合适的代码。

    word = ["yellow", "accent", "call", "excel", "tea", "little", "brother"]      #存储结点的数据区域

    turn = [4,-1,6,2,5,3,1]       #存储结点的指针区域

    del_word = input("请输入要删除的单词:")

    head = 0       #头指针为head

    pre_point = -1

    while point != -1:

    if  :

    point = turn[point]

    break #break退出当前循环

    pre_point = point

    point = turn[point]

    if pre_point == -1: #删除头节点

    head = point

    elif point == -1: #删除尾节点

    turn[pre_point] = -1

    else:

    turn[pre_point] = point

    point = head

    print("删除单词后词典为:")

    while point != -1:

    print(word[point],end=" ")

    print('\n')

小王要对这10篇作文随机抽取1篇进行分词处理,并进行频率统计,在统计频率时需要去除单个的文字,请回答下列各题。文章收集后存放目录如图a所示,生成的词云如图b所示。

   

import import import

pandas as pd

os,jieba,re,random,wordcloud

matplotlib.pyplot as plt

from PIL import Image

wzdir = "./2021 浙江高考满分作文/"

wz = os.listdir(wzdir) #获得文件夹中所有文件的名称列表

wzrd =    ①       

f=open(wzdir+wzrd[0],encoding="utf-8")

dd=f.read ()

f.close()

#使用正则表达式去除文章中的标点符号

ss = re.sub("[、,。:“”;?\n]","",dd)

wb = jieba.lcut(ss,cut_all=True)

word = {}

for i in wb:

  t =i.strip()

  if len(t)>1:

    if t in word:

      word[t]+=1

    else:

           ②    

      wc = wordcloud.WordCloud(font_path="msyh.ttc", width=800, height=600) wc.background_color="white"

      wc.fit_words (word)

      img = wc.to_array()

      plt.rcParams['font.sans-serif']=['SimHei'] plt.figure()

      plt.imshow(img)

      plt.axis(False)

      plt.title(wzrd[0].split(".")[0])

    ③  

#支持中文显示

  1. (1) 为实现上述功能①处代码为                            
    A . random.sample(wz,1) B . random.shuffle(wz) C . random.randint(1,10)
  2. (2) 请将②③处代码补充完整