文本的类型

一、文本分类简介

文本挖掘是从非结构化的文本信息中获取用户感兴趣的或者有用的知识、模式的过程,文本分类是文本挖掘其中一个领域。文本分类的目的就是为用户给出的每个文档找到所属的正确类别(或主题)。

要想做文本分类,首先需要有带类别标签的文本集合,构成训练集,提取特征后再构建分类模型。自动化的文本分类应用广泛,不限于文本检索、垃圾邮件过滤、题材检测等,是文本挖掘最基础也是应用最广泛的技术。

二、文本分类步骤

STEP 1 : 数据预处理

去除文本噪声,比如网页源代码解析(常用到正则表达式)、编码转换等

STEP 2 : 中文分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词就是将一段话划分成一个个词。比如,‘我喜欢吃番茄和吃西瓜’可划分为‘我/ 喜欢/ 吃/ 番茄/ 和/ 吃/ 西瓜 ’;‘我很久没吃西瓜了’可划分为‘我/ 很久没/ 吃/ 西瓜/ 了 ’;‘我喜欢吃西瓜,西瓜很甜,很久没吃西瓜了’可划分为‘我/ 喜欢/ 吃/ 西瓜/ ,/ 西瓜/ 很甜/ ,/ 很久没/ 吃/ 西瓜/ 了’

STEP 3 : 构建词向量空间

统计文本的词频,构建词向量空间,目的是将一个文本转为向量,便于接下来的建模分析。以step1的例子作简要说明,‘我喜欢吃番茄和西瓜’记为文档A,‘我很久没吃西瓜了’记为文档B,‘我喜欢吃西瓜,西瓜很甜,很久没吃西瓜了’记为文档C,转为词向量(忽略标点符号)

STEP 4 : 权重计算

简单的词频并不能衡量该词在对应文档中的权重,原因有两点,第一,词频会受文档词长的影响;比如,文档C的词长为10,‘吃’的词频为2,文档B的词长为5,‘吃’的词频为1,从绝对意义上的词频来说,文档C中‘吃’的词频是文档B的两倍,但从相对意义上的词频来看,两文档中‘吃’的词频均为0.2,是一样的;第二,词频不能衡量普遍重要性;我们在衡量权重的时候也要考虑到这个词在其他文档中的出现比率,比如‘番茄’,它仅在文档A中出现,说明该词在该文档中重要性较高,‘吃’在三个文档中均出现,说明该词的重要性较低;目前最常用的指标是TF-IDF,该指标综合了以上两点来衡量某词在某文档中的重要性。

STEP 5 : 分类器

将文本向量化之后就可以进行分类建模,常用的分类算法有朴素贝叶斯、KNN、SVM等;

STEP 6 : 评价分类结果

常用的分类结果的衡量指标有准确率、召回率、F1值等;基于分类结果继续优化分类器,直到精度满足要求;

(2)

猜你喜欢

发表回复

本站作者才能评论

评论列表(3条)

  • admin的头像
    admin 2026年03月28日

    我是晓浮号的签约作者“admin”

  • admin
    admin 2026年03月28日

    本文概览:一、文本分类简介文本挖掘是从非结构化的文本信息中获取用户感兴趣的或者有用的知识、模式的过程,文本分类是文本挖掘其中一个领域。文本分类的目的就是为用户给出的每个文档找到所属的正确...

  • admin
    用户032804 2026年03月28日

    文章不错《文本的类型》内容很有帮助

联系我们:

邮件:晓浮号@gmail.com

工作时间:周一至周五,9:30-17:30,节假日休息

关注微信