文本的类型

一、文本分类简介

文本挖掘是从非结构化的文本信息中获取用户感兴趣的或者有用的知识、模式的过程，文本分类是文本挖掘其中一个领域。文本分类的目的就是为用户给出的每个文档找到所属的正确类别（或主题）。

要想做文本分类，首先需要有带类别标签的文本集合，构成训练集，提取特征后再构建分类模型。自动化的文本分类应用广泛，不限于文本检索、垃圾邮件过滤、题材检测等，是文本挖掘最基础也是应用最广泛的技术。

二、文本分类步骤

STEP 1 : 数据预处理

去除文本噪声，比如网页源代码解析（常用到正则表达式）、编码转换等

STEP 2 : 中文分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词就是将一段话划分成一个个词。比如，‘我喜欢吃番茄和吃西瓜’可划分为‘我/ 喜欢/ 吃/ 番茄/ 和/ 吃/ 西瓜 ’；‘我很久没吃西瓜了’可划分为‘我/ 很久没/ 吃/ 西瓜/ 了 ’；‘我喜欢吃西瓜，西瓜很甜，很久没吃西瓜了’可划分为‘我/ 喜欢/ 吃/ 西瓜/ ，/ 西瓜/ 很甜/ ，/ 很久没/ 吃/ 西瓜/ 了’

STEP 3 : 构建词向量空间

统计文本的词频，构建词向量空间，目的是将一个文本转为向量，便于接下来的建模分析。以step1的例子作简要说明，‘我喜欢吃番茄和西瓜’记为文档A，‘我很久没吃西瓜了’记为文档B，‘我喜欢吃西瓜，西瓜很甜，很久没吃西瓜了’记为文档C，转为词向量（忽略标点符号）

STEP 4 : 权重计算

简单的词频并不能衡量该词在对应文档中的权重，原因有两点，第一，词频会受文档词长的影响；比如，文档C的词长为10，‘吃’的词频为2，文档B的词长为5，‘吃’的词频为1，从绝对意义上的词频来说，文档C中‘吃’的词频是文档B的两倍，但从相对意义上的词频来看，两文档中‘吃’的词频均为0.2，是一样的；第二，词频不能衡量普遍重要性；我们在衡量权重的时候也要考虑到这个词在其他文档中的出现比率，比如‘番茄’，它仅在文档A中出现，说明该词在该文档中重要性较高，‘吃’在三个文档中均出现，说明该词的重要性较低；目前最常用的指标是TF-IDF，该指标综合了以上两点来衡量某词在某文档中的重要性。

STEP 5 : 分类器

将文本向量化之后就可以进行分类建模，常用的分类算法有朴素贝叶斯、KNN、SVM等；

STEP 6 : 评价分类结果

常用的分类结果的衡量指标有准确率、召回率、F1值等；基于分类结果继续优化分类器，直到精度满足要求；

文本的类型

发表回复

评论列表（3条）

联系我们:

文本的类型

猜你喜欢

二年级下册快乐读书吧必读书目有哪些-

长相奇怪又罕见的动物

足球阵型介绍是什么？

佛顶珠桂和日香桂有哪些区别？

秦观劝学的翻译及原文是什么？

翻译狗语的软件免费

发表回复

评论列表（3条）

联系我们: