文本数据挖掘(Text Data Mining)

YeChao 2012-01-02

文本数据挖掘(Text Data Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。文本数据挖掘是应用驱动的,在商务智能(Business Intelligence)、信息检索(Information Retrieval)、生物信息处理等方面都有应用。

按照挖掘对象的不同,可以将TDM分为基于单文档的数据挖掘和基于文档集的数据挖掘。

  • 基于单文档的数据挖掘对文档的分析不涉及其他文档,主要挖掘技术有文本摘要和信息提取。
  • 基于文档集的数据挖掘是对大规模的文档数据进行模式抽取,主要技术有文本分类、文本聚集、个性化文本过滤、因素分析等。

文本数据挖掘(Text Data Mining)

TDM可分为3层:

  1. 底层是TDM基础领域层,包括机器学习、数理统计和自然语言处理。
  2. 中间是TDM基础技术层,包括文本信息抽取、文本分类、文本聚集、文本数据压缩和文本数据处理,其中文本信息抽取和文本数据压缩是TMD独有的技术。
  3. 最上层是应用领域层,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤和信息报告,知识发现包括数据分析和数据预测。

文本数据挖掘(Text Data Mining)

Web文本数据挖掘是Web内容挖掘的最主要、最重要的部分,比数据挖掘具有更高的商业潜力。Web文本数据挖掘是对web上大量文档集合的内容进行总结、分类、聚集和关联分析,以及利用wen文档进行趋势预测等。

相关推荐