YeChao 2012-01-02
文本数据挖掘(Text Data Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。文本数据挖掘是应用驱动的,在商务智能(Business Intelligence)、信息检索(Information Retrieval)、生物信息处理等方面都有应用。
按照挖掘对象的不同,可以将TDM分为基于单文档的数据挖掘和基于文档集的数据挖掘。
TDM可分为3层:
Web文本数据挖掘是Web内容挖掘的最主要、最重要的部分,比数据挖掘具有更高的商业潜力。Web文本数据挖掘是对web上大量文档集合的内容进行总结、分类、聚集和关联分析,以及利用wen文档进行趋势预测等。