使用tika读取word和pdf或html等文档的内容

在开发全文检索功能时需要支持对附件的全文检索,这个时候需要读取附件的文本内容,故使用到了tikatika介绍:以下来自百度百科ApacheTika利用现有的解析类库,从不同格式的文档中(例如HTML,PDF,Doc),侦测和提取出元数据和结构化内容。功能包括:侦测文档的类型,字符编码,语言,等其他现有文档的属性。提取结构化的文字内容。该项目的目标使用群体主要为搜索引擎以及其他内容索引和

作者:星辰 时间:2016-07-06 浏览 1367评论 0 赞 0砸 0 标签: java组件 tika word