如何解決文件類型子類型和Apache Tika問題？

Apache是壹個偉大的組織。

在lucene搜索如火如荼的時候，apache也沒有忘記繼續努力。最近又提供了解析各種格式文件的解決方案Apache下的tika。雖然還沒有發布1.0版本，但是已經很有用了:

Java代碼集合代碼

/**

*解析各種文件。

* @param文件路徑

* @返回文件內容字符串

公共靜態字符串分析(字符串路徑){

字符串結果= " "；

TikaConfig TikaConfig = TikaConfig . getdefaultconfig()；

嘗試{

result = parse utils . getstring content(新文件(路徑)，tikaConfig)；

}catch(異常e) {

log . debug("[by ninja . hzw]"+e)；

}

返回結果；

}

非常簡單，可以解析各種文件，返回文檔內容字符串。word2003/2007，pdf，txt都測試過，都可以解析，沒有亂碼問題。

哦，偉大的阿帕奇

Tika下載和打包:

不用說，谷歌“阿帕奇tika”並在官網找到其下載。

Java代碼集合代碼

要從源代碼構建Tika，您首先需要下載壹個源代碼版本，或者從版本控制中簽出最新的源代碼。

壹旦有了源代碼，就可以使用Maven 2構建系統來構建它們。在基本目錄中執行以下命令將構建源代碼，並在本地Maven存儲庫中安裝結果工件。

mvn安裝

Apache已經說的很清楚了，進入下載的tika目錄，執行maven install即可。(當然，這裏需要知道如何使用maven2。當然不是，朋友可以聯系我。還要註意，必須是JDK 1.5+才能編譯打包成功。)

打包後，將生成以下jar:

Java代碼集合代碼

tika-core/目標/tika-core-0.7.jar

Tika核心庫。包含Tika的核心接口和類，但沒有解析器實現。只依賴Java 5。

tika解析器/目標/tika解析器-0.7.jar

提卡解析器。基於各種外部解析器庫實現Tika解析器接口的類集合。

tika-app/target/tika-app-0.7 . jar

Tika應用程序。將上述庫和所有外部解析器庫合並到壹個具有GUI和命令行界面的runnable jar中。

tika-bundle/目標/tika-bundle-0.7.jar

提卡包。壹個OSGi包，包括在OSGi環境中使用所有Tika功能所需的壹切。

如果我們想進行文檔解析，我們只需要引入tika-core和tika-parser。

當然，如果您的項目是由maven構建的，那就更好了。向pom添加依賴關系:

Java代碼集合代碼

& lt依賴性& gt

& ltgroupId & gtorg . Apache . tika & lt；/groupId & gt；

& ltartifactId & gttika-core & lt；/artifact id & gt；

& lt版本& gt0.7 & lt/version & gt；

& lt/dependency & gt；

和

Java代碼集合代碼

& lt依賴性& gt

& ltgroupId & gtorg . Apache . tika & lt；/groupId & gt；

& ltartifactId & gttika解析器& lt/artifact id & gt；

& lt版本& gt0.7 & lt/version & gt；

& lt/dependency & gt；

上一篇:張藝興有多好看

下一篇:被央視點名批評，與女徒弟玩曖昧的侯耀華，又爆新情況，什麽事？

“泰山壓頂不彎腰！”刀壹定要彎嗎？

夢見很多漂亮的項鏈和衣服的預兆

揚州有什麽好吃的？

壹代名畫被偷運至臺灣，被遺忘在壹個小山村15年，現今如何？

黃牙怎麽變白？

不到160，她已經成了壹個小穿衣教科書，高瘦時尚。

公司目標勢必達成的口號錦集(60條)