當前位置:吉日网官网 - 油畫收藏 - 如何解決文件類型子類型和Apache Tika問題?

如何解決文件類型子類型和Apache Tika問題?

Apache是壹個偉大的組織。

在lucene搜索如火如荼的時候,apache也沒有忘記繼續努力。最近又提供了解析各種格式文件的解決方案Apache下的tika。雖然還沒有發布1.0版本,但是已經很有用了:

Java代碼集合代碼

/**

*解析各種文件。

* @param文件路徑

* @返回文件內容字符串

*/

公共靜態字符串分析(字符串路徑){

字符串結果= " ";

TikaConfig TikaConfig = TikaConfig . getdefaultconfig();

嘗試{

result = parse utils . getstring content(新文件(路徑),tikaConfig);

}catch(異常e) {

log . debug("[by ninja . hzw]"+e);

}

返回結果;

}

非常簡單,可以解析各種文件,返回文檔內容字符串。word2003/2007,pdf,txt都測試過,都可以解析,沒有亂碼問題。

哦,偉大的阿帕奇

Tika下載和打包:

不用說,谷歌“阿帕奇tika”並在官網找到其下載。

Java代碼集合代碼

要從源代碼構建Tika,您首先需要下載壹個源代碼版本,或者從版本控制中簽出最新的源代碼。

壹旦有了源代碼,就可以使用Maven 2構建系統來構建它們。在基本目錄中執行以下命令將構建源代碼,並在本地Maven存儲庫中安裝結果工件。

mvn安裝

Apache已經說的很清楚了,進入下載的tika目錄,執行maven install即可。(當然,這裏需要知道如何使用maven2。當然不是,朋友可以聯系我。還要註意,必須是JDK 1.5+才能編譯打包成功。)

打包後,將生成以下jar:

Java代碼集合代碼

tika-core/目標/tika-core-0.7.jar

Tika核心庫。包含Tika的核心接口和類,但沒有解析器實現。只依賴Java 5。

tika解析器/目標/tika解析器-0.7.jar

提卡解析器。基於各種外部解析器庫實現Tika解析器接口的類集合。

tika-app/target/tika-app-0.7 . jar

Tika應用程序。將上述庫和所有外部解析器庫合並到壹個具有GUI和命令行界面的runnable jar中。

tika-bundle/目標/tika-bundle-0.7.jar

提卡包。壹個OSGi包,包括在OSGi環境中使用所有Tika功能所需的壹切。

如果我們想進行文檔解析,我們只需要引入tika-core和tika-parser。

當然,如果您的項目是由maven構建的,那就更好了。向pom添加依賴關系:

Java代碼集合代碼

& lt依賴性& gt

& ltgroupId & gtorg . Apache . tika & lt;/groupId & gt;

& ltartifactId & gttika-core & lt;/artifact id & gt;

& lt版本& gt0.7 & lt/version & gt;

& lt/dependency & gt;

Java代碼集合代碼

& lt依賴性& gt

& ltgroupId & gtorg . Apache . tika & lt;/groupId & gt;

& ltartifactId & gttika解析器& lt/artifact id & gt;

& lt版本& gt0.7 & lt/version & gt;

& lt/dependency & gt;

  • 上一篇:張藝興有多好看
  • 下一篇:被央視點名批評,與女徒弟玩曖昧的侯耀華,又爆新情況,什麽事?
  • copyright 2024吉日网官网