在lucene搜索如火如荼的時候,apache也沒有忘記繼續努力。最近又提供了解析各種格式文件的解決方案Apache下的tika。雖然還沒有發布1.0版本,但是已經很有用了:
Java代碼集合代碼
/**
*解析各種文件。
* @param文件路徑
* @返回文件內容字符串
*/
公共靜態字符串分析(字符串路徑){
字符串結果= " ";
TikaConfig TikaConfig = TikaConfig . getdefaultconfig();
嘗試{
result = parse utils . getstring content(新文件(路徑),tikaConfig);
}catch(異常e) {
log . debug("[by ninja . hzw]"+e);
}
返回結果;
}
非常簡單,可以解析各種文件,返回文檔內容字符串。word2003/2007,pdf,txt都測試過,都可以解析,沒有亂碼問題。
哦,偉大的阿帕奇
Tika下載和打包:
不用說,谷歌“阿帕奇tika”並在官網找到其下載。
Java代碼集合代碼
要從源代碼構建Tika,您首先需要下載壹個源代碼版本,或者從版本控制中簽出最新的源代碼。
壹旦有了源代碼,就可以使用Maven 2構建系統來構建它們。在基本目錄中執行以下命令將構建源代碼,並在本地Maven存儲庫中安裝結果工件。
mvn安裝
Apache已經說的很清楚了,進入下載的tika目錄,執行maven install即可。(當然,這裏需要知道如何使用maven2。當然不是,朋友可以聯系我。還要註意,必須是JDK 1.5+才能編譯打包成功。)
打包後,將生成以下jar:
Java代碼集合代碼
tika-core/目標/tika-core-0.7.jar
Tika核心庫。包含Tika的核心接口和類,但沒有解析器實現。只依賴Java 5。
tika解析器/目標/tika解析器-0.7.jar
提卡解析器。基於各種外部解析器庫實現Tika解析器接口的類集合。
tika-app/target/tika-app-0.7 . jar
Tika應用程序。將上述庫和所有外部解析器庫合並到壹個具有GUI和命令行界面的runnable jar中。
tika-bundle/目標/tika-bundle-0.7.jar
提卡包。壹個OSGi包,包括在OSGi環境中使用所有Tika功能所需的壹切。
如果我們想進行文檔解析,我們只需要引入tika-core和tika-parser。
當然,如果您的項目是由maven構建的,那就更好了。向pom添加依賴關系:
Java代碼集合代碼
& lt依賴性& gt
& ltgroupId & gtorg . Apache . tika & lt;/groupId & gt;
& ltartifactId & gttika-core & lt;/artifact id & gt;
& lt版本& gt0.7 & lt/version & gt;
& lt/dependency & gt;
和
Java代碼集合代碼
& lt依賴性& gt
& ltgroupId & gtorg . Apache . tika & lt;/groupId & gt;
& ltartifactId & gttika解析器& lt/artifact id & gt;
& lt版本& gt0.7 & lt/version & gt;
& lt/dependency & gt;