單機遊戲下載單機遊戲下載基地
最新遊戲| 熱門遊戲| 遊戲大全| 遊戲專題
壓縮解壓 光盤工具 文字輸入 殺毒軟件 文件處理 轉換翻譯 股票證券 辦公學習 編程軟件 虛擬光驅
當前位置: 首頁應用軟件編程軟件→ Java搜索引擎框架Apache Nutch v2.3 官方版

Java搜索引擎框架Apache Nutchv2.3 官方版

  • Java搜索引擎框架Apache Nutch截圖0
< >
Java搜索引擎框架Apache Nutch下載
好玩 好玩 0
坑爹 坑爹 0
  • 應用語言:中文
  • 應用大小:7.2M
  • 更新時間:2018-05-04 15:5
  • 發行時間:
  • 應用類型:普通
  • 應用標簽:Java
ApacheNutchJava搜索引擎框架是一個開源的、基於Java實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。nbsp;ApacheNu [更多]
應用介紹

Apache Nutch(Java搜索引擎框架)是一個開源的、基於Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。

Apache Nutch軟件特色

1、Nutch致力於讓每個人能很容易,同時花費很少就可以配置世界一流的Web搜索引擎

2、每個月取幾十億網頁

3、為這些網頁維護一個索引

4、對索引文件進行每秒上千次的搜索

5、提供高質量的搜索結果

Apache Nutch Java搜索引擎框架功能

1、支持將起始URL集合注入到Nutch係統之中

2、支持生成片段文件,其中包含了將要抓取的URL地址

3、根據URL地址在互聯網上抓取相應的內容

4、解析所抓取到的網頁,並分析其中的文本和數據

5、根據新抓取的網頁中的URL集合來更新起始URL集合,並再次進行抓取

6、同時,對抓取到的網頁內容建立索引,生成索引文件存放在係統之中

Apache Nutch使用教程

1、首先先運行軟件,選擇File -> Import Project ->選擇apache-nutch-1.9文件夾,確定後選擇Import project from external model(Eclipse)

2、一直點擊next到結束,成功將項目導入project中去

3、源碼導入工程後,並不能執行完整的爬取。Nutch將爬取的流程切分成很多階段,每個階段分別封裝在一個類的main函數中。在外麵通過Linux Shell調用這些main函數,來完整爬取的流程。下麵我們來運行Nutch中最簡單的流程:Inject。我們知道爬蟲在初始階段,是需要人工給出一個或多個url,作為起始點(廣度遍曆樹的樹根)。Inject的作用,就是把用戶寫在文件裏的種子(一行一個url,是TextInputFormat),插入到爬蟲的URL管理文件(crawldb,是SequenceFile)中。

4、接下來我們按照Nutch默認的配置,需要修改Nutch的配置文件,為插件文件夾指定一個絕對路徑,修改conf/nutch-default.xml文件內容,並且保存到工程中

5、接下來我們就可以開始對指定的網站的信息進行完整的爬取了

更新日誌

Apache Nutch v1.9更新:

1、增加了可爬取的數據類型

2、增加對Web爬蟲的管理功能

3、解決了一些格式上的已知問題

4、修複了一些bug,優化了軟件界麵

5、優化了軟件性能

相關應用
    下載地址

    Java搜索引擎框架Apache Nutch v2.3 官方版

        熱門評論

        最新評論

        發表評論查看所有評論(0)

        昵稱:
        表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
        (您的評論需要經過審核才能顯示)

        配置需求

        推薦專題

        up對戰平台up對戰平台

        關於飛翔|聯係我們|大事記|下載幫助(?)|廣告聯係|版權聲明|網站地圖|友情鏈接

        Copyright 2010-2013單機遊戲下載(R) 版權所有 飛翔下載所有遊戲及軟件下載資源來源互聯網,並由網友上傳分享。如有侵權,請來電來函告之。
        飛翔忠告:抵製不良色情、反動、暴力遊戲 合理安排遊戲時間 享受健康生活【鄂ICP備13011873號-1】