Nutch 致力于讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎.包括全文搜索和Web爬蟲。它提供了我們運行自己的搜索引擎所需的全部工具。Apache Nutch免費下載,快來下載體驗吧!當這個循環徹底結束,Apache Nutch v2.3 最新版,Crawler根據抓取中生成的segments創建索引(步驟7-10)。其中有一個細節問題,Dedup操作主要用于清除segment索引中的重復URLs,但是我們知道,在WebDB中是不允許重復的URL存在的,那么為什么這里還要進行清除呢?原因在于抓取的更新。 ...