http://eason982.blogspot.com/2007/11/nutch-api.html
Run on cygwin
(1) Command : bin/nutch readdb
目的 :讀取 或 轉存 Crawl Database(crawldb) 內部資訊
Example : 在nutch目錄下下command
Command (a)
bin/nutch readdb Test10/crawldb -stats (結果如下)

Command (b)
bin/nutch readdb Test10/crawldb -dump dump_dir-->把crawldb 內的資料dump到dump_dir資料夾底下,內部資料如下

-->針對 某個已經抓取到的網址 show 出此網址相關資料
沒有留言:
張貼留言