2007年11月2日

Nutch API

http://eason982.blogspot.com/2007/11/nutch-api.html
Run on cygwin
(1) Command : bin/nutch readdb
目的 :讀取 或 轉存 Crawl Database(crawldb) 內部資訊  
Example : 在nutch目錄下下command
Command (a) bin/nutch readdb Test10/crawldb -stats (結果如下)



Command (b) bin/nutch readdb Test10/crawldb -dump dump_dir
-->把crawldb 內的資料dump到dump_dir資料夾底下,內部資料如下



-->針對 某個已經抓取到的網址 show 出此網址相關資料

沒有留言: