2007年11月29日

增加Netbeans預設的memory大小

https://eason982.blogspot.com/2007/11/netbeansmemory.html
很多使用 NetBeans 的朋友,常會抱怨,NetBeans 用起來慢慢的!
這很大部份是因為 JVM 在處理一些 Housekeeping 動作所造成的 (如:Garbage collection、Memory allocate 等等)!

所以我們就來誏這些動作不要太頻繁的運作,而要作到如此,我們要來改一個小地方!

在你安裝完 NetBeans 後,會在你安裝 NetBeans 的目錄下看到一個 etc 的目錄!不用害怕進去就對了!
而在其中有一檔案 netbeans.conf,而這就是今天的主角了!用你的 Text Editor 打開它!

此檔案有一些說明的註解外,就是 Key\Value Pair 了!來,現在找到

netbeans_default_options

這個 Key !

其 Value 在 NetBeans 4.1 的預設下為

"-J-Xms32m -J-Xmx128m -J-XX:PermSize=32m -J-XX:MaxPermSize=96m -J-Xverify:none"

這樣的參數看來還不陌生吧!
-J-Xms 這是在設定此次 JVM 最小(預設)的記憶體,
-J-Xmx 則是設定此次 JVM 最大可使用的記憶體!

如果最小(預設)的記憶体不夠用時,JVM 就會花時間來多增加記憶體來使用
(但不會超過 -J-Xmx 所設定的大小)

如果最大可使用的記憶体不夠用時,JVM 就會花時間來清理記憶體,
以維持在 -J-Xmx 所設定的大小內!

而我們所要做的大多就只要加大 -J-Xms 的部份,歸類一下有兩種作法!

1、-J-Xms 小於 -J-Xmx,但調整後的 -J-Xmx 大於預設的值!
這樣的設定是加大 -J-Xms 的值,讓 JVM 少花時間在增加記憶體上!
但當其不管用時,還是會做增加記憶體的動作,增加上限到 -J-Xmx 設定的值!

2、-J-Xms 等於 -J-Xmx!
這樣的設定就不會有 JVM 花時間在增加記憶體上的問題了!
因為一次就割了一大塊記憶體!

希望以上的分享可以幫的上有需求的朋友!

2007年11月20日

116個副檔名解釋 及開啟方式

https://eason982.blogspot.com/2007/11/116.html
001 分片壓縮檔 WinRAR3.0

3ds 格式檔 3ds max

ace 壓縮檔 WinRAR 3.0

ade 文件檔 PowerPoint

arj 壓縮檔 WinRAR 3.0

asf 影片檔 Media player

asp 程式原始碼 Internet Explorer, 用記事本開啟編輯

avi 影片檔 Media player

bak 備份檔 如果不需要可直接刪除

bat 批次檔 滑鼠點兩下執行或用記事本編輯

bik 影片檔 Bink Player

bin 燒錄映像檔 CDMate

bkf 備份檔 Windows XP內建的"備份或還原精靈"

bmp 圖片檔 小畫家, ACDsee



bwi 燒錄映像檔 BlindSuite

c2d 燒錄映像檔 WinOnCD

cab 壓縮檔 Cabinet Manager 99

ccd 燒錄映像檔 配合img及sub檔用CloneCD開啟

cdi 燒錄映像檔 Padus DiscJuggler

cdp 燒錄映像檔 NTI CDMaker

cdr 文件檔 CorelDraw

cfg 設定檔 通常可用記事本開啟

cfm 網頁程式檔 Internet Explorer, 用記事本開啟編輯

cgi 網頁程式檔 Internet Explorer, 用記事本開啟編輯

cif 燒錄映像檔 Easy CD Creator

com 命令檔 滑鼠點兩下執行

csv 通訊錄 用Outlook Express或其他郵件軟體匯入

cur 滑鼠游標檔 ACDSee

dao 燒錄映像檔 Duplicator

dat 影片檔 Media player

dbx 郵件檔 用Outlook Express匯入

divx 影片檔 需裝Divx5.02, 用Media player開啟

dll 動態聯絡檔 系統重要檔案, 不要隨意刪除

doc 文件檔 Word

dot 範本檔 Word

drv 驅動程式檔 安裝硬體時需要此檔

dwg 圖檔 AutoCAD

eml 郵件檔 Outlook Express

eps 圖片檔 ACDSee

exe 執行檔 滑鼠點兩下執行

fcd 虛擬光碟檔 Virtual CD-ROM

gcd 燒錄映像檔 Prassi CD Right Plus

gho 備份檔 Ghost還原程式

gif 圖片檔 ACDSee

hlp 說明檔 滑鼠點兩下執行

htm 網頁檔 Internet Explorer

html 網頁檔 Internet Explorer

ico 圖示檔 ACDSee

igs 文件檔 Lotus Notes

ime 輸入法主檔 若刪除此檔會導致無法使用輸入法

inf 組態設定檔 可用記事本開啟, 但不要隨意修改

ini 組態設定檔 可用記事本開啟, 但不要隨意修改

iso 燒錄映像檔 Nero或大部分的燒錄軟體

jar 壓縮檔 WinRAR 3.0

jpg 圖片檔 ACDSee, Photoshop等秀圖, 影像處理軟體

js java script檔 可用記事本開啟

lnk Windows捷徑檔 滑鼠點兩下執行

log 記錄檔 通常可用記事本開啟

lzh 壓縮檔 WinRAR 3.0

m3u Winamp play播放清單 Winamp

mht 網頁封存檔 Internet Explorer

mid 音樂檔 Media player

mov 影片檔 Quicktime

mp3 聲音檔 Media player

mpg 影片檔 Media player

msi 安裝檔 滑鼠點兩下執行

mv2 影片檔 PowerDVD

nrg 燒錄映像檔 Nero

ogg 聲音檔 Winamp

pcx 圖片檔 ACDsee, Photoshop等秀圖, 影像處理軟體

pdb 資料庫 Palm作業系統專用

pdf 文件檔 Acrobat Reader

php 網頁程式檔 Internet Explorer, 用記事本開啟編輯

pls mp3播放列表 Winamp

png 圖片檔 ACDsee, Photoshop等秀圖, 影像處理軟體

pot PowerPoint範本檔 PowerPoint

pps PowerPoint播放檔 僅限播放, 無法修改

ppt PowerPoint文件檔 PowerPoint

prc 可執行程式檔 Palm作業系統專用

psd 圖片檔 Photoshop專用的格式

pwl Windows密碼檔 存放Windows中各式密碼

ra 影片檔 Realplayer

ram 影片檔 Realplayer

rar 壓縮檔 WinRAR3.0

reg 登錄檔 滑鼠點兩下匯入或用記事本開啟編輯

rm 影片檔 Realplayer

rtf 文字檔 Word

sav 儲存檔 遊戲進度的記錄檔案

scr 螢幕保護程式檔 按滑鼠右鍵選擇安裝

sfv 檢查檔 FireSFV

swf 動畫檔 Flash

swp 系統置換檔 管理虛擬記憶體檔案, 勿隨意刪除

sys 系統檔 程式重要檔案, 勿隨意刪除

tab 輸入法的對照表 記事本

tar 壓縮檔 WinRAR3.0

tbl 輸入法字碼檔 輸入法所需使用的檔案

tga 圖片檔 ACDSee, Photoshop等秀圖, 影像處理軟體

tgz 壓縮檔 WinRAR 3.0

tif 圖片檔 ACDSee, Photoshop等秀圖, 影像處理軟體

tmp 暫存檔 程式視需要建立, 可刪除

ttf 字形檔 在控制台中的字型資料夾中新增

txt 文字檔 記事本, Word等可編輯文字的程式

uin ICQ使用者資訊檔 記錄ICQ號碼

url 網頁位址 Internet Explorer

vbs VB script檔 可用記事本開啟

vob 影片檔 PowerDVD

voc 聲音檔 Media player

wab 通訊錄檔 Outlook Express使用

wav 聲音檔 Media player

wbk Word備份檔 Word

wmf 聲音檔 Media player

wri 文件檔 小作家

wsz Winamp的外觀檔 用Winamp匯入

xls excel文件檔 Excel

xml 跨平台網頁檔 Internet Explorer

zip 壓縮檔 Winzip, WinRAR3.0

2007年11月10日

build.xml:61: Specify at least one source

https://eason982.blogspot.com/2007/11/buildxml61-specify-at-least-one-source.html
nutch 版本:nutch-0.9 In cygwin shell
問題: 用ant直接compile遇到 build.xml:61: Specify at least one source 的error
solution: 把下面的codes 註解掉就解決



2007年11月8日

ssh-使用scp指令

https://eason982.blogspot.com/2007/11/ssh-scp.html

在cygwin下利用ssh機制傳檔

https://eason982.blogspot.com/2007/11/cygwinssh.html
@硬體環境  
本地端 (140.118.xxx.x7) /home/sausage/
服務端 (140.112.xx.xx9) /home/sausage/

@目地
生成的密鑰對id_rsa,id_rsa.pub,預設存儲在 本機端/home/sausage/.ssh目錄下。然后將id_rsa.pub的內容復制到每個機器(也包括本機)的/home/user_name/.ssh/authorized_keys文件中,如果機器上已經有authorized_keys這個文件了,就在文件末尾加上id_rsa.pub中的內容,如果沒有authorized_keys這個文件,直接cp或者scp就好了,下面的操作假設各個機器上都沒有authorized_keys文件。

@Steps:

1) 在本地端需要先建立一個密鑰對,即一個私鑰,一個公鑰。將公鑰拷貝到服務端 (140.112.x.x) /home/sausage/.ssh (.ssh自己建立)資料夾下



ps) command: ssh-keygen -t rsa
Enter file in which to save the key :採用預設值
Enter passphrase: 按enter(即空白為密碼)
2) 將id_rsa.pub的內容復制到每個機器(也包括本機)的/home/user_name/.ssh/authorized_keys 文件中

(a) 使用 scp 指令 可以使用 scp 指令來透過一個安全且加密的連線在機器間傳輸檔
案 , 就如同rcp指令。


(b)先將id_rsa.pub的內容復制到/home/user_name/.ssh/authorized_keys文件中



(c)再利用scp 指令傳檔

Cygwin 中文顯示及color 設定

https://eason982.blogspot.com/2007/11/cygwin-color.html
1) ~/.inputrc
取消註解以下幾行:
set meta-flag on
set convert-meta off
set input-meta on
set output-meta on

2) ~/.bashrc
加入以下資料:
alias ls='ls -hF --show-control-chars --color=tty'

=>要立即生效, 下command
source .inputrc 及 source .bashrc

vi 文書處理器

https://eason982.blogspot.com/2007/11/vi.html
http://linux.vbird.org/linux_basic/0310vi.php

ZoneAlarm 開 port

https://eason982.blogspot.com/2007/11/zonealarm-port.html

在 Cygwin 下安裝 SSHD 的方式

https://eason982.blogspot.com/2007/11/cygwin-sshd.html

安裝步驟


1)安裝 cygwin 時,套件中必須勾選:

Admin --> cygrunsrv

Net --> openssh
2)進入 Cygwin 並執行 ssh-host-config 指令:

privilege separation be used? (yes/no) no

Do you want to install sshd as service? yes

認證方式輸入預設 ntsec

3)啟動服務

cygrunsrv --start sshd

4)讓 sshd 隨著 Windows 一起啟動

cygrunsrv --install sshd

常用指令


@列出目前所安裝的服務

cygrunsrv -L

@啟動服務

cygrunsrv --start

@停止服務

cygrunsrv --stop

@安裝服務

cygrunsrv --install

@移除服務

cygrunsrv --remove

2007年11月6日

搜索引擎發展史

https://eason982.blogspot.com/2007/11/blog-post.html
搜索引擎發展史 
 
在互聯網發展初期,網站相對較少,資訊搜尋比較容易。然而伴隨互聯網爆炸性的發展,普通網絡使用者想找到所需的資料簡直如同大海撈針,這時為滿足大眾資訊檢索需求的專業搜索網站便應運而生了。

  現代意義上的搜索引擎的祖先,是1990年由蒙特利爾大學學生Alan Emtage發明的Archie。雖然當時World Wide Web還未出現,但網絡中文件傳輸還是相當頻繁的,而且由於大量的文件散布在各個分散的FTP主電腦中,查詢起來非常不便,因此Alan Emtage想到了開發一個可以以文件名搜尋文件的系統,於是便有了Archie。

  Archie工作原理與現在的搜索引擎已經很接近,它依靠腳本程序自動搜索網上的文件,然后對有關資訊進行索引,供使用者以一定的表達式查詢。由於Archie深受使用者歡迎,受其啟發,美國內華達System Computing Services大學於1993年開發了另一個與之非常相似的搜索工具,不過此時的搜索工具除了索引文件外,已能檢索網頁。

  當時,“機器人”一詞在程式化者中十分流行。電腦“機器人”(Computer Robot)是指某個能以人類無法達到的速度不間斷地執行某項任務的軟體程序。由於專門用於檢索資訊的“機器人”程序象蜘蛛一樣在網絡間爬來爬去,因此,搜索引擎的“機器人”程序就被稱為“蜘蛛”程序。

  世界上第一個用於監測互聯網發展規模的“機器人”程序是Matthew Gray開發的World wide Web Wanderer。剛開始它只用來統計互聯網上的服務器數量,后來則發展為能夠檢索網站域名。

  與Wanderer相對應,Martin Koster於1993年10月創建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“機器人”程序,而是靠網站主動提交資訊來建立自己的連結索引,類似於現在我們熟知的Yahoo。

  隨著互聯網的迅速發展,使得檢索所有新出現的網頁變得越來越困難,因此,在Matthew Gray的Wanderer基礎上,一些程式化者將傳統的“蜘蛛”程序工作原理作了些改進。其設想是,既然所有網頁都可能有連向其他網站的連結,那麼從跟蹤一個網站的連結開始,就有可能檢索整個互聯網。到1993年底,一些基於此原理的搜索引擎開始紛紛涌現,其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-Based Software Engineering (RBSE) spider最負盛名。

  然而JumpStation和WWW Worm只是以搜索工具在資料庫中找到匹配資訊的先后次序排列搜索結果,因此毫無資訊關聯度可言。而RBSE是第一個在搜索結果排列中引入關鍵字串匹配程度概念的引擎。

  最早現代意義上的搜索引擎出現於1994年7月。當時Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中,創建了大家現在熟知的Lycos。同年4月,斯坦福(Stanford)大學的兩名博士生,David Filo和美籍華人楊致遠(Gerry Yang)共同創辦了超級目錄索引Yahoo,並成功地使搜索引擎的概念深入人心。從此搜索引擎進入了高速發展時期。目前,互聯網上有名有姓的搜索引擎已達數百家,其檢索的資訊量也與從前不可同日而語。比如最近風頭正勁的Google,其資料庫中存放的網頁已達30億之巨!

  隨著互聯網規模的急劇膨脹,一家搜索引擎光靠自己單打獨斗已無法適應目前的市場狀況,因此現在搜索引擎之間開始出現了分工協作,並有了專業的搜索引擎技術和搜索資料庫服務提供商。象國外的Inktomi(已被Yahoo收購),它本身並不是直接面向使用者的搜索引擎,但向包括Overture(原GoTo,已被Yahoo收購)、LookSmart、MSN、HotBot等在內的其他搜索引擎提供全文網頁搜索服務。國內的百度也屬於這一類(注1),搜狐和新浪用的就是它的技術(注2)。因此從這個意義上說,它們是搜索引擎的搜索引擎。

  (注1):百度已於2001年9月開始提供公共搜索服務。
  (注1):搜狐二級網頁搜索現已改為中搜的引擎,而新浪則已轉用Google的搜索結果。

搜索引擎分類
  搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
 ■ 全文搜索引擎
  全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內著名的有百度(Baidu)。它們都是通過從互聯網上提取的各個網站的資訊(以網頁文字為主)而建立的資料庫中,檢索與使用者查詢條件匹配的相關記錄,然后按一定的排列順序將結果返回給使用者,因此他們是真正的搜索引擎。  從搜索結果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,並自建網頁資料庫,搜索結果直接從自身的資料庫中調用,如上面提到的7家引擎;另一種則是租用其他引擎的資料庫,並按自定的格式排列搜索結果,如Lycos引擎。

 ■ 目錄索引
  目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網站連結列表而已。使用者完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的資訊。目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜索也都屬於這一類。
 ■ 元搜索引擎 (META Search Engine)
  元搜索引擎在接受使用者查詢請求時,同時在其他多個引擎上進行搜索,並將結果返回給使用者。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。

  除上述三大類引擎外,還有以下幾種非主流形式:

  1、集合式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區別在於不是同時調用多個引擎進行搜索,而是由使用者從提供的4個引擎當中選擇,因此叫它“集合式”搜索引擎更確切些。

  2、門戶搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網頁資料庫,其搜索結果完全來自其他引擎。

  3、免費連結列表(Free For All Links,簡稱FFA):這類網站一般只簡單地捲動排列連結條目,少部分有簡單的分類目錄,不過規模比起Yahoo等目錄索引來要小得多。

    由於上述網站都為使用者提供搜索查詢服務,為方便起見,我們通常將其統稱為搜索引擎。搜索引擎基本工作原理了解搜索引擎的工作原理對我們日常搜索應用和網站提交推廣都會有很大幫助。
 ■ 全文搜索引擎
  在搜索引擎分類部分我們提到過全文搜索引擎從網站提取資訊建立網頁資料庫的概念。搜索引擎的自動資訊搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址範圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的資訊和網址加入自己的資料庫。  另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出“蜘蛛”程序,掃瞄你的網站並將有關資訊存入資料庫,以備使用者查詢。由於近年來搜索引擎索引規則發生了很大變化,主動提交網址並不保證你的網站能進入搜索引擎資料庫,因此目前最好的辦法是多獲得一些外部連結,讓搜索引擎有更多機會找到你並自動將你的網站收錄。  當使用者以關鍵詞搜尋資訊時,搜索引擎會在資料庫中進行搜尋,如果找到與使用者要求內容相符的網站,便採用特殊的算法——通常根據網頁中關鍵詞的匹配程度,出現的位置/頻次,連結質量等——計算出各網頁的相關度及排名等級,然后根據關聯度高低,按順序將這些網頁連結返回給使用者。

........................................................................................


 ■ 目錄索引
  與全文搜索引擎相比,目錄索引有許多不同之處。
  首先,搜索引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。使用者提交網站后,目錄編輯人員會親自瀏覽你的網站,然后根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。
  其次,搜索引擎收錄網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo!這樣的超級索引,登錄更是困難。(由於登錄Yahoo!的難度最大,而它又是商家必爭之地,所以我們會在后面用專門的篇幅介紹登錄Yahoo雅虎的技巧)
  此外,在登錄搜索引擎時,我們一般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在一個最合適的目錄(Directory)。
  最后,搜索引擎中各網站的有關資訊都是從使用者網頁中自動提取的,所以使用者的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站資訊,而且還有各種各樣的限制。更有甚者,如果工作人員認為你提交網站的目錄、網站資訊不合適,他可以隨時對其進行調整,當然事先是不會和你商量的。
  目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此使用者在查詢資訊時,可選擇關鍵詞搜索,也可按分類目錄逐層搜尋。如以關鍵詞搜索,返回的結果跟搜索引擎一樣,也是根據資訊關聯程度排列網站,只不過其中人為因素要多一些。如果按分層目錄搜尋,某一目錄中網站的排名則是由標題字母的先后順序決定(也有例外)。
  目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索範圍

(注)。在預設搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網站,如國內搜狐、新浪、網易等;而另外一些則預設的是網頁搜索,如Yahoo。

  (注):Yahoo已於2004年2月正式推出自己的全文搜索引擎,並結束了與Google的合作。

2007年11月5日

byte 陣列以及 char 陣列,轉成String型態

https://eason982.blogspot.com/2007/11/byte-char-string.html
以ACCII編碼來看,假設我有一byte陣列如下:

byte[] testbyte = new byte[4];
testbyte[0] = 116; //116,ACCII編碼為t
testbyte[1] = 101; //101,ACCII編碼為e
testbyte[2] = 115; //115,ACCII編碼為s
testbyte[3] = 116; //116,ACCII編碼為t


我要如何把testbyte這個陣列改為String型態,而且String即為"test"?
==>

class strTest2
{
public static void main(String[] args)
{
byte[] testbyte = new byte[4];
testbyte[0] = 116;
testbyte[1] = 101;
testbyte[2] = 115;
testbyte[3] = 116;
String str = new String(testbyte);
System.out.println(str);
}
}

----------------------------------------------------------

同樣的,假設我有一char陣列如下:

char[] testchar = new char[4];
testchar[0] = 't';
testchar[1] = 'e';
testchar[2] = 's';
testchar[3] = 't';

我要如何把testchar這個陣列改為String型態,而且String即為"test"?
==>


class strTest
{
public static void main(String[] args)
{
char[] testchar = new char[4];
testchar[0] = 't';
testchar[1] = 'e';
testchar[2] = 's';
testchar[3] = 't';
String str = new String(testchar);
System.out.println(str);
}
}

2007年11月2日

Nutch API

https://eason982.blogspot.com/2007/11/nutch-api.html
Run on cygwin
(1) Command : bin/nutch readdb
目的 :讀取 或 轉存 Crawl Database(crawldb) 內部資訊  
Example : 在nutch目錄下下command
Command (a) bin/nutch readdb Test10/crawldb -stats (結果如下)



Command (b) bin/nutch readdb Test10/crawldb -dump dump_dir
-->把crawldb 內的資料dump到dump_dir資料夾底下,內部資料如下



-->針對 某個已經抓取到的網址 show 出此網址相關資料

Nutch Environment

https://eason982.blogspot.com/2007/11/nutch-environment.html
Nutch-0.9
Tomcat-5.5
JRE-1.6.0_02
Jdk-1.6
Hadoop-0.14.2
Run onWin32, cygwin, for shell support