2009年10月13日 星期二

xml的parsing

開始要準備做電子書閱讀器的軟體了。
電子書閱讀器所鎖定電子書籍的格式是ePUB的格式,其實就是xhtml放電子書籍的內容,xml放電子書籍的meta data,然後package起來成為可讀的電子書籍。
這就需要大量的xml parsing的工具。
開始找可以用的open source工具,也考慮是否該自己利用yacc/lex寫個parser。
後來放棄自己寫parser的想法,原因反而是字型編碼。
lex中所scan出的token,其實是ascii的token。ePUB中的xml,放的會是電子書籍的meta data,其中就會有中文(採用utf-8編碼),但lex無法scan非token的本文,放在間的描述性文字,如何可成為被scan的token?與一般程式相近的,大概只能用string。
想來想去,還是決定用現成的eXpat package。雖然對event-driven的expat是否能好好處理電子書籍的頁面有些猶疑,但先這樣做做看吧!

沒有留言:

張貼留言