電子書閱讀器所鎖定電子書籍的格式是ePUB的格式,其實就是xhtml放電子書籍的內容,xml放電子書籍的meta data,然後package起來成為可讀的電子書籍。
這就需要大量的xml parsing的工具。
開始找可以用的open source工具,也考慮是否該自己利用yacc/lex寫個parser。
後來放棄自己寫parser的想法,原因反而是字型編碼。
lex中所scan出的token,其實是ascii的token。ePUB中的xml,放的會是電子書籍的meta data,其中就會有中文(採用utf-8編碼),但lex無法scan非token的本文,放在
想來想去,還是決定用現成的eXpat package。雖然對event-driven的expat是否能好好處理電子書籍的頁面有些猶疑,但先這樣做做看吧!
沒有留言:
張貼留言