田欣的技術世界: xml的parsing

開始要準備做電子書閱讀器的軟體了。
電子書閱讀器所鎖定電子書籍的格式是ePUB的格式，其實就是xhtml放電子書籍的內容，xml放電子書籍的meta data，然後package起來成為可讀的電子書籍。
這就需要大量的xml parsing的工具。
開始找可以用的open source工具，也考慮是否該自己利用yacc/lex寫個parser。
後來放棄自己寫parser的想法，原因反而是字型編碼。
lex中所scan出的token，其實是ascii的token。ePUB中的xml，放的會是電子書籍的meta data，其中就會有中文(採用utf-8編碼)，但lex無法scan非token的本文，放在間的描述性文字，如何可成為被scan的token？與一般程式相近的，大概只能用string。
想來想去，還是決定用現成的eXpat package。雖然對event-driven的expat是否能好好處理電子書籍的頁面有些猶疑，但先這樣做做看吧！

田欣的技術世界

2009年10月13日星期二

xml的parsing

沒有留言:

張貼留言

網誌存檔

關於我自己