网站首页  
县区频道: 中原区二七区管城区金水区上街区惠济区巩义市荥阳市新密市新郑市登封市中牟县
政务
中原经济区 政策法规 业务指导 职称教育
档案科研 档案学会 党建 精神文明 廉政
资讯
通知公告 档案新闻 档案界论坛
档案界维基百科 《档案工作》电子期刊
互动
网上预约服务 馆藏珍品展厅
网上调查 利用天地 档案征集 档案技术
档案文件查阅
已公开现行文件查询 河南数字档案馆
音视频档案 历史记忆 本地沿革
 档案技术
把Word转为简洁的html的若干种方法
作者:郑州市档案局  更新时间:2011-4-17

把Word转为简洁的html的若干种方法

word可以直接另存为 htm,但即使是 另存为 html 也会有大量的废代码。以前我一般用 dreamweaver 的 clean up html 来处理,先处理 word 特有标签,然后删除一些 font,b,span 等。进一步,在 editplus 里面用正则进行处理,最后得到我想要的干净的html 代码。当然最完美的办法就是拷贝文字出来,自己用文本编辑器书写htm标签,:)

今天又看到lifehacker这几种word 2 clean htm方法:

1.使用这个HTML Tidy Library Project开源软件来处理。

2.微软官方站点也有个Office 2000 HTML Filter 2.0工具,可以用来处理掉word2000转html时出现的多余代码。

3.使用这个Word HTML Cleaner 在线工具来处理。只能处理word2000以下版本。

4.有人给出了正则表达式(其实,上面的各种软件也都是用正则来解决的)

删除不需要的标签

<[/]?(font|span|xml|[ovwxp]:w+)[^>]*?>
- replace any matches with the empty string

删除class,style...等不需要的属性

<([^>]*)(?:class|lang|style|size|face|[ovwxp]:w+)=(?:'[^']*'|""[^""]*""|[^>]+)([^>]*)>
- replace any matches with <$1$2>

详细解释在Clean Word HTML using Regular Expressions

地址:郑州市金水路18号 邮政编码:450003 电子邮箱: hndafgc@126.com
版权所有 河南省档案局 豫ICP备11015203号-1 用户登录