页面

2012年10月14日星期日

Twitter 推文网页存档自动简化转换 121014

Twitter 推文网页存档自动简化转换
v121014

修订:
1. 增加功能,输出结果包括推文内嵌的图片。

用法:
  1. 安装 Perl 解释器,推荐用 ActivePerl http://www.activestate.com/activeperl/downloads
  2. 将本文件包内容展开到一个文件夹中。下载文件包: https://www.wuala.com /lihlii_童言无忌/Topic/软件/Twitter/cleanup/
  3. 将需要保存的推文保存为完整网页(Complete HTML)格式,不要保存为仅存网页(HTML Only)格式,那样网页中信息可能不全。
  4. 将保存的推文 HTML 文件拷贝到如上 2. 所述文件夹中。
  5. 运行 msg_merge_sort_twitter.bat,该脚本程序可以处理多个 HTML 文件并将其中推文按照时间排序,删除重复推文,输出结果 msg_merge_twitter.txt 是一个以 TAB 字符分隔的已经排序过的推文列表,可以导入 Excel/LibreOffice Calc 软件进行处理。
  6. 运行 tsv2html.bat 会自动将 msg_merge_twitter.txt 文件转换为简化的 HTML 文件适合作为存档。
  7. 也可以直接运行 msg_merge_sort_twitter_htm.bat,则自动调用第 5. 6. 步所述脚本成序,在浏览器中打开生成的 tsv2htm.htm 文件,如果有内嵌图片,则最好再以完整网页格式保存一次,这样可以确保 将内嵌图片也保存到本地存档。
  8. 拷倍网页内容后可粘贴到邮件编辑器(如 Thunderbird)或博客编辑器中发布。发布的推文格式如 http://lihlii.blogspot.nl/2012/10/alison-klayman-never-sorry.html 所示。
  9. 最新版本发布在 https://github.com/lihlii/msg_cleanup
  10. 有任何问题或修改建议,请联系 lihlii64@gmail.comhttps://twitter.com/lihlii


喜欢这篇文章吗?欢迎发空信给 lihlii+subscribe@googlegroups.com 订阅《童言无忌》邮件组 发空信给 jrzl+subscribe@googlegroups.com 订阅《今日知录邮件组》。

发表评论