页面

2012年11月18日星期日

邮件组/网志文章标题标签格式 #网络 #规范 #设计

网志博客一般提供给文章附加标签的功能,以便于分类浏览。但这类添加删除标签的操作往往各个网站设计不同,无 法通用,除非用特别的客户端软件通过通用的API来设定标签。尤其是通过电邮发帖的情况下就无法简单地添加标签了。因此希望能设计一种特殊的 标题或正文格式来给文章添加标签,实现通用的分类搜索。对这种格式的要求是:
  1. 只需要纯文本即可表达
  2. 在标题和正文中不妨害阅读
  3. 便于机器程序识别和提取
  4. 与现有的网络数据标准兼容
  5. 格式足够特殊不会混同于正文
  6. 标签独立性,搜索一个标签也可以命中带有多个标签的文章
  7. 如果能在正文上下文中采用而不妨害阅读则更佳,类似给正文添加索引附注关键词。
电子邮件发帖时如需添加标签Posterous.com 采用的格式是,将标签放在邮件标题中的双重花括号内,如{{P2P}}{{软件}}{{网络资源}}。这一设计的优点是一般正常标题中不会出 现这种特殊格式,就不会和标题文字混同,于是网站程序可以安全地提取并删除掉标签部分。缺点是,如果同时通过邮件组发送,收到的邮件标题比较 难看。

键盘上可以用的有头尾配对的符号还有:
  • 圆括号 (),在许多文章正文和标题中都有可能出现,所以较难和特别添加的分类标签区别。
  • 方括号 [],很多P2P共享文件合集采用方括号作为合集标签,较为通用。
  • 尖括号 <>,因为 HTML标准中采用其作为网页标签代码,所以在许多情况下处 理<>会遇到混淆的麻烦。
  • 汉字配对标点符号:()、[]、{}、〔〕、〈〉、《》、「」、『』、【】、〖〗、''、"",缺点是,无法国际通 用,输入麻烦,需要汉文输入法比如软键盘。类似的还有ISO-8859-1字集里的配对拉丁文字标点符号。但某些不需要通用的场合可 以使用。
另外还可以用单个字符开头,空格或符号结尾的标签格式,如用井号:#P2P #软件 #网络资源。采用这一标签格式的优点是,因为其在推特 Twitter 和 Google+ 网站已经约定被用于标注标签,所以帖子中的 #标签 都会被转换为可以点击搜索标签文字的链接,非常便利。而且HTML同一网页内部跳转 的超链接锚点 <a href="#标签"> 也是采用"#"作为标注,和此习惯匹配。缺点是一般需要在标签尾部添加空格以和后续文字区隔开来,因此无法采用带有空格的标签,且在正文中使用时会断开句子的排版连续性,对 英文等分词书写的文种则无此问题。标签中的空格如果不妨害理解则可以省略,或者以下划线"_"代替。

谷歌搜索会忽略上述圆/方/花/尖括号、#、汉字标点符号等符号本身,如搜索"<软件>"或"
软件", 其实搜索的字符串仅仅是"软件",所以基本无法和不带括号的文字区别,也就无法起到精确搜索标签的缩小搜索结果范围的作用。

综合优缺点,方括号[] 和井号 # 两种格式都可以采用。可以将方括号作为有层次的分类标签,尤其是在标题或一行文正文的开头时使用。因为它形状像一个盒子,可以装东西,可以一层套一层具有 层次结构;而井号可以作为无层次的索引标 签使用,尤其在标题末尾附加的场合,或在正文当中采用。

例如:不分层次的并列标签可以标注为:
#苹果 #软件 或者 [苹果][软件],而分层次的并列标签可以标注为:[软件[苹果]],[软件/苹果],#软件/苹果,以区别是软件中 的苹果,而不是水果中的苹果。


世界人权宣言抄写 将留言和手抄纸张的图片用电邮发送到 udhr1948.chaoxie@blogger.com 即可张贴到 http://udhrhw.blogspot.com ,发送到 udhrhw@posterous.com 即可张贴到 http://udhrhw.posterous.com ;或发送到 udhr1948+chaoxie@gmail.com 由管理员转发至两个博客。建议在邮件标题中写明你想公布的网络身份(如推特、微博帐号,电邮地址等)、昵称或姓名、以便于避免重复搜集发布。

发表评论