我一直想建个书籍的数据库,方便找书。
在书籍录入数据库的过程中,遇到的第一个问题就是,如何录入书名?
有的朋友可能会觉得,这个问题太简单了,按照版权页录入就行了。但是实际上,没有这么简单,我为这个问题伤透脑筋。大家下面就会看到,书名的著录实在是非常棘手的一件事。
我认真研究过国家标准《普通图书著录规则》(GB/T3792.2-2006)好几遍,每次都觉得太复杂,操作成本太高,没法采用。
简化地看,《著录规则》中将书名信息分为四种:
1. 正题名(Title Proper):一本书的主要名称。
2. 交替题名(Alternative Title):正题名的其他等同形式,比如《红楼梦》又名《石头记》,《西行漫记》又名《红星照耀中国》。
3. 并列题名(Parallel Title):另一种语言文字的正题名。比如《人间喜剧》的并列题名是The Human Comedy。
4. 其他题名信息(Other Title Information):对题名进行注解的文字,比如较长的副书名。
著录书名的根本目的,是为了方便地查找信息。我现在的看法是,将书名分得这么细,也无助于信息检索,因为到底以哪个字段为准呢,何况多字段的检索很耗资源;书名著录的时候,应该只要考虑"正题名"和"其他题名信息"就够了;"交替题名"和"并列题名"可以通过设立"检索点"(access point)来解决;至于"检索点"如何与"正题名"并容,我还没想出好的方案。
=======================
下面是一些书名著录的实例。
1.
正题名:鉴赏家,第8辑:新疆文物考古成就特辑
并列题名:Connoisseur
主要责任:马承源
责任方式:主编
2.
正题名:中央电视台记者亲历秘境:首次穿越雅鲁藏布江大峡谷
主要责任:王历子
3.
正题名:中国哲学原论 原道篇 第一卷
其他题名信息:中国哲学中之"道"之建立及其发展
丛编正题名:唐君毅全集
丛编编号:卷十四
4.
正题名:经济学:基本原理与热点问题,第二版
并列题名:Issues in Economics Today
主要责任:罗伯特·C·盖尔
并列责任说明:Robert C. Guell
版本说明:第二版
并列版本说明:2nd Edition
其他责任说明:邹薇主译并校 张芬 周浩 刘兰 钱雪松 宋海荣译
(完)
小扁豆 说:
我的书实在是够不上得用数据库管理的规模,按照出版社或者是作者国籍或性别摆放都绰绰有余了。
你的书,书名的字数一样的是不是可以摆放在一起,或者按照书名第一个字的拼音首字母放一起。。。我是一点不懂,啥都帮不上,纯属捣乱了。。呵呵
2008年11月30日 00:39 | # | 引用
tsenfine 说:
没怎么看明白,不是可以用ISBN么?豆瓣就是采用ISBN识别书籍的,就一个字段就好了啊,不过可能我这里所说的跟阮兄所说的书籍不一样吧。。
2008年11月30日 01:00 | # | 引用
Sutra 说:
反向索引!
2008年11月30日 02:18 | # | 引用
幽夜紫鹰 说:
多谢你的笔记
看了以后受益非浅
如果再来点微观的笔记就更好了~~~
2008年11月30日 07:08 | # | 引用
mondain 说:
你可以用 Librarything, 支持从各图书馆导入图书信息.
2008年11月30日 08:14 | # | 引用
凉茶 说:
一直想把电脑上的电子书库做一个从下载到管理分类保存到查找阅读的方便数据库 可以使得从下载到查找和阅读以及写笔记这一系列的行为通过合理的分类方法变的确定和快捷,网上有一些这样的软件 但是都不怎么好用
现在的软件都是把功能做的太死了 只适合那些特定的需求 可根据个人需要进行适当操控的基本没有
音乐播放软件也是如此 电脑上音乐太多 在播放列表上进行再次分类和评价的功能变的很有价值 但目前还不见哪个播放软件有注意到这个发展的趋势
不过这种不够关注个人用户的状况是不是国内盗版盛行的一个反映呢
2008年11月30日 08:49 | # | 引用
凉茶 说:
看来没有钱还是最关键的
2008年11月30日 08:51 | # | 引用
welco 说:
怕耗资源 就分表呗 一个小表放常用书 一个大表放不常用书
然后 在让用户 在输入信息的时候 自己选择在那个字段里搜索
2008年11月30日 10:28 | # | 引用
老犁 说:
阮兄,写个小程序去抓dangdang.com上的书籍信息就OK了,这样不用录。
2008年11月30日 12:45 | # | 引用
必填 说:
所谓“检索点”,是不是类似于wiki上面的重定向页面(redirection page)?检索点跟正题并容有什么难点?
2008年11月30日 15:08 | # | 引用
Ruan YiFeng 说:
这就是我挣扎的地方。
网上其实有书目数据出售,http://www.marcsoft.cn。但是,我一直在犹豫要不要采用图书馆格式。好处是正规和通用,方便数据的输入输出。坏处是它们不完全合适我的目的,而且系统会变得很复杂,我可能搞不定。
2008年11月30日 23:03 | # | 引用
Ruan YiFeng 说:
我的难点在于:(1)我希望只使用一条检索语句;(2)有些书有原型(prototype),比如一本书的各个不同版本,但是有些书没有。我还没想好如何处理版本、原型、检索点这三者之间的关系。
2008年11月30日 23:13 | # | 引用
shrine 说:
TO 阮一峰
你可以考虑使用都柏林核心元素集(Dublin CORE,DC)。
都柏林核心元素集是用以描述网络资源的最小元数据元素集。基本元素为三大类15项。
一、资源内容描述类:
(1)题名项 Title:由作者或出版者给出的资源名称;
(2)主题词项 Subject:提示资源主题内容或学科内容的关键词;
(3)描述项 Description:对资源内容所作的文字描述;
(4)语种项 Language:资源所采用的语种;
(5)来源项 Source:信息与源文件的联系,如二次资源的出处信息;
(6)关联项 Relation:二次资源及其与当前资源的关联标识,如翻译自、节选自、格式转换自等;
(7)盖范围项 Coverage:资源对象的时空特性,如它的生命周期或地理区域范围;
二、知识产权描述类:
(8)著者项 Creator:对资源内容负主要责任的个人和团体;
(9)出版者项 Publish:负责使资源成为当前形态的责任者,如出版者,公司实体等;
(10)合作者项 Contributors:为资源创作作出次要贡献的个人或团体,如编辑、美工等;
(11)权限项 Rights:资源对象的出版声明和使用规范;
三、外部属性描述类:
(12)日期项 Date:资源对象公开发表的日期;
(13)类型项 Type:资源对象的类型或所属范畴,如图像、声音、文字、软件;
(14)标识符项 Identifier:唯一识别资源对象的字符串或数字,如URL等;
(15)格式项 Format:资源对象的数据格式,用于告知检索者操作该资源时所用的软硬件。
以上15个著录项目还可简化,只要确保最低限度的7个元素(题名、出版者、形式、类型、标识符、日期和主题)即可。所有元素均可重复,解决了多个题名、多个著者和多个出版等重复元素的著录问题。
DC是在简洁性和灵活性的原则下设计的,它避免了机读目录(Machine-Readable Catalogue,MARC)的过分专业和复杂化,使得非图书馆专业人员即可对信息资源进行合理的著录。
此外,DC数据与MARC数据间也存在一定的对应关系。以题名项为例:DC的题名项(Title)即可对应CNMARK字段中的正题名、并列题名、副题名和其它题名信息。
2008年12月 1日 14:21 | # | 引用
米店老板 说:
嗯,我也很关系这个,有进展希望那个公布一下。
2008年12月 1日 20:20 | # | 引用
Ruan YiFeng 说:
2008年12月 1日 23:15 | # | 引用
shrine 说:
我的想法是,可以参考元数据著录规范。
比较接近的规范文本是《电子图书描述元数据著录规则》(2004年5月第三版),有对于包括“题名”、“主要责任者”等26项著录项目的著录说明和范例。
以题名项为例,它的规定是:
1、正题名与说明文字一起著录。
2、说明文字著录于正题名之后,且用“#:#”分隔。(#表示空格)
3、交替题名作为元素修饰词,奉行“有则必备”原则著录。
全文地址:http://cdls.nstl.gov.cn/mt/blogs/2nd/archives/docs/电子图书描述元数据著录规则.pdf
2008年12月 2日 11:19 | # | 引用
Timesand 说:
郁闷啊,盼星星盼月亮,也盼不来文章更新阿
2008年12月 2日 13:22 | # | 引用
mondain 说:
2008年12月 2日 15:48 | # | 引用
Ruan YiFeng 说:
2008年12月 2日 23:23 | # | 引用
Ruan YiFeng 说:
对,这就是原型,但是我没有想清楚怎么实现。
2008年12月 3日 00:16 | # | 引用
Ruan YiFeng 说:
非常感谢提供信息,好像对我很有用,明天好好研究。
http://cdls2.nstl.gov.cn/2003/SpcMetadata/
2008年12月 3日 00:24 | # | 引用
Jerry 说:
应该是模糊搜索的问题,用现成的产品,或者是自行增加 冗余 字段,将 正题名、交替题名、并列题名、其他题名信息 等放到一个字段去,然后搜索这一个字段 ~
2021年4月20日 09:24 | # | 引用