世界上共有多少本书?谷歌图书搜索通过计算机算法找到了答案:1亿2千9百多万册。
这个结果是由一名软件工程师连内德·泰切8月5日在谷歌博客上发帖公开的。“当你所在的公司想要把世界上所有的书都数字化的时候,通常你第一个想问的问题就是:‘到底有多少本书?’”该博文写道。
作者对“书”的概念进行了解释,他们并没有单纯以“作品”来算,即使是有着许多版本的《哈姆雷特》,每个版本的前言和评价都不一样,因此,哪怕是一本书,有着不同版本,搜索也都将其分开来算。作者称,一个算法是,根据程序,计算机将每本书列为一个“集”,这个“集”有可能是卖出了几百万册的畅销书,也可能在世上仅以一两本存在,但这样归类的问题是,精装本和平装本是在同一个时期同时出版的,但比如在图书馆目录中,却可能算作一本书。
计算机也没法基于书号计算。书号从上世纪60年代就出现,但此前的大部分书,以及很多非商业,或者世界其它地方的很多书都没有书号。
最后,谷歌选择了从超过150家供应商处得来数据,这些供应商包括图书馆、WorldCat图书馆目录以及商业供应商等,在得到近10亿个数据之后,谷歌再对其进行筛选,将重复的、非图书的以及续集的内容去掉,最后,作者称,至少到上周日前,计算出的世界上的图书共有129864880本。
这篇纯技术的博文公布之后,各界反应不一,不少媒体和读者都认为,哪怕谷歌解决了他们认为最基本的一个图书数量的问题,但另一个基本问题依然没有解决,那就是:谁赋予谷歌权利以扫描全世界的书?有关谷歌图书搜索的法律战还会继续打下去。
|