Skip to main content

谷歌停止“新闻档案”项目 已扫描6000万页面

国外媒体报道,谷歌周四向报纸发行商表示,将停止继续实施“新闻档案”项目,但会为现有的数字新闻档案继续提供支持。这一项目实施五年来,谷歌已经累计扫描了6000万页面,覆盖250年的历史。在周四发送给报纸发行商的一封电子邮件中,谷歌表示其“新闻档案”(News Archive)项目将停止接收、扫描和索引报纸档案资料,谷歌将专注于 “对这一行业有帮助的新项目,例如谷歌One Pass项目,该平台有助于发行商直接通过自己的网站出售内容和接受订阅”。谷歌五年前启动了“新闻档案”项目,旨在将旧报纸存储为数字版本,这类似于Google Books在图书方面的努力。作为谷歌新闻档案项目的一部分,发行商向谷歌提供报纸,谷歌则对这些报纸进行扫描和索引,建立数字档案。谷歌和报纸发行商对这些档案的页面浏览营收进行分成。谷歌表示,这一项目最终已经扫描了6000万页面,覆盖250年的历史。这是一个有趣的项目,例如用户可以找到关于英国Sex Pistols乐队于1978年在美国的最后一场演唱会的21篇报道,甚至可以找到自1860年以来的一些新闻报道。但一些报纸抱怨称,谷歌在迅速扫描之后,对这些档案的处理速度太慢。例如《Phoenix》报向谷歌提供了覆盖数十年的报纸资料,但只有一小部分成功上线。对于大量报纸,尤其是难以支付档案扫描高额成本的小规模报纸而言,谷歌的新闻档案项目是有利的,这对谷歌也是有利的。此外,这个项目可以提供一个窗口,使人们看到互联网时代之前的报纸。档案上线经常会带来版权纠纷,不过在新闻档案项目中,谷歌并没有发布纯文本的资料,而是直接提供了可搜索的整个报纸页面的图片文件,进而避免了与自由作者之间的版权纠纷。据悉,为了辨别古代报纸印刷体和微缩胶片中的字迹,谷歌还曾使用谷歌地图技术来进行解码。但由于报纸布局复杂,有大量专栏和跳跃性,因此比图书更难以索引。这就需要大量的人力或严密的计算方法。谷歌并未透露停止新闻档案项目的原因,但可以猜测,或许这个过程比谷歌预期的难度更大,或者这些档案页面吸引的关注低于预期。在致发行商的邮件中,谷歌表示,将继续为已经扫描和索引的档案提供支持。谷歌称:“不过我们并不计划为数字新闻产品推出新的功能或服务。”谷歌是否会完成已扫描报纸的索引过程仍值得进一步关注。谷歌与合作伙伴最初签定的协议规定,今后报纸购买谷歌已扫描的数字内容时需要付费。但现在谷歌已经放弃了这笔收费。谷歌不仅为报纸发行商免费提供这些扫描档案,而且允许他们与其它合作伙伴一同发布这些内容。也就是说,在整个新闻档案项目的实施过程中,谷歌只是扫描了报纸行业提供的大量内容,然后又将这些内容交给了发行商。

阿勋

男,80‘s,不是程序员,稍微懂点CSS/HTML/PS。 我是一名爱生活爱社会爱祖国的三爱青年,也是一名热心网友。 平时喜欢吐槽,偶尔来点幽默。 这就是iaxun.com

发表评论

电子邮件地址不会被公开。