新闻监测增加数字报来源
随着互联网的不断开放和技术革新,越来越多的报社媒体采用数字化的发行系统进行报刊的发行,目前中国大陆绝大多数的报社使用方正报业数字资产管理系统。梅花信息于2009年7月开始,对目前大陆主流在线数字报进行了整合,自行开发了在线数字报监测系统,购买了大量的服务器和带宽,对超过130份在线数字报进行每日的数据抓取和内容索引,使得用户能够在一个平台上,使用独立的一套搜索引擎,对150份报刊进行内容搜索。
下面,我们将对在线数字报监测和传统纸媒剪报进行对比
在线数字报监测 | 传统纸媒剪报 | |
时效性 | 日报在上午5点,晚报在下午3点分别进行抓取,1小时内完成内容的索引。没有地区概念,只要能
上网的地方都能看到。 |
本地报刊上午8点左右到刊,晚报下午5点左右到刊。由于报刊发行有地区限制,所以本地剪报公司监测外地报纸都有延迟,延迟时间从1天到1周不等。 |
可搜索 | 由于采用文字的形式将报刊内容进行保存和索引,所以一篇文章中的文字都是可以进行搜索的。 | 由于采用扫描图片的方式进行保存,只有标题部分能够进行搜索。或者进行全文OCR,但是成本很高。 |
历史数据 | 由于采用文字形式保存,所以历史数据也可以很快的进行搜索。同时保存也只需要服务器即可。 | 由于采用纸媒进行保存,需要大量的空间。如果要对报刊进行历史数据的监测,那就必须对历史报刊全部重新监测。 |
可读性 | 文字清晰可读,且配有缩略图指出文字所在版位,另外配有清晰的PDF。 | 视扫描情况而定,部分简报公司的扫描质量很低,使得文章缺乏可读性。 |
暂无相关动态.