数据新闻何以重要?——数据新闻的发展、挑战及其前景

2015-05-21 来源:《新闻记者》2015年第2期 作者:郭恩强/编译

 在一些走在前沿的实践者手中,数据新闻是个强大的工具。它融合了电脑科学、统计学以及社会科学几十年来在大数据研究方面的成果。数据记者可以通过编写算法寻找趋势,勾勒出影响力、权力或消息源之间的关系图。在全球,数据新闻记者的数量在增加,他们所做的工作不仅限于数据可视化或者发布互动地图,他们正运用这些工具追踪腐败,向权势者问责。

  2014年,数据新闻成为主流,诸如FiveThirtyEight.com网站 、Vox.com网站、《镜报》旗下的Appp3d.com网站、大西洋媒介集团(Atlantic Media Group)的QZ.com网站、《经济学人》和《卫报》的数据博客、《纽约时报》的Upshot都崭露头角,网络平台及实践的发展已经大大改变了这个领域。

  APP是最重要的讲故事方式之一

  今天,很多记者不仅将注意力放在为调查收集数据,更注意将数据与鲜活的故事或者新闻应用程序相结合。对于千禧一代来说,新闻应用程序(News APP)是最重要的讲故事的方式之一。

  新闻应用程序和新闻编辑室分析,将成为媒介机构向移动用户发布信息方式中的核心要素。同时帮助媒介机构厘清谁是你的读者,在哪里、如何、何时成为你的读者,甚至为什么会成为你的读者这样的问题。 这两点对于成功的数字产业都不可少。在此背景下,新闻应用程序不仅仅讲故事,他们还讲述“你”的故事,比如帮助手机用户更好地理解周遭世界,从新闻、天气和交通,到棒球联赛的比赛成绩。

  有时人们需要理解一个复杂的主题,但缺乏处理原始数据的相关能力。而新闻应用程序则可以让大量的数据变得有意义。比如,2014年5月ProPublica新闻网发布了一个有关治疗追踪的专题。他们的数据分析发现,2014年,在全美2亿人次的患者就诊中,只有4%是因为病情特别复杂,而被医生收取昂贵的医疗费的;但却有1800个医生成为收入排行榜上90%的时间内的名列前茅者。ProPublica网站的资深记者查尔斯·奥恩斯坦(Charles Ornstein)在邮件中披露:

  专题花了我们很长时间。数据本身庞大而复杂。我们找了专家,好搞清楚比较哪些数据是最有意义的。我们寻找那些读者能够很快搞明白的数据。其中之一是每个病人接受的医疗保险服务,另外一个是每个病人支付的费用。我们同时也仔细研究并将病人就诊的频率当作参照,这个很有趣而且读者也容易明白。有些领域的医生,比如精神病科医生或者肿瘤科医生的接诊频率,比起同行们来说要高而且费用昂贵。但是在其他科目,医生们接诊的频率没有那么高,医生们的表现也各不相同。如果你发现,你的医生接诊病人比起一般同行要多得多或少得多,这并不代表一定有问题,但也会成为你的参考因素之一。

  让我们的应用程序与众不同的是,它允许你将自己的医生与同一领域和地区的其他医生做比较。比如通过应用程序观察医生们是如何进行诊疗的(他们采取的医疗手段、他们诊治病人的百分比、病人的看病频率等)。

  新闻应用程序可以让人们以另一种方式浏览数据,这是单靠简单的地图、统计数据或表格所办不到的。“设计数据时,可以使重要的数字比不重要的细节显得更大和更突出。”ProPublica网站主编助理斯科特·克莱因(Scott Klein)表示,“在浏览网页时,人们知道通过下拉方式来获得更多细节。在‘为公众’网站,我们通过设计引导读者来体验各种不同的注意力层级,从最宏观的全国性的例子到最本地化的例子”。

  新闻应用程序的开发者,正越来越多地考虑以用户为中心进行设计。全国公共广播电台(NPR)视觉团队的编辑布瑞恩·博耶(Brian Boyer)对这一原则的解释是:

  我们并不是从数据开始,也不是从技术开始来思考问题。我们所做的一切,都始于一个以用户为中心的设计流程。我们会讨论想要吸引的用户的需求,然后才讨论做什么和如何做。从好点子或是技术选项上开始也不错,不过我们尽量不这么做,而是关注于如何为特定的人群做出最好的产品,也就是那些最能从我们的数据产品中获益的人。

  数据并不天然地意味着真实

  与真人形式的消息源一样,不是所有数据都等同于事实。它们必须接受怀疑主义的检验,从来源到质量,再到是否有隐藏的偏见。TOW数字新闻研究中心的研究者尼克·蒂亚克普洛斯(Nick Diakopoulos)写道:“数据并不天然地意味着真实。是的,通过诚实的推理过程,我们可以在数据中找到真实,但是我们也可以找到多个真实,甚或是全然的虚假。”

  如果新闻报道确实会随着时间推移变得更加科学,那它将使读者和整个社会受益。一个执行主编可能会提出新闻背后隐藏的线索或假设,然后指派一名调查记者去找出究竟是真是假。这名记者(或者数据编辑)必须去收集数据、证据和相关知识。为了向执行编辑和多疑的读者证明,他们所提供的结论是正确的,记者需要从数据来源到使用方式,全面展示他的工作。这也意味着记者需要接受怀疑主义的理念,避免确定性的偏见,同时对被观察的有关联的事物不轻易下结论。

  西北大学人文与社科学院教授布瑞恩·基冈(Brian Keegan)在一篇文章中呼吁:“在当代,对于信息过载,以及恐惧、不确定性和怀疑等情绪的焦虑氛围下,数据驱动的新闻可以起到关键性的作用。它们可以为关于政策、经济趋势、社会变革的讨论提供更为坚实的经验基础。但是,除非新的行业领袖能仿效科学界的标准来设立和强化准则,否则数据驱动新闻很可能会掉入消解公众信任和科学界信任的陷阱。”对此,基冈为数据记者提出了几个有效的原则:开放数据、集思广益、开放合作以及数据监管。

  数据新闻记者可以在代码托管网站分享他们的数据和代码,比如GitHub,以备同行们检阅、复制、扩充(ProPublica网和其他机构已经在这么干了)。记者们还可以与科学家和分析家合作,提出问题和共同分析数据,并写出文章或者专题。另外,记者还可以将作品提交学术同行进行评议。

  做数据新闻的机构,应当让自己的分析和发现接受经验式的批评。将整理妥当的数据公布,或者找到合适的专家合作,这些都是十分费时的。不过如果你打算发布原创的实证研究,你就应该接受和回应合理的批评。

  数据新闻机构也许会考虑任命独立的核查人员来代表公众利益,以及提升科学性规范。数据作品的作者很可能得出轻率的结论、使用不合适的方法、分析私人数据,甚至为了自己牟利。此核查职位的设立,就是为了对上述行为进行核查。

  透明性很可能意味着新的客观性。在科学领域,不能被重复验证的研究和结果,是其真实性被怀疑的一个理由。基于严格审核过的数据而得出的经验性证据,将赋予编辑和记者这样的能力:他们将告别“这个人说,那个人又说”的报道方式,因为此种方式只会让读者疑惑真相究竟在哪里。

 数据是一种战略性资产

  传统纸媒的危机自不待言。在这种背景下,发行人和编辑们要决定哪些业务要砍掉,哪些领域要去投资,就变得更加谨慎。在数字化新闻环境下,尽管数据驱动新闻业有其前景和重要性,但一些媒体还是选择关闭其致力于数据分析的部门。例如,“数字第一媒体”(Digital First Media)在2014年4月关闭了其致力于生产视频和数据产品的“霹雳”(Thunderdome)项目。

  2014年,数据新闻业进入了主流媒体。纳特·西尔弗(Nate Silver)在“娱乐与体育节目电视网”(ESPN)开办了全新了的“五三八”(FiveThirtyEight)网站,《纽约时报》开办了“结局”(The Upshot)网站。这些新入行者能否实现商业上的成功仍是未知数,但是,对于数据新闻业而言,除了广告以外有更多的商业模式。从能够提供关于世界的洞见这一意义上看,数据可以被认为是一种战略性资产。专有数据是能够驱动巨型公司的商业模式的宝贵资源。在华盛顿特区,从硅谷到华尔街再到情报机构,数据科学家被当成热门商品,这是有其原因的,那就是他们能够从公共的和私人的海量数据中创造有价值的知识。类似的,对冲基金公司使用《信息自由法案》(Freedom of Information Act)去购买政府数据也是有其理由的,因为对于投资管理而言,数据是有用的商业情报。

  我们将自己看成一个在新闻领域打拼的科技公司

  当数据驱动的超本地新闻和数据报道的收入模式,处于可能繁荣也可能夭折的不明朗之时,非营利机构如ProPublica和《得克萨斯论坛报》(Texas Tribune)却将目光放在了利润之外。论坛报如今是在线媒体中闪亮的一员,聚焦于报道本州事务。凭借其在交互式体验和数据可视化方面的成功,它如今成为美国数据新闻重要的典范之一。

  目前论坛报拥有超过200个可视化产品和工具,其中包括一项公立教育检索工具和一项高等教育检索工具。后者收集和公布了得克萨斯州每个高等公立院校的财政、人员和教育表现数据。

  论坛报收集数据的范围广度和精细程度,确实让人印象深刻。它的在线流量和公众对产品反馈的兴趣,使之成为研究新闻业未来的重要案例。尤其是,在论坛报受欢迎的产品中,数据产品占了大部分。其中,论坛报的数据图书馆和公职人员列表贡献了大部分的流量。类似的数据图书馆在新闻界还是少见的。

  “我们将自己看成一个在新闻领域打拼的科技公司,而非一个使用科技手段的新闻媒体。”论坛报的首席创新主管罗德尼·吉布斯(Rodney Gibbs)解释说:“我相信,这个信念让我们轻装上阵。我们的科技团队并不大,有4个全职的开发人员加上一个行政专员,他们就足够维持我们的主要网站、数据APP和每月发布的可视化工作了。另外,我们两个数据记者在整个编辑室内进行巡回工作,所以即使不是数据通的记者,也可以为他们的故事搭配数据和可视化工具。换言之,这里的人无需坚信数据的价值,因为点击量和受众反馈已使我们所有人都成为数据的信徒了。”

  ProPublica在2014年2月推出了自己的数据商店,免费发布原始数据,同时也出售给那些愿意额外付钱购买其他附加值数据的客户。克莱因写道:“在数据商店,你可以找到我们在报道中使用的数据,而且数据量还在增长中。如果是原始数据,比如我们从政府来源得到的数据,你会发现一个免费的下载连接,只需对一份简化版的使用条款表示同意。如果是需要在政府网站上下载的数据,我们简单地将其链接到原网站上,来保证你快速得到最新数据。”2014年4月,ProPublica网站宣布,将数据商店的范围扩展到报道中使用到的所有数据,此举引发强烈关注。“如果你观察诸如美联社、路透社和彭博社这样的新闻室,会发现他们的核心内容是数据产品,其中一些真的非常挣钱”,克莱因对《哥伦比亚新闻评论》 (Columbia Journalism Review)表示,“无疑,对很多新闻编辑室来说,销售数据产品是个创富机遇”。

  数据新闻助力机器人新闻业

  数据在其他冒险事业中也将扮演一定角色,也许将为“机器人新闻业”提供助力。如“叙事科学”(Narrative Science)公司提供的一种自动编写新闻的服务。2014年3月,有关洛杉矶地震的第一篇报道就是机器人写就的。它的开发者是《洛杉矶时报》的记者和程序员肯·史文切克(Ken Schwencke)。这不是首个“机器人记者”(roboporter),在此之前,基于类似算法,他们还开发了一个有关谋杀报道的新闻机器人。

  由自动编写的软件来完成本地交通、天气、高中运动会、警方通报等的新闻报道,看来是不可避免的趋势,尽管人类编辑仍需在机器人记者写的文章上起作用。“当了几年的本地新闻记者,我可以说,编写简报,统计诸如谋杀、地震、火灾这些文章,本质上就像是疯狂填词(Mad Libs)游戏,完全可以让机器来干”,威尔·瑞摩斯(Will Oremus)写道,“……但同时,地震机器人(Quakebot)也清晰地揭示了自动化编写程序的局限。它无法评估地面的损失,不能采访专家,无法辨别故事中相对有价值的角度”。

  短期内,这类新闻机器人(newsbots)的最大用处,可能是充当编辑记者的早期预警系统,在一片杂音中寻找新闻线索做好标记,好让记者们去分配任务,调查核实。这种类型的数据新闻能挑拣和抓取信息,发出警报,很可能会受到城市新闻编辑的喜爱。此类自动化已经得到广泛应用,从政府问责到金融报道都有所涉及。“我们希望赋予这种监控和预警功能更多东西”,阿隆·菲尔霍夫表示,“我们每年都会收集上百万条有关竞选捐助与支出的信息。举例来说,如果一个国会成员遇到麻烦,你会在法律服务那栏看到标记着相关变化的情况。此时,系统会向报道国会新闻的记者发去提醒。这样就能运用科技,提高记者的工作能力”。

  也许有一天,情况会发生改变,正如“叙事科学”的联合创始人和首席技术官克里斯蒂安·哈蒙德(Kristian Hammond)对史蒂文·列维(Steven Levy)说的那样:

  相信随着“叙事科学”这个软件的成长,它编写的故事会位于新闻产业链的上端——从产品新闻(commodity news)到解释性新闻,甚至是细节丰富的长篇报道。也许在某种程度上,人类和程序可以合作,各自完成自己的强项。计算机,凭借其无瑕的记忆能力和对数据的抓取能力,也许可以充当人类记者的助手。或者相反,人类记者可以采访一些对象,整理出遗漏的细节,然后发给电脑让它来完成文章。随着电脑越来越完善,能取得越来越多的数据,它们作为故事讲述者的局限性将被打破。“人类确实具有令人无法置信的复杂性和丰富性,但它们是机器。也许20年内,将不再存在‘叙事科学’不能写出报道的领域。”

  本文编译自亚历山大·本杰明·霍华德(Alexander Benjamin Howard)撰写的《数据驱动新闻业的艺术与科学》(The Art and Science of Data-driven Journalism)研究报告的第三部分,该报告由哥伦比亚新闻学院TOW数字新闻中心发布。


精彩热点

排行榜

版权所有:福建省社会科学界联合会 技术支持:东南网

联系电话: 0591-83701727 邮箱:master@fjskl.com.cn

闽ICP备15001769号