数据科学:科学和创新的游戏规则改变者
原作 Valerio Grossi · Fosca Giannotti · Dino Pedreschi · Paolo Manghi · Pasquale Pagano · Massimiliano Assante
翻译 方建勇
本文展示了数据科学在科学、产业、政策和人民生活中的颠覆性创新潜力。我们介绍了未来几年数据科学如何影响科学和整个社会,包括管理人类行为数据的伦理问题,以及数据科学经济影响的量化预期。我们引入了开放科学和电子基础设施等概念,作为支持道德数据科学和培训新一代数据科学家的有用工具。最后,这项工作概述了SoBigData研究基础设施作为一个易于访问的平台,用于执行复杂的数据科学过程。SoBigData提出的服务旨在利用数据科学来理解当今全球互联社会的复杂性。
1简介:从数据到知识
数据科学是一种跨学科和普遍的范式,不同的理论和模型结合在一起,将数据转化为知识(和价值)。对海量数据集的实验和分析不仅有助于验证现有理论和模型,而且有助于数据驱动的数据模式发现,这有助于科学家设计更好的理论和模型、加深对社会、经济、生物、技术、文化和自然现象复杂性的理解。数据科学的产物是重新解释可用数据以实现分析目标的结果,这些目标不同于激励数据收集的原始原因。所有这些方面都在整个方法、研究和社会决策方式上产生了变化。
数据科学的出现与以下事实相一致:(i)大数据的出现,提供了大量可供学习的实际案例;(ii)数据分析和学习技术的进步,可以从大数据中产生预测模型和行为模式,以及(iii)高性能计算基础设施的进步,使获取和管理大数据以及执行复杂分析成为可能。
2社会、科学、工业和商业的数据科学
通过分析数据,可以提高商业决策、政府管理和科学研究的质量。在许多情况下,数据科学以惊人的准确性和及时性为许多复杂问题提供了重要见解。
如图1所示,数据科学是一个生态系统,其中以下科学、技术和社会经济因素相互作用:
–数据的可用性和对数据源的访问;
–分析和计算基础设施高性能分析处理和开源分析的可用性;
–高技能数据科学家和工程师的技能可用性;
–道德和法律方面数据所有权和使用、数据保护和隐私、安全、责任、网络犯罪和知识产权的监管环境可用性;
–应用程序业务和市场应用程序;
–社会方面关注主要的全球社会挑战。
数据科学被认为是数据之间的交叉点
挖掘、大数据分析、人工智能、统计建模和复杂系统能够透明地监控数据质量和分析过程结果。
如果我们想让数据科学面对全球挑战,成为可持续发展的决定性因素,就必须推动科学、工业和社会创新的开放全球生态系统。我们需要建立一个社会经济活动的生态系统,每个新的想法、产品和服务都为进一步的目的和产品创造机会。开放的数据战略、创新、互操作性和适当的知识产权可以促进这样的生态系统,促进经济增长和可持续发展。这一战略还需要“网络思维”和参与性、包容性的方法。
数据在几乎所有的科学学科中都是相关的,以数据为主导的科学可能会导致解决当前被认为难以或不可能解决的问题。它可适用于正在进行革命的多个行业;这里,我们只提供几个例子。
从拍摄天空照片是天文学家工作的重要组成部分,到图像已经存在于数据库中,天文学家的任务是在数据库中找到有趣的物体和现象。在生物科学中,数据存储在公共存储库中。生物信息学有一个完整的学科致力于分析这些数据。基于个人行为的以数据为中心的方法也可以支持医疗应用程序分析人类行为水平和低分子水平的数据。例如,将医学反应的基因组数据与用户的习惯相结合,为高精度的个性化医学提供计算药物科学。与其他生物一样,在人类中,大多数细胞成分通过与其他细胞成分的相互作用发挥其功能。这些交互的整体(代表人类的“交互体”)是一个具有数十万个节点和大量链接的网络。疾病很少是单个基因异常的结果。相反,疾病表型是在复杂网络中相互作用的各种病理过程的反映。基于网络的方法可以有多种生物学和临床应用,尤其是在揭示复杂疾病背后的机制方面。
现在,我们展示了典型的数据科学管道。人、机器、系统、工厂、组织、社区和社会产生数据。数据收集在我们生活的各个方面,当:我们提交纳税申报单;客户在线订购物品;社交媒体用户发布评论;使用X光机拍照;旅行者发送关于餐馆的评论;供应链中的传感器发送警报;或者科学家进行实验。在这些数据被用于分析之前,需要提取、加载、理解、转换,并且在许多情况下需要匿名化。分析结果包括例行程序、自动决策、预测和建议,以及需要解释以产生行动和反馈的结果。此外,这种情况还必须考虑管理社会数据的道德问题。图2描述了数据科学管道。
2.1对社会的影响
数据科学是改善社会和促进社会进步的机会。它可以支持决策;它提供了产生高质量和高精度统计信息的新方法,并赋予公民自我意识工具。此外,它有助于促进大数据的道德使用。
现代城市是大型数据流密集穿越的完美环境。利用交通监控系统、环境传感器、GPS个人轨迹和社会信息,我们可以将城市组织为需要优化、持续监控和及时调整的资源的集体共享。通过引入诸如城市规划、公共交通、减少能源消耗、生态可持续性、安全和评估管理等术语,很容易理解数据科学的潜力。这些指标代表了可以从大数据可能为城市利益相关者提供的意识中受益的主题前沿。文献中有几种允许人类移动分析和预测的方法:MyWay通过结合个人和集体学习模型,利用个人系统行为来预测未来的人类移动。拼车基于给定地区旅行者的移动性数据,通过利用拓扑特性,突出具有创建拼车社区更高机会的子群体,以及用户成为共享汽车司机或乘客的倾向,构建了一个潜在拼车用户网络。活动出席率预测分析了用户的通话习惯,并将人们分为行为类别,将他们分为居民、通勤者和访客,并允许观察城市用户的各种行为和城市大型活动的出席情况。
预计电动交通将对世界越来越重要。完整开关对电力流动性的影响仍在调查中,关键在于充电(和快速充电)系统产生的流动强度,这可能会对电力网络的稳定性造成挑战。为了避免充电基础设施的不稳定性,需要准确预测与移动性相关的功率流。使用个人移动数据可以估计移动流量并模拟不同充电行为模式的影响,以预测电力流量并优化充电基础设施的位置。Lorini等人是将CEM系统提供的数据和Twitter数据整合在一起的城市交通预测示例。Twitter数据使用大量多语言方法进行分类处理。该模型是一个监督模型,需要仔细收集数据并验证来自多个来源的确认食品的真实情况。
社会数据科学的另一个例子是开发功能直接针对个人的应用程序。在这种情况下,个人数据存储和个人数据分析等概念旨在实现个人数据的新交易,提供以用户为中心的视图,在个人层面收集、整合和分析数据,并为用户提供更好的行为、健康和消费者利益意识。在这种以用户为中心的视角下,还有更广阔的商业应用市场的空间,如高精度实时目标营销,例如,自组织决策以保护所需的全球属性,以及交通或医疗系统的可持续性。这样的背景强调了数据科学的两个基本方面:需要创造性,以新颖的方式开发和组合多种数据源,需要让生成个人数据的用户了解和控制个人数据,以维持一个透明、基于信任的众包数据生态系统。
网络社交网络在我们社会中的影响已经改变了信息传播和新闻制作背后的机制。媒体生态系统和新闻消费的转型正在几个领域产生影响。一个相关的例子是错误信息对社会的影响,比如英国脱欧公投,当时假新闻的大量传播被认为是这一政治事件结果的最相关因素之一。有关外部新闻对社交网络的影响的结果提供了成就的例子。这些成就表明,用户对新闻来源持高度两极分化的态度,即他们引用(并且倾向于引用)他们认为在意识形态上与他们相似的来源。其他研究结果涉及回音室和社交媒体用户的角色:制作和消费的内容的方向之间存在着强烈的相关性。换句话说,当其他人在“会议室”(即用户周围的社交网络)中分享意见时,意见会“回响”回用户。其他值得一提的成果还包括致力于揭露Twitter上股票微博中的垃圾邮件和机器人活动的努力:从生物DNA中汲取灵感,其想法是通过代表在线用户行为序列的字符串来模拟在线用户的行为。根据报告,71%的可疑用户被归类为机器人;此外,37%的人在我们调查后几个月也被推特暂停。在文献中可以找到几种方法。然而,它们通常显示出一些局限性。他们中的一些人只研究错误信息传播的一些特征(机器人检测、用户因其观点或其他社会分析而被隔离),或者缺乏解释结果的全面框架。虽然前一种情况在某种程度上是由于研究领域的创新,并且是可以解释的,但后一种情况显示了更基本的需求,因为如果没有严格的统计验证,很难说明哪些是允许系统描述的关键要素。为了避免假新闻传播,我们可以声明,构建一个全面的假新闻数据集,提供有关出版商、共享内容、用户在空间和时间上的参与以及他们的个人故事的所有信息,可以帮助开发创新和有效的学习模型。无监督和有监督的方法将协同工作,以识别误导信息。需要多学科团队、专家、语言学家、行为科学家和类似人员来确定信息战战役的规模。网络战和信息战将是21世纪世界面临的最大威胁之一。
社会感知方法收集数字公民通过机会主义或参与性众感知产生的数据,取决于用户的参与意识。这些方法提出了各种技术和伦理挑战。举个例子,TwitterMonitor,这是一种人群感知工具,旨在通过Twitter流API访问Twitter流。它允许启动并行监听以收集不同的数据集。Twitter Monitor是一种创建服务的工具,用于倾听有关政治选举、自然灾害和人为灾害、受欢迎的国家事件等相关事件的宣传活动。可以执行此活动,指定关键字、帐户和感兴趣的地理区域。
现在,财务和经济指标关注数据科学作为福祉和社会经济应用的代理的潜力。创新研究方法的发展表明,贫困指标可以通过从手机数据和GPS数据中提取的社会和行为流动性度量来近似;通过使用零售超市市场数据,可以准确预测国内生产总值。此外,基于推特数据的领土人口统计方面的即时广播可以通过估计位置、职业和语义来支持社会统计。网络是一种方便的方式来表示大系统中元素之间的复杂交互。在经济学中,网络越来越受到关注,因为网络系统的底层拓扑结构会影响总产出、冲击传播或财务困境;或者拓扑允许我们通过查看节点邻居的属性来了解节点的一些信息。在最受调查的金融和经济网络中,我们引用了一项分析银行间系统、公司间支付网络、银行间二分网络和投资者间交易网络的工作。另一个有趣的现象是区块链技术的出现,这导致了比特币加密货币的创新。
数据科学是政策、数据新闻和市场营销的绝佳机会。在线媒体领域现在是一个实时实验社会,可以了解社会机制,如骚扰、歧视、仇恨和假新闻。在我们看来,数据科学方法的使用对于更好的治理是必要的。这些新方法整合并改变了代表更便宜、更及时的计算方式的官方统计数据。当数据科学驱动的应用程序有助于为人口建立新的基础设施或新的服务时,其影响可能特别显著。
描述足球表现的大量数据的可用性促进了足球分析的最新进展。Rossi等人提出了一种创新的机器学习方法来预测职业足球运动员的非接触伤害。我们可以找到足球防守阶段压力的定量度量的定义。巴氏合金。概述了足球队排名系统——足球表现的自动评估。体育数据科学引起了人们的极大兴趣,现在正导致发布大型公共体育赛事数据集。
最后,数据科学揭示了从人口统计向相互关联的实体统计的转变,这些实体通过相互作用相互关联。这种视角的变化揭示了复杂的社会、经济、技术和生物系统的普遍模式。这有助于了解意见、流行病或创新在我们社会中传播的动态,以及复杂系统疾病(如癌症和代谢紊乱)背后的机制,揭示它们之间的隐藏关系。考虑到扩散模型和动态网络,NDlib是一个Python包,用于描述、模拟和观察复杂网络中的扩散过程。它收集了流行病和舆论动态的扩散模型,并允许科学家将模拟与合成系统进行比较。对于社区发现,有两种工具可用于研究社区结构并了解其习惯:恶魔提取网络(即连接到自我节点的节点),并通过采用民主、自下而上的合并方法来识别真实社区。Tiles致力于动态网络数据,并提取重叠的社区,并按照在线迭代过程及时跟踪其演变。
2.2对工业和商业的影响
数据科学可以创造一个由数据驱动的新商机的生态系统。作为所有行业的一个普遍趋势,大量数据将被提供给每个人,让企业家认识到业务流程中的不足并对其进行排名,从而发现潜在的线索和双赢局面。理想情况下,每个公民都可以从这些模式中建立新的商业理念。共同创造使数据科学家能够设计创新的产品和服务。
通过共享不同性质和来源的数据,连接不同数据集的价值远远大于分离数据集的总价值。
从工业和生产到服务和零售,所有部门都有望从数据科学中获益。在这方面,我们列举了数据科学应用特别有前景的几个宏观领域。在能源和环境方面,能源系统(从生产到分配)的数字化使得能够获得实时、高分辨率的数据。再加上其他数据源,如天气数据、使用模式和市场数据(附带高级分析),效率水平可以大大提高。地理空间数据也增强了对环境的积极影响,这些数据有助于了解地球及其气候如何变化,并有助于应对全球变暖、物种保护、人类活动的作用和影响等重大问题。
随着对工业4.0和智能工厂的投资不断增长,制造和生产部门将成为世界上主要的数据生产商之一,智能工厂配备智能和联网的传感器设备(参见物联网。网络物理系统)。数据科学在该领域的应用将带来效率提高和预测性维护。由于个性化产品的大规模生产成为可能,消费者可以直接获得影响和控制,因此预计会出现全新的商业模式。
如第2.1节所述,数据科学将有助于提高公共管理流程和医疗保健的效率。在物理和网络领域,安全将得到加强。从金融欺诈到公共安全,数据科学将有助于建立一个安全可靠的数字经济框架。利用大数据将为管理物流业务流程的创新、自组织方式提供机会。交付可以基于预测监测,使用来自商店、语义产品记忆、互联网论坛和天气预报的数据,从而节约经济和环境成本。让我们还考虑个性化服务对为游客创造真实体验的影响。实时和上下文感知数据的分析(借助历史和文化遗产数据)将为每位游客提供定制信息,有助于更好、更有效地管理整个旅游价值链。
3数据科学伦理
数据科学创造了巨大的机会,但也带来了新的风险。使用先进的数据分析工具可能会暴露个人的敏感知识,并可能侵犯个人隐私。数据科学方法要求访问包含潜在敏感信息的个人活动的数字记录。个人信息可以用来根据人们的假定特征来区分他们。数据驱动算法基于用户在数字环境中传播的个人数据(有或经常没有意识到),生成个人行为特征的分类和预测模型,如信用评分、保险风险、健康状况、个人偏好以及宗教、种族或政治取向。数据科学的成就反映了对分析目标的可用数据进行解释的结果,这些目标不同于激励数据收集的原始原因。例如,移动电话通话记录最初由电信运营商收集,用于计费和运营目的,但可用于国家或地区范围内准确、及时的人口统计和人员流动分析。数据的重新用途清楚地表明了法律合规性和数据道德技术以及保护隐私和匿名的保障措施的重要性;保护数据;吸引用户;避免歧视和滥用;说明透明度;以及在控制相关风险的同时抓住数据科学的机遇。
应考虑几个方面来避免损害个人隐私。伦理要素应包括:(一)监测实验、研究方案和应用是否符合伦理和法律标准;(ii)开发大数据分析和社会挖掘工具,采用价值敏感设计和隐私设计方法;(iii)提高欧洲大数据研究在安全和公平地使用大数据进行研究方面的卓越性和国际竞争力。必须强调的是,通过基础设施使用个人和社会数据的数据科学家有责任了解与成为“数据控制者”相关的基本道德方面。必须考虑这一方面,以制定必要的课程,告知和培训数据科学家有关责任、可能性,以及它们在数据操作中的边界。
回顾图2,向数据科学管道注入公平的道德价值至关重要:如何避免不公正和歧视性的决定;准确性:如何提供可靠的信息;机密性:如何保护相关人员的隐私和透明度:如何使模型和决策对所有利益相关者都可理解。这种价值敏感的设计必须旨在促进数据科学的广泛社会接受,而不抑制其威力。最后,还必须考虑《通用数据保护条例》(GDPR)对以下方面的影响:(i)公司的职责,以及这些欧洲公司应如何遵守该条例要求的数据操纵限制;以及(ii)研究人员的职责,重点介绍专门提及和解释GDPR法律体系中研究目的的文章和序言。
我们完成本节的另一个与开放数据相关的重要方面,即可访问的公共数据,人们、公司和组织可以使用这些数据来创建技术企业、分析模式和趋势、做出数据驱动的决策以及解决复杂问题。开放数据的所有定义包括两个特点:(i)数据必须公开供任何人使用,以及(ii)数据必须以允许重复使用的方式获得许可。在世界各地,政府机构和公共组织发起了开放数据的举措;列出它们是不可能的,但必须提到联合国的一项倡议。Global Pulse6旨在实现一个未来的愿景,在这个愿景中,大数据作为一种公共产品得到安全和负责任的利用。
图3显示了开放数据和大数据之间的关系。目前,问题不仅在于政府机构(以及一些商业公司)正在收集有关我们的个人数据,还在于我们不知道正在收集哪些数据,我们无法获取有关我们自己的信息。正如2013年世界经济论坛所报道的那样,必须了解个人数据的价值,才能让用户做出明智的决定。哲学和伦理学的一个新分支正在出现,以处理与个人数据相关的问题。一方面,在所有数据可能用于社会公益的情况下(即医学研究、公共交通改善、对比流行病),理解个人数据价值意味着正确评估公共利益和个人保护损失之间的平衡。另一方面,当数据旨在用于商业目的时,上述价值可能会转化为用户可能为了其业务而向公司出售的个人信息的简单定价。在此背景下,歧视发现包括通过分析历史决策记录的数据集,搜索受法律保护的社会群体的可疑歧视的先验未知背景。机器学习和数据挖掘方法可能会受到歧视规则的影响,这些规则可能隐藏在模糊的人工智能模型中。因此,辨别发现包括理解预测模型是直接辨别还是间接辨别。DCube是一个数据驱动的歧视发现工具,是一个公平分析方法库。
评估挖掘模型或算法如何做出决策非常重要。不断增长的可解释机器学习方法领域提供并不断扩展了一套全面的工具包。例如,X-Lib是一个包含最先进的解释方法的库,这些解释方法被组织在一个层次结构中,并以类似的方式包装,以便不同的用户可以轻松地访问和使用。该库为解释表格数据和图像的分类以及解释复杂决策系统的逻辑提供了支持。X-Lib收集了以下几种解释方法:LIME、Anchor、DeepExplain(包括显著性图)、Gradient*Input、Integrated Gradients和DeepLIFT。显著性方法是一个包含SmoothGrad代码的库,以及其他几种显著性技术的实现:Vanilla Gradients、引导反向投影和Grad CAM。在这方面的另一个改进是,在涉及法律、隐私和道德问题以及透明度和信任时,在数据、信息和知识以及滥用和滥用这些资产的情况下,使用了调查和AI来进行调查、管理和检测偏见。我们不能依靠人类来完成这些任务。我们需要利用机器人和人工智能的力量来帮助提供所需的保护。数据和信息律师将在法律和隐私问题、这些资产的道德使用以及算法和用于开发分析解决方案的数据、信息和知识中的偏见问题上发挥关键作用。最后,我们可以说,数据科学可以帮助弥补立法者和技术之间的差距。
4大数据生态系统:研究基础设施的作用
研究基础结构(RI)在数据科学的发生和发展中起着关键作用。社会挖掘实验利用了图1所示的数据科学的主要组成部分(即数据、基础设施、分析方法),使多学科科学家和创新者能够提取知识,并获得科学界可利用的实验,创新者对科学和社会产生影响。
数据和方法等资源有助于领域和数据科学家将研究或创新问题转化为负责任的数据驱动分析过程。该过程在平台上执行,从而支持产生科学成果、政策建议或创新概念证明的实验。此外,运营道德委员会的管理是国际扶轮成功的关键因素。
基础设施通常提供易于使用的方法来定义复杂的分析过程和工作流程,从而在领域专家和分析技术之间架起桥梁。在许多情况下,领域专家可能成为其科学社区的参考,从而促进新用户参与国际研究活动。作为附带反馈效应,实验将产生新的相关数据、方法和工作流程,数据科学家可以将其整合到平台中,从而有助于RI的资源扩展。在RI的节点中设计并在平台上执行的实验将其结果返回给整个RI社区。
精心设计的主题环境通过激活适当的传播渠道,扩大了垂直科学社区(和潜在利益相关者)的新实验成果。
4.1 SoBigData研究基础设施
SoBigData研究基础设施是一个人力和数字资源生态系统,包括数据科学家、分析和流程。如图4所示,SoBigData旨在使多学科科学家和创新者能够实现社会挖掘实验,并使其可被科学界重复使用。从原始数据管理到知识提取,已经引入了实施数据科学的所有组件,特别关注法律和道德方面,如图1所示。SoBigData支持数据科学服务于跨学科的数据科学家群体,他们从数据和模型驱动的角度研究社会复杂性的所有要素。
目前,SoBigData包括科学、工业和其他利益相关者。特别是,我们的利益相关者是数据分析师和研究人员(35.6%),其次是公司(33.3%)和政策制定者(20%)。以下各节简要而全面地概述了SoBigData RI提供的服务,特别关注支持伦理和开放数据科学。
4.1.1资源、设施和准入机会
在过去十年中,欧洲在建设和运营电子基础设施方面积累了世界领先的专业知识。它们是大规模、联合和分布式的在线研究环境,研究人员可以通过这些环境共享对科学资源(包括数据、仪器、计算和通信)的访问,无论其位置如何。它们旨在支持学科内和学科间前所未有的国际科学合作,投资于规模经济和共同行为、政策、最佳实践和标准。他们建立了一个共同的环境,在那里,科学家可以通过使用由商定的服务和工具组成的通用“数字实验室”来创建、验证、评估、比较和共享他们的数字科学成果,如研究数据和搜索方法。
然而,工作流程的实施,可能遵循再现性和透明度的开放科学原则,受到大量现实问题的阻碍。其中一个最突出的问题是,目前研究社区可使用的电子基础设施远没有设计完善、一致的数字实验室,这些实验室被巧妙地设计为根据公共政策、数据模型、标准、语言平台和API共享和重用资源。它们是“补丁工作系统”,组装在线工具、服务和数据源,并不断发展以满足科学过程的要求,包括新的解决方案。异质性程度不包括采用统一的工作流管理系统、标准的面向服务的方法、日常监控和会计方法。科学工作流程的实现通常通过编写临时代码、在桌面上操作数据、交替执行在线网络服务、共享以不同语言实现研究方法的软件库、桌面工具、网络可访问执行引擎(如Taverna、Knime、Galaxy)来实现。
SoBigData电子基础设施基于D4Science服务,该服务为研究人员和从业者提供了一个透明地促进开放科学实践的工作环境,并且可以通过最小化上述技术集成成本来实施数据科学实践。
D4Science是gCube8技术的一个部署实例,这是一种软件,旨在促进将web服务、代码和应用程序作为不同类型的资源集成到一个通用框架中,从而能够将虚拟研究环境(VRE)构建为这些资源的组合(图5)。由于没有一个共同的框架可以得到足够的信任和持续,以说服资源提供商,将其融合到一起是值得的努力,D4Science实施了一个“系统系统”。Insuchramework以最小的成本整合了资源,以获得可扩展性、性能、会计、来源跟踪、与其他资源的无缝集成,所有科学家都能看到。原则是,“参与”框架的成本由基础设施承担,而不是由资源提供者承担。基础设施提供了必要的桥梁,以包括和组合否则将不兼容的资源。
更具体地说,通过D4Science,SoBigData科学家可以通过API集成和共享数据集、研究方法、web服务和Portlet web应用程序等资源。然后,资源可以通过VRE进行整合、组合和访问,VRE旨在作为基于web的工作环境,以支持其指定社区的需求,每个社区都在研究问题。研究方法集成为可执行代码,以不同的编程语言(例如,Java、Python、R、Knime、Galaxy)实现WPS API,可通过DataMiner分析平台并行、对用户透明、功能强大且可扩展的集群以及简单的VRE用户界面执行。在VRE环境中使用Data Miner的科学家可以选择并执行可用的方法,并与其他科学家共享结果,他们只需简单单击即可重复或复制实验。
D4科学VRE配备了支持数据分析和用户间协作的核心服务:(i)共享工作空间,用于存储和组织研究工件的任何版本;(ii)社交网络区域,用于讨论任何主题(包括工作版本和发布的作品),并了解事件;(iii)Data Miner分析平台,用于执行VRE用户本地提供的或从其他VRE借来的处理任务(研究方法),以应用于VRE用户的案例和数据集;以及iv)基于目录的发布平台,以公开和传播某一文物的存在。VRE内的科学家使用这些设施持续、透明地跟踪其研究活动的记录(行动、作者、出处),以及研究生命周期每个阶段产生的产品和它们之间的联系(谱系),从而根据透明和可再现的开放科学原则促进科学出版。
如今,SoBigData整合了表1中的资源。通过这些资源,SoBigData科学家创建了VRE,以提供所谓的SoBigData探索:可解释的机器学习、运动数据科学、迁移研究、社会辩论、福利与经济以及公民之城。每项探索都包括在受控共享环境中执行数据科学工作流程所需的资源。资源范围从数据到方法,下文将对其进行更详细的描述,以及在勘探区内的开发。
整合到SoBigData RI中的所有资源和工具的结构都符合现行数据保护法的规定,重点是《通用数据保护条例》(GDPR)和对社会挖掘和人工智能所涉及的基本价值观的道德分析。目录中的每个条目都有管理道德问题的特定字段(例如,如果数据集包含个人信息)和描述和管理知识产权的字段。
4.1.2数据资源:社会挖掘和大数据生态系统
SoBigData RI定义了支持用户收集、描述、保存和共享数据集的政策。
它实施了数据科学,通过采用各种策略,从与整个社区共享开放数据集,到在安全环境中允许数据访问的披露限制下共享数据,使此类数据可用于协作搜索。
通过SoBigData RI可以获得多个大数据集,包括来自移动电话呼叫数据的网络图;网络从许多在线社交网络中爬行而来,包括Facebook和Flickr、来自不同零售商的交易微数据、来自搜索引擎和电子商务的查询日志、全社会的移动电话呼叫数据记录、来自个人导航设备的GPS跟踪、关于客户满意度或市场调查的调查数据、广泛的网络档案、数十亿条推文,以及来自位置感知社交网络的数据。
4.1.3通过SoBigData探索者进行数据科学
探索是建立在SoBigData RI之上的主题环境。一项探索性研究将数据集与社会挖掘方法相结合,通过以下方式提供支持特定数据科学应用的研究背景:(i)提供执行应用的科学背景。此上下文可以被视为绑定特定方法、应用程序、服务和数据集的容器;(ii)激励社区了解与分析相关的分析过程的有效性,促进科学传播、结果共享和再现性。通过研究基础设施服务,使用探索者可以提高数据科学的有效性。以下各节简要介绍了六个SoBigData探查器。图6显示了每项探索所涵盖的主要主题领域。由于其性质,可解释机器学习探索性可以应用于使用黑箱机器学习方法的每个部门。勘探点列表(以及其中的数据和方法)不断更新,并随着时间的推移不断增长。
市民之城。这项探索旨在收集与地理参考数据相关的数据科学应用和方法。采用多种数据源建立科学文献中人口流动和城市特征模型的方法。与生态系统一样,城市是开放系统,利用能源、物质和信息流生存和发展。城市与殖民地的区别在于人的组成部分(即文化和技术演变的转变过程)。通过这种结合,城市是一个不断发展和与居民共同进化的进化系统。城市是由编织在城市结构中的无数数字设备产生的信息的万花筒。在个人设备中加入跟踪技术,可以分析大量的移动数据,如GPS轨迹和通话详细记录。
由于欧洲项目合作伙伴十年的经验,将数据科学应用于人类流动性是SoBigData研究的关键主题之一。对人类移动性的研究导致将独特的全球定位系统(GPS)和呼叫详细记录(CDR)数据集(人和车辆移动)、地理参考社交网络数据以及若干移动性服务集成到SoBigData中:O/D(起点-目的地)矩阵计算、城市移动性Atlas10(城市移动性模式的可视界面),GeoTopics(用于探索Foursquare的城市活动模式)和预测模型:MyWay(轨迹预测)、TripBuilder13(游客构建城市个性化旅游)。在人类流动方面,研究问题来自地理学家、城市学家、复杂性科学家、数据科学家、决策者和大数据提供商,以及旨在为智能城市生态系统的任何服务提供应用程序的创新者。其目的是调查政治事件对公民福祉的影响。这一探索通过在线新闻库上的文本挖掘/意见挖掘管道,支持“幸福”和“和平”指标的开发。这些指标表明,通过分析与该地区相关的新闻,可以很好地估计该地区的犯罪水平。通常,我们研究经济对福祉的影响,反之亦然,例如,也考虑到经济或金融系统中金融危机冲击的传播,这主要取决于连接不同要素的网络拓扑。
幸福和经济。这一探索性测试了幸福感与公司经营业绩相关的假设。这一想法是将统计方法和传统经济数据(通常是低频数据)与非传统来源的高频数据相结合,例如网络、超市,目前经济、社会经济居民是指标。这些指标使我们能够通过研究价格变化和社会经济地位推断来研究和衡量现实生活成本。此外,这项活动支持对人们的福祉与其社会和流动数据之间的相关性进行研究。在此背景下,一些基本假设可以概括为:(i)公司董事会中存在基于年龄和性别的隔离分布曲线,这是一个地区公司信用风险的特征;(ii)一个地区公司的低平均信用风险与幸福感呈正相关;(iii)系统性风险与国家层面的幸福指数高度相关。最终目的是为国家政府提供一套指导方针、方法和指数,以制定影响公司改善国家福利的法规,同时考虑有效的政策来降低运营风险,如信用风险和公司的外部威胁。
一方面,这为在地方和全球范围内衡量福祉和贫困模式提供了新的机会,使政府和决策者有了前所未有的机会来预测相关的经济数量,并比较不同的国家、地区和城市。另一方面,这允许我们调查复杂的经济和金融系统的基础网络,并影响总产出、冲击传播或金融危机和系统风险。社会辩论。这项探索性研究采用数据科学方法来回答研究问题,例如谁在参与公共辩论?公民对政策、选举、公民投票或其他政治事件的“大局”反应是什么?这种分析使科学家、决策者和公民能够理解围绕两极分化辩论的在线讨论。个人对社交媒体上的在线讨论的看法往往被所谓的过滤泡沫所左右,在过滤泡沫中,内容的自动管理和用户之间的关系会对他们可用的意见的多样性产生负面影响。对网上两极分化的辩论进行全面分析,使公民能够更好地了解情况并为政治结果做好准备。通过分析社交媒体和报纸文章上的内容和对话,数据科学家研究公众辩论,并评估围绕辩论主题、意见传播动态、回音室形成和两极分化讨论、假新闻分析和宣传机器人的公众情绪。错误的信息通常是由于对概念的误解,这些概念虽然不相关,但突然出现在同一叙事中。早期了解这一过程的细节可能有助于防止假新闻的产生和传播。错误信息之光包括开发错误信息传播的动态模型(可能与主流新闻的传播形成对比),以及网络媒体基础设施如何加速和扩大注意力循环的模型。
这一探索性关注所涉及的另一个重要主题是分析社交活动如何影响新闻传播。确定是人还是机器人控制用户帐户是一项复杂的任务。据我们所知,检测社交机器人的唯一公开解决方案是Botometer,这是一个允许我们与底层机器学习系统交互的API。虽然Botometer已被证明在检测社交机器人方面完全准确,但由于Twitter API的特性,它存在局限性:因此,需要一种克服当前食谱障碍的算法。
与社会辩论相关的资源具有探索性,特别是在媒体生态领域和打击网上错误信息方面,为公共机构、媒体机构和社会/政治科学家提供了易于使用的服务。此外,SoBigData支持新的模拟模型和实验过程,以在体内验证用于打击错误信息、抑制病态加速和在线注意力循环放大、打破泡沫以及探索替代媒体和信息生态系统的算法。
移民研究。数据科学也有助于理解迁移现象。了解居住在特定地区的移民数量对于制定政策以最大限度地为当地人和移民带来利益至关重要。这些数字可能在空间和时间上迅速变化,特别是在战争或自然灾害等危机时期。
这项探索性研究提供了一组数据和工具,用于回答有关迁移流程的一些问题。通过这种探索,数据科学家研究了移民的经济模型,并可以观察移民如何选择他们的目的地国家。移民学家可以发现一个国家向移民提供的“机会”的含义,以及入境移民的数量与东道国的机会之间是否存在相关性。此外,这一探索性尝试使用意见挖掘分析来理解公众对移民的看法是如何变化的。例如,社会网络分析使我们能够分析移民的社会网络,并发现决定在不同国家开始新生活的人的社会网络结构。
最后,我们还可以根据社会统计数据和调查数据评估当前的综合指数,这些数据可以通过大数据来源补充。这一探索性的目标是构建综合集成索引,该索引考虑到多个数据源,以评估不同级别的集成。这种整合包括移动电话数据,以了解移民和本地人之间的交流模式;评估移民和移民情绪的社交网络数据;了解劳动力市场整合的专业网络数据(如LinkedIn),以及了解跨境流动在多大程度上与移民文化规范的变化相关的本地数据。这些指数是评估移民的总体社会和经济影响的基础。新的整合指数可以应用于各种空间和时间分辨率(小面积方法),以获得整合的完整图像,并补充社会指数。
体育数据科学。提供从每场比赛中提取的高精度数据流的新传感技术的发展正在改变科学家、球迷和从业者对体育表现的看法。这些(大)数据与数据科学工具的结合提供了揭示运动表现基础的复杂模型的可能性,并能够执行许多具有挑战性的任务:从自动战术分析到数据驱动的表现排名;游戏结果预测和伤害预测。其目的是在多个方向促进体育数据科学的研究。可解释的人工智能和深度学习技术的应用可以对体育数据科学产生巨大的益处。例如,通过使用对抗性学习,我们可以修改与高受伤风险相关的球员的训练计划,并制定训练计划,以最大限度地提高球员的适应能力(最小化他们的受伤风险)。游戏、模拟和建模的使用是另一套工具,教练组可以使用这些工具来测试针对竞争对手的战术。此外,通过对时间序列的深度学习,我们可以预测球员表现的演变,并寻找年轻人才。
这项探索性研究了影响体育成功的因素,以及如何构建模拟工具来提高个人和集体的表现。此外,这项探索性研究使用数据、统计数据和模型描述了运动表现,使教练、球迷和从业者能够了解(并提高)运动表现。可解释的机器学习。越来越多地基于大数据分析的人工智能是我们这个时代的颠覆性技术。这一探索为研究人工智能对未来社会的影响提供了一个论坛。在此背景下,SoBigData还通过数据和模型驱动的分析、模拟以及构建人工智能黑箱模型的人类可理解解释方法的开发,研究劳动力和劳动力的未来。
用于自动决策的黑盒系统将用户的特征映射到一个类别,以预测个人的行为特征,如信用风险、健康状况,而不暴露原因。大多数时候,这些算法的内部推理甚至对其开发人员来说都是晦涩难懂的。因此,过去十年见证了黑箱社会的兴起。这项探索性工作是开发一套技术和工具,使数据分析人员能够理解为什么算法会产生决策。这些方法不是为了发现缺乏透明度,而是为了发现算法从隐藏在训练数据中的人类偏见和人工制品中继承的可能偏见(这可能导致不公平或错误的决策。
5结论:个人和集体智力
自20世纪80年代以来,世界人均存储信息的技术能力大约每40个月翻一番。自2012年以来,每天创建2.5 EB(2.5×1018字节)的数据;截至2014年,超级电力高科技公司在全球范围内每天生成2.3 zettabyte(2.3×1021字节)的数据。很快,有用的公共和私人数据的zettabytes将被广泛和公开使用。在未来几年中,智能电网、智能物流、智能工厂和智能城市等智能应用将在未来广泛部署。数十亿设备上的无处不在的宽带接入、移动技术、社交媒体、服务和思想网络将导致生成的数据爆炸,全球估计总量为40 Zettabyte。
在这项工作中,我们将数据科学作为未来几年的新挑战和机遇。在此背景下,我们试图以简洁的方式总结与数据科学应用及其对社会的影响相关的几个方面,同时考虑到可用的新服务和新的工作视角。我们还介绍了管理代表人类行为的数据的问题,并展示了保护个人信息和隐私的难度。随着SoBigDataRI和Explorations的引入,我们提供了虚拟环境,可以在不同的研究背景下了解数据科学的潜力。最后,我们可以说,当个人和公共利益发生冲突时,社会问题就会发生。这些问题也出现在分布式人工智能系统(基于数据科学工具)和人类的生态系统中,存在额外的困难:一方面,由于人工智能系统的相对刚性和实现社会效益的必要性,另一方面,也由于保持个人兴趣的必要性。使用人工智能进行个人与社会优化的原则和解决方案是什么?如何实现最佳平衡?答案仍然是开放的,但这些复杂的系统必须致力于充分实现集体目标和要求,面临的挑战是人类需求随着时间的推移而变化,并从一个环境转移到另一个环境。每个人工智能系统都应该在道德和社会框架内以可理解、可验证和可调整的方式运行。无论如何,此类系统必须在法治范围内工作,将基本权利保护纳入人工智能基础设施。换言之,我们面临的挑战是建立机制,使系统趋于符合欧洲价值观和社会目标(例如,社会包容)的平衡,但不会造成不必要的效率损失。
有趣的是,数据科学可以在增强系统中的理想行为方面发挥至关重要的作用,例如,支持协调与合作,而协调与合作往往对实现任何有意义的改进至关重要。我们的最终目标是构建一个社会技术系统的蓝图,在这个系统中,人工智能不仅与人类合作,而且在必要时帮助他们学习如何协作,以及其他期望的行为。在此背景下,了解如何在各种恶意行为(如滥用权力和利用人工智能技术弱点)方面实现人类和人工智能生态系统的鲁棒性也是至关重要的。
最后,我们在斯蒂芬·霍金的《大问题的简要回答》中引用了他的话:数据的可用性本身不会把人类带到未来,但它的智能和创造性的使用会。