针对去中心化身份管理的个人数据访问的联合授权

摘要

数字身份问题是一个复杂的问题，在很大程度上是因为它涉及个人数据、计算对数据的洞察的算法，以及与个人数据相关联的身份的管理。今天的现实是，个人的个人数据分布在整个互联网上，包括私人和公共机构，并且越来越多地分布在用户的设备上。为了使个人有权决定谁有权查阅他们的个人资料，并使个人能够为自己的目的使用其数据，需要一个连贯和可扩展的联合授权架构，作为去中心化身份解决方案的基本组成部分。这个联合必须允许个人轻松地管理访问策略，并授予和撤销对分布在多个存储库中的数据的访问权限。本文描述用户管理访问架构和协议，它们为可扩展的联合授权提供了基础。

简介：数据、身份和信任

比特币和区块链技术的出现通常说明了公钥加密技术在交易环境中的潜在用途，这些交易以无中介的方式在节点的点对点网络上直接进行。这引起了人们对区块链技术在数字身份领域潜在应用的兴趣。然而，数字身份问题早在区块链技术出现之前就已经存在，并且与个人数据和隐私的复杂问题密切相关。

公众对大数据力量的认识不断提高，以及最近针对持有大量消费者个人数据的组织的网络攻击（例如，2015年的Anthem data breach;Equifax breach in 2017）近年来塑造了公众的信任。在过去十年中，个人对处理和公平使用个人资料的信任度持续下降。皮尤研究中心报告称，91%的美国人同意或强烈同意消费者已经失去了对个人数据如何被收集和使用的控制，而80%使用社交网站的人担心第三方访问他们的共享数据[2]。网络媒体集团（Webbmedia Group）在《哈佛商业评论》（Harvard Business Review）上撰文称，数据隐私是2015年[3]十大技术趋势之一。与信任缺失相关的——也许是信任缺失的后果——是最近旨在解决数据隐私问题的新法规的发展。欧盟通用数据保护条例（GDPR）的颁布反过来影响了美国和其他地方的数据隐私话语（例如，加州消费者隐私法案[(CCPA)]）。

2014年，世界经济论坛（World Economic Forum）就曾报告过信任下降的状况。世界经济论坛[4]报告是一个多年倡议的***，来自不同社会部门（工业、政府、公民社会和学术界）的各种高层领导人的全球见解。贯穿2014年世界经济论坛报告的一个主题是需要加强个人信任。世界经济论坛的报告提出了三种方法来解决这个问题[4，第14页]。首先，通过关注参与和回应，以及为个人提供洞察力和有意义的控制来提高透明度。这取代了目前专注于披露和提供细节的方法（这通常会让个人不知所措）。其次，通过面向整个价值链（从前端到后端），公平分配风险，提高问责制。这与当前行业的做法形成了鲜明对比，当前行业的做法是面向价值链的前端，风险和责任由个人承担。第三，授权个人，让他们对组织如何使用有关他们的数据有发言权，并让个人有能力为自己的目的使用数据。授权的分配应该有共同的激励机制，以授权个人，并在更接近数据生产源（个人）的地方分配价值。这与目前的方法形成了对比，目前的方法专注于维护一组集中的参与者之间的信息差异。呼应世界经济论坛[4]报告，我们认为个人需要对他们的个人数据进行有意义的控制（图1），这些数据越来越多地分布在互联网上的各种实体。

如今，现实情况是，出于实际原因，个人数据通常不属于个人。GDPR认识到了这一现实，并通过使用数据控制器和数据处理器的概念来反映它。为了为个人提供对其个人数据真正有意义的控制，（个人个人数据）的控制者必须共同为个人提供一种简单的方式来配置适用于每个控制者的个人数据的访问政策（同意规则）。我们将其称为联合授权。联合授权的总体目标是授权个人在一个位置（例如，一个数据控制器）设置访问策略（即同意），并使访问策略自动传播到其他数据控制器并在那里执行。通过这种方式，个人不必多次登录多个站点来配置访问策略。这与世界经济论坛的建议是一致的。

从数据最小化和隐私保护的角度来看，持有和处理个人数据的行业应该采取一种更倾向于分享见解而不是交换原始数据的数据处理理念。我们将其称为在MIT[5]上首次开发的开放算法范式。开放算法主张：

数据不应该离开它的存储库。
经过审查的算法被传输到数据存储库，在那里执行。
只返回聚合答案，不允许重新识别个体。

任何算法执行产生的响应都要比聚合结果更深入或更细粒度，必须首先获得相关个人的明确同意。

本文的目标是探讨联合授权模型的概念，用于对个人身份的各个方面进行去中心化管理。遵循开放算法方法，本文中的术语“授权”通常指个人允许或同意对其个人数据执行经过审查的算法。为了使讨论深入到实际应用中，我们使用了一个名为用户托管访问（User Managed Access, UMA）的具体示例，它为数据控制者之间的授权联合提供了基础。

去中心化的身份管理

如前所述，个人数字身份问题一直与个人数据和隐私有关。在讨论数字身份管理时，我们采用了一个包容性更强的观点，不仅包括数字身份（例如电子邮件地址、社会安全号码、公钥），还包括：

在互联网上散布的个人资料
应用于个人数据的算法可以产生深刻的见解
断言或声明结构向外部实体传达不同程度的见解
与断言关联或绑定的数字身份

我们通常将身份定义为一组或多个特征的集体方面，通过这些特征，一个事物（例如，人，设备，组织）可以识别和区分彼此[6]。在人的背景下，一个人的个性起着重要的作用，因为它可以让一群人认识到一个人的独特特征，并将其视为一个持续存在的实体。正是这种个性导致人们形成社交网络，并允许他们与自己社交网络中的成员进行互动和交换思想。社交网络交互数据是个体个人数据的重要组成部分。因此，我们将一个人的核心身份定义为一组特征（通过个人数据、算法和见解派生）的集体方面，通过这些特征，一个人可以被唯一识别。

因此，正确的身份管理成为一个更广泛的挑战，即个人如何更好地控制和管理其数字身份生命周期的各个方面，包括创建和使用在互联网上分布的个人数据、算法、见解和断言。因此，正确地看，去中心化身份管理的问题实际上是实现个人对其数字特征的去中心化控制的挑战，这些数字特征通过个人数据、算法、见解和关于他们的断言来表达。我们将其称为以个人为中心的身份管理，这与传统的以机构为中心的集中式身份管理形成了对比。强调以个人为中心，意味着赋予个人为自己目的使用数据的能力，使价值更接近数据产生的源头，即个人。今天，许多个人数据分布在因特网上，这意味着以个人为中心的访问的联合授权模型是去中心化身份解决方案的重要组成部分。

对于区块链技术的新兴领域，除了通过区块链将公钥与权利要求绑定以外，区块链还有一些潜在的应用[8,9]。例如，区块链可以作为基础技术，用于记录、跟踪和审计相关实体应用于数据的算法。另一个例子是，许可（例如，运行算法）及其相应的收据可以使用记录在区块链上的同意书接收标准协议捕获。最后，一些区块链系统的“智能合约”（存储过程）能力可以作为以智能合约形式表达算法的基础，其报酬将直接分配给个人数据的所有者和[10]算法的作者。

基于策略的访问控制和授权

自20世纪60年代中期以来，随着分时主机的兴起，控制多用户对资源的访问成为一个重要的主题。通常，术语访问控制不仅适用于物理访问（计算机系统），也适用于系统资源（例如内存、磁盘、文件）。在20世纪70年代的早期努力中，值得注意的是Multics系统。在政府和军事应用的背景下，还有一个基于个人级别或安全许可的访问问题。在这里，多级系统中的强制和自主访问控制的概念以BLM模型[11]的形式出现在前面。

在BLM中，访问控制被定义为具有不同安全级别的主体对客体（即系统资源）的访问。因此，例如，在BLM中，如果主体的安全级别（如“最高机密”）高于客体的安全级别（如“秘密”），则主体（如用户）被允许访问客体（如文件）。该模型引入了角色或能力的概念，形成了基于角色的访问控制（RBAC）模型。这里，作为BLM的进一步细化，一个主题（用户）可能在给定的组织中具有多个角色或能力。因此，当主体寻求访问一个对象时，他或她必须表明请求是在哪个角色中发出的。RBAC的形式化模型随后由NIST在1992年定义为[12]。

对资源的访问控制也是企业和公司关注的一个主要问题。随着20世纪90年代企业组织对局域网（LAN）技术的广泛采用，这种需求变得尤为迫切。同样的RBAC模型也适用于依附于企业局域网的企业资源。在20世纪90年代，这个问题通常被称为认证、授权和审计（AAA）。在20世纪90年***的AAA模型的一部分是从实现访问规则的函数中抽象出决定访问规则的函数。决定访问规则的实体称为策略决策点（pdp），而实施这些访问规则的实体称为策略实施点（PEP）。图2总结了这种抽象。

基于策略的访问控制模型是当今企业中部署的许多系统的基础。许多解决方案，如微软的活动目录（AD），都建立在相同的基于策略的访问控制模型之上。在AD的例子中，一个相当复杂的跨域架构被开发出来，它允许一个企业在逻辑上把自己划分为几十到数百个内部域（例如，每个部门作为一个不同的AD组）。AD中主体（雇员）的权限和权利是用一种综合的权限属性证书（PAC）数据结构来表示的。有趣的是，Microsoft AD和许多类似产品中的主要身份验证机制是MIT Kerberos身份验证系统（RFC 1510）。

中介认证与授权

今天，互联网上有许多实体，它们为个人用户和在线服务提供商之间的交易提供中介。这些实体提供的一个关键服务是中介认证服务。在这里，为了讨论的清晰，我们使用了一个稍微修改过的术语。这是为了避免使用行业术语，这往往是不准确的，是历史发展的产物。例如，对于提供广泛产品的实体，我们不使用通用术语“服务提供者”，而是使用更具体的术语“商品和服务提供者（GSP）”和“资源服务提供者（RSP）”。第一个表示提供商品的实体（例如，亚马逊），而后面的表示提供计算机相关资源的实体，包括基于云的存储（例如，DropBox）、计算能力（例如，AWS/EC2）等。在许多情况下，资源服务提供商的角色是支持gsp的业务（例如，在线商家）。

中介认证和授权的功能由两类第三方提供（图3）。

身份验证提供者(ANP)：中介身份验证提供者具有代表GSP实体（例如，在线商家）管理和验证用户凭据（例如，密码、密钥）的任务。这使得GSP可以免除对用户（例如，商家的客户）进行身份验证的任务。因此，ANP也有管理属于用户（客户）的持续凭证的任务。一般来说，在客户能够对ANP进行认证之前，GSP必须与ANP有业务关系。如图3a所示。
中介认证协议有多种变体。通常，ANP会发出一个身份验证令牌，作为用户在ANP中成功身份验证事件的证据。身份验证令牌可以通过用户部署的客户端软件（前端通道）交付给GSP，也可以直接从ANP交付给GSP（后端通道）。这些令牌的一个例子是Kerberos票证和SAML2.0登录断言。
今天，ANP功能由一类称为身份提供者（IdP）的提供者实现。典型的面向消费者的IdP会发出身份（例如，电子邮件地址）并管理用户的凭据（例如，更改密码）。当用户访问GSP提供的服务时，用户会被临时重定向到IdP进行认证。IdP发出身份验证令牌，然后由GSP进行验证。
授权提供者(AZP)：中介AZP的任务是管理与访问文件、文档和媒体等资源有关的访问策略。资源通常驻留在一个或多个资源服务提供者（resource service provider, RSP）实体中，资源的所有者在AZP实体中设置访问策略（图3b）。通常在AZP和RSPs之间存在一个回退通道，允许策略规则和配置设置（由资源所有者设置）从AZP传递到RSPs。
如图3b，AZP实现了PDP的功能，而RSP实现了PEP的功能。当第三方（称为请求方（RqP））试图访问RSP上的给定资源时，它必须首先由相关的ANP实体进行身份验证，该实体为其颁发身份验证令牌。ANP被假定与AZP有业务关系。请求方向AZP实体提供身份验证令牌，以证明请求方已经过身份验证。然后AZP发出一个授权令牌（例如OAuth2.0令牌、Microsoft PAC），作为在相关的RSP上为给定资源分配给请求方的访问权限的一种手段。目前，大多数面向消费者的资源共享提供商（例如，照片或日历共享网站）将AZP和RSP的功能合并在一起。
为了扩大服务规模，多年来，许多消费者领域的anp联合起来组成联盟，为其成员提供更广泛的集体服务。我们使用术语“认证联盟”来表示这种联盟安排。身份验证联合的目标本质上是帮助GSP实体确保新用户或返回的用户（即客户）能够快速地进行身份验证。为了实现这一效率，GSP与作为联合会成员的ANP或联合会组织直接建立业务关系。身份验证联盟通常在一组规章制度和合同下运行，对于联盟称为联盟法律信任框架（LTF）（例如，OpenID-Exchange或OIX）。

中介授权服务联盟

与身份验证联合类似，为了使消费者空间中的授权体系结构能够扩展，需要在提供者之间建立授权联合。为了将授权联合放置在适当的上下文中，我们使用经典的基于策略的资源访问控制模型[12]作为起点（如图2所示）。这适用于域的集合，每个域代表不同的数据控制者（保存不同个人的个人数据）。在图4中，域1和域2都持有与个人相关联的资源，我们将其称为GDPR定义下的数据主体（或简称主体）。作为资源所有者的主体拥有位于域1和域2的数据。第三方，称为请求方，寻求访问位于域1中的主题数据（例如，在域1的数据上执行算法）。

可扩展的联邦授权模型至少有三（3）个目标。

跨域策略传播和实施：主体（资源所有者）必须能够在一个域中设置访问策略，并将策略自动传播到包含主体资源的联合中的所有域，并在每个相关域本地实施这些策略。
图4展示了一个例子，其中主体在域2的PDP2设置访问策略，而对主体资源驻留的域1资源的执行也发生在域1的PEP1.1。
实施的去中心化：一旦在某个域的一个PDP上决定了访问策略，那么在联邦中包含主体数据/资源的所有域内的实施必须自动进行，而不需要主体的进一步参与。每个相关域中的每个PEP的操作必须独立于同一域中或其他域中的其他PEP。

用于授权联合的合法信任框架：合法信任框架必须由联合中的所有域所有者达成一致，该框架定义PDPs和pep在传播和实施访问策略方面的一致行为。
在下一节中，我们将讨论UMA体系结构，它是联邦授权概念的一个体现。
（为了扩大服务规模，多年来，许多消费者领域的anp联合起来组成联盟，为其成员提供更广泛的集体服务。我们使用术语“认证联盟”来表示这种联盟安排。）

个人数据联合授权：UMA

用户管理访问（UMA）架构的目标是对分布在多个位置的“资源”（例如，个人数据、算法、断言）提供以个人为中心的控制，每个位置使用一个资源服务器作为RSP实体（图3b）。UMA的基本思想是，作为资源所有者（RO）的数据主体将在一个AZP实体上设置访问策略，并将访问策略自动传播到持有属于数据主体的资源（即数据）并由每个rsp独立执行的所有rsp。当请求方（RqP）寻求对受RSP实体保护的给定资源的访问时，请求方必须首先从AZP获得授权令牌，并将其与访问请求一起交付给RSP。

换句话说，UMA体系结构是前两节讨论的中介授权功能的一个体现，如图3b所示。2009年，Kantara计划开始开发UMA标准，2014年完成UMA 1.0规范，2017年发布2.0规范。在其十年的发展过程中，UMA的哲学与世界经济论坛中的许多数据隐私论述[1,4]以及GDPR的隐私和同意概念保持一致。

由于OAuth2.0框架[15]在社交媒体提供商之间的流行（已经支持低价值资源的共享，如照片和日历），UMA架构开始采用基本的OAuth2.0术语和技术构造，包括令牌结构和访问授权流。与经典的RBAC模型相比，OAuth2.0框架只识别其生态系统中的3个实体，存在一定的局限性。它们是客户端（通常理解为基于web的应用程序或移动应用程序）、授权服务器（如图3b中的授权提供者或AZP）和资源服务器（图3b中的资源服务提供者或RSP）。UMA采用这三个OAuth2.0实体作为初始设计。

（一旦在某个域的一个PDP上决定了访问策略，那么在联邦中包含主体数据/资源的所有域内的强制执行必须自动进行，而不需要主体的进一步参与。每个相关域中的每个PEP必须独立于同一域或其他域中的其他PEP进行操作。）

然而，除此之外，在UMA规范[13]的1.0版本中，UMA还引入了请求方（RqP）和资源所有者（RO）作为数据主体（数据所有者）。这些增加使UMA与前面讨论过的易于理解的RBAC模型保持一致[11,12]。UMA明确地将请求方定义为一个独立于客户端运营商的法律实体，而OAuth2.0只将客户端识别为一段软件。请求方与客户端-运营商的明确分离具有戏剧性的影响，因为它迫使人们认识到，在现实世界的场景中，总是有人（即个人或组织）正在部署或操作客户端应用程序软件——该软件正在访问位于资源服务器（RS）上的数据/资源。这意味着，由数据主体同意而产生的与隐私相关的法律义务适用于作为法律实体的双方参与人。

根据UMA协议流程（图5），这意味着请求方和客户端操作员都必须获得不同的授权令牌：

请求方必须由ANP进行身份验证，并被颁发身份验证令牌(图5，步骤3)。
在请求访问资源服务器(步骤6)之前，请求方和客户端运营商都必须从授权服务器获得单独的授权令牌(图5，步骤5)。

UMA架构被设计为支持跨多个域的联合授权（图6）。用于在授权服务器（作为PDP）和多个资源服务器（作为pep）之间传播访问策略的标准化数据结构是权限票证。UMA本身与策略表达式语法或语言无关，可以支持任何策略语法（例如XACML）。

图6说明了Alice作为资源所有者同时拥有RS1和RS2上的个人数据的情况。Alice只在一个位置设置访问策略，即AS2。请求方Bob正在寻求访问RS1处Alice的资源。UMA架构支持权限票证从原始域（域2）的AS2（PDP2）传播到强制域（域1）的RS1（PEP1）。签名的权限票证可以从域2直接从AS2传播到域1，也可以从AS2跨域传播到AS1，然后从AS1本地传播到RS1。这允许RS1强制执行Alice的访问策略，即使Alice随后可能脱机。

（如果正确理解，去中心化身份管理问题实际上是一个挑战，即实现个人对其数字特征的去中心化控制，这些数字特征通过个人数据、算法、对其的见解和断言来表达。我们称之为以个人为中心的身份管理。）

结论

在本文中，我们重点讨论了应用于各种数据控制器持有的个人数据的联邦授权模型的概念，以及个人对外部团体访问分布在这些控制者上的个人数据进行去中心化控制的重要性。在讨论数字身份管理时，我们采用了一种更具包容性的观点，不仅包括数字身份，还包括个人数据，应用于个人数据产生见解的算法，向外部实体传递各种见解的断言或声明结构，以及与断言相关联或绑定的数字身份。
如果正确理解，去中心化身份管理的问题实际上是一个挑战，即实现个人对其数字特征的去中心化控制，这些数字特征通过个人数据、算法、见解和断言来表达。我们称之为以个人为中心的身份管理。强调以个人为中心，意味着赋予个人为自己目的使用数据的能力，使价值更接近数据生产的源头，即个人。
我们回顾了中介认证和中介授权的概念，作为理解联邦认证和联邦授权的基础。讨论了用户管理访问体系结构，它实现了联合授权模型。UMA提供了以个人为中心的控制和策略设置功能，使个人可以更好地控制自己的个人数据。今天，许多个人数据分布在Internet上，这意味着用于以个人为中心的身份管理的联合授权模型是任何去中心化身份解决方案的关键组件。

致谢

我们感谢以下人士自2009年UMA成立以来对其工作的巨大支持：Eve Maler、Maciej Machulak、Domenico Catalano、George Fletcher、Mike Schwartz、Justin Richer、Sal D’agostino、Tim Reiniger、Mark Lizar、Colin Wallis、Sandy Pentland和Justin Anderson。
（今天，许多个人数据分布在互联网上，这意味着以个人为中心的身份管理的联邦授权模型是任何去中心化身份解决方案的关键组件。）

引用

[1] World Economic Forum, “Personal Data: The Emergence of a New Asset Class,” 2011; http://www.weforum.org/reports/ personal-data-emergence-new-asset-class.
[2] M. Madden, “Public Perceptions of Privacy and Security in the Post-Snowden Era,” Nov. 2014; http://www.pewinternet.org/2014/11/12/public-privacy-perceptions/.
[3] E. Maler, “Extending the Power of Consent with User-Managed Access: A Standard Architecture for Asynchronous, Centralizable, Internet-Scalable Consent,” Proc. 2015 IEEE
Security and Privacy Workshops, San Jose, CA, May 2015. DOI: 10.1109/SPW.2015.34.
[4] World Economic Forum, “Rethinking Personal Data: A New Lens for Strengthening Trust,” May 2014; http://reports.weforum.org/rethinking-personal-data.
[5] T. Hardjono and A. Pentland, “MIT Open Algorithms,” Trusted Data — A New Framework for Identity and Data Sharing, T.Hardjono, A. Pentland, and D. Shrier, Eds. MIT Press, 2019.
[6] The Jericho Forum, “Identity Commandments,” The Open Group, 2011; www.opengroup.org.
[7] A. Pentland, Social Physics: How Social Networks Can Make Us Smarter, Penguin Books, 2015.
[8] D. Reed and M. S***y, “Decentralized Identifiers (DIDs) v0.11,” W3C, Draft Community Group Report 09 July 2018; https://w3c-ccg.github.io/did-spec/.
[9] M. S***y, D. Longley, and D. Chadwick, “Verifiable Credentials Data Model 1.0,” W3C Candidate Rec., Mar. 2019; https://www.w3.org/TR/verifiable-claims-data-model.
[10] T. Hardjono, K. Erhardt, and A. Pentland, “Open Algorithms as Smart Contracts: Enabling Future Data Markets Using Blockchain Technology,” Proc. ICIS Wksp. Opportunities and Challenges of Blockchain Technology, Seoul, Korea, Dec. 2017.
[11] D. E. Bell and L. J. LaPadula, “Secure Computer Systems: Mathematical Foundations,” The MITRE Corp., Tech. Rep. MTR-2547 I ESD-TR-73-278 (Vol. I-II), Nov. 1973.
[12] D. F. Ferraiolo and D. R. Kuhn, “Role-Based Access Controls,” Proc. 15th National Computer Security Conf., Baltimore, MD, Oct. 1992, pp. 554–63; https://csrc.nist.gov/CSRC/media/Publications/conference-paper/1992/10/13/role- based-access-controls/documents/ferraiolo-kuhn-92.pdf.
[13] T. Hardjono et al., “User-Managed Access (UMA) Profile of OAuth2.0, Specification Version 1.0,” Kantara Initiative, Kantara Published Spec., Apr. 2015; https://docs.kantarainitiative.org/uma/rec-uma-core.html.
[14] E. Maler, M. Machulak, and J. Richer, “User-Managed Access (UMA) 2.0,” Kantara Initiative, Kantara Published Spec., Jan. 2017; https://docs.kantarainitiative.org/uma/ed/uma-core-2.0-10.html.
[15] D. Hardt, “The OAuth 2.0 Authorization Framework,” Oct. 2012, RFC 6749; http://tools.ietf.org/rfc/rfc6749.txt.