数据决定人性:去中心化云存储的探索(未完成)

声明

这篇文章来源于Data Determines Humanity: An Exploration of Decentralized Cloud … — Hunter Lampson (mirror.xyz),作者是高盛公司的一个分析师。
本人的工作是觉得这篇博客很有趣,翻译整理了一下,如有侵权,请联系本人删除。

全球数据上限

今天,全球超过63%的人口,即50多亿人使用互联网,这一数字将继续以每年超过10%的速度增长。但云存储市场的增长速度更快。从2015年到2025年,全球数据世界——全球范围内创建、捕获、复制和消费的数据量估计将以58%的复合年增长率增长,到2025年,将创建、存储和复制超过180ZB的数据。如果你能堆叠足够的10tb硬盘驱动器,到2025年就能满足全世界的数据需求,那么这个堆叠简直可以登上月球。

图1所示:按年划分的全球数据上限大小。资料来源:Uygun & Döngül, 2021。

从经济角度来看,云存储市场在2021年的估值约为760亿美元;到2028年,它将达到3900亿美元(复合年增长率26.2%)。尽管经济出现了爆炸性增长,但云存储提供商的市场份额仍在继续巩固。截至第22季度,3家最大的云提供商——亚马逊网络服务(AWS)、微软Azure和谷歌云平台(我亲切地称之为三大云平台)——占据了65%的云计算市场份额。集中式云存储提供商拥有的权力使其网络效应、声誉、技术基础设施和资产负债表变得复杂,以至于新的竞争对手根本无法与之竞争。

存储方案类型

  • 本地存储
  • 集中式云存储(CCS)
  • 去中心化云存储(DCS)
本地存储和CCS提供商——三巨头(亚马逊、Azure、谷歌)以及阿里巴巴云、Box、iCloud等——都以其以位置为中心的存储方式为特点。这意味着信息存储和维护在单个位置(或少数几个位置),在单个数据库中管理,并由单个实体操作。前提和CCS解决方案都存在单点故障的风险。
CCS解决方案的激增需要对本地数据存储的经济效益进行历史回顾。起初,用户在自己的硬件上存储数据。这意味着数据存储和维护在实体希望存储它的相同物理位置(例如公司的现场数据服务器)。我把这个叫做第一阶段。

图2:数据存储采用的三个阶段。来源:Hunter Lampson.
随着云存储的网络效应使更便宜(而且通常更安全)的存储能力成为可能,消费者和公司转向集中式云(第二阶段)。CCS解决方案开发了云计算、API和其他SaaS产品,客户数量随之增长。尽管集中式解决方案是市场上最简单、最便宜、最有效的选择,但它们的基本局限性仍然不变:一个容器负责实体的100%数据。CCS解决方案是对内部解决方案的改进,但曾经经济上最优的方案已经变得昂贵和令人望而却步。今天,DCS供应商是市场上最便宜和最安全的存储解决方案。

CCS解决方案的关键弱点

  • 缺乏数据所有权
当用户将数据上传到CCS提供商时,他们不再拥有自己的数据。苹果有争议的决定(后来被撤销)扫描iCloud用户的照片就是一个完美的例子。当数据存储在特定硬件产品(iPhone、Mac等)上时,苹果拥有严格的隐私保护政策。但重要的是,当用户向iCloud上传一个字节的数据时,苹果认为这些数据是在他们的域内——而不再是用户的域。这意味着存储在本地的数据属于用户,而存储在云中的数据属于存储提供商。
  • 容易出现数据泄露和中断
在CCS供应商中,人们不难发现大量的数据泄露。Amazon、Azure和谷歌由于其单点故障结构都遭受了这种问题。
这些提供商的集中建设允许他们建立大型围墙,并提供相对于内部解决方案的更高级别的安全。与此同时,数据库变得越大、越集中,攻击者就越觊觎它。在CCS解决方案中,数据中断也很常见。可以在这里看到示例:Amazon、Azure、谷歌。
  • 倾向于审查制度
CCS供应商不仅会不受控制地丢失数据,而且还会故意删除数据。就在几周前,YouTube热门频道Bankless在没有任何警告、通知或理由的情况下被终止。拥有YouTube内容并将其存储在其云服务上的谷歌谢天谢地恢复了该频道,但谷歌和其他CCS提供商终止某些数据存在的能力对社会是有害的。
  • 高成本
也许CCS解决方案最关键的缺点是高昂的费用。尽管在过去的50年里,存储数据的成本以平均每年30.5%的速度下降,但CCS的价格在过去的7年里一直保持平稳。这是由于CCS供应商积累的网络效应。由于这些网络效应,三巨头已经开始主导云计算领域。随着它们共同的市场份额继续增长,三大巨头发挥着寡头垄断的作用,它们有能力操纵价格,并将新进入者拒之门外。

图3:随时间变化的数据存储成本。来源:Arweave Yellowpaper。

图4:在AWS、Azure、谷歌上随时间变化的数据存储成本。来源:AWS、Azure、谷歌、Hunter Lampson。

存储价格和存储成本之间存在差异的主要原因是由于CCS供应商目前保持的市场主导地位。DCS解决方案走了一条不同的道路。

DCS的解决方案

分布式云存储(DCS)建立在CCS的弱点之上,已被证明是数据存储领域的一种范式转变(第三阶段)。DCS解决方案通过匹配存储空间的供应和需求,使跨地理分布的节点集的空闲硬盘空间得以利用。这创造了一个更有效的市场,降低了成本,并消除了内部和CCS解决方案中存在的单点故障风险。DCS解决方案还将数据所有权交还给用户。

图5:按平台计算,每年存储1 GB的累计成本。资料来源:AWS、Azure、谷歌、Storj、SiaStats、Arweave Fees、File.app, Hunter Lampson。
虽然数据中心和存储节点的地理分布不是决定网络集中度的唯一因素,但它是一个有用的试金石。跨空间的节点分布也是决定数据复制、检索和保护级别的一个重要因素。一般来说,网络中的节点越多,它被检索的速度就越快,也就越不受自然灾害的影响(我们什么时候能把存储节点放在月球上?!)。因此,理解节点去中心化是有效云存储的前提。
与CCS解决方案相比,DCS解决方案的革命性在于其去中心化程度。运行在Sia、Storj、Filecoin和Arweave上的活跃节点比AWS、Azure和谷歌云管理的数据中心的总和还要多114倍。

图6:按业务计算的活动节点总数。资料来源:Filscan, Viewblock, Storj, SiaStats, Peterson 2015, Baxtel,谷歌,Sam Williams, Hunter Lampson。
鉴于Viewblock提供的统计将每个存储池视为单个存储节点,Arweave的节点数量很难量化。在一次离线对话中,Arweave的创始人Sam Williams告诉我,当前的59个存储池(根据Viewblock的数据)可能有数百甚至数千个节点支持它们。因此,Viewblock低估了实际的节点数量约10-100倍。出于这个原因,我尽量保守地使用` 500+ `作为节点数。同样重要的是要注意,活跃节点数量并不是去中心化的不完美度量。节点的绝对数量并不能告诉我们谁操作这些节点(以及每个实体操作多少个节点)。
借用Spencer Applebaum和Tushar Jain的说法,DCS服务之间的一个重要区别是基于合同的存储解决方案和永久存储解决方案之间的区别。简单地说:今天市场上所有的DCS服务都是基于合同的模型,只有Arweave例外。

基于合同的存储模型与永久存储模型

Filecoin、Sia和Storj采用的是基于合约的定价模型——目前CCS运营商也采用了同样的模型。基于合同的定价意味着用户为持续存储数据付费,类似于订阅付费。尽管存在细微差别,但Filecoin、Sia和Storj与现有的CCS提供商直接竞争。
另一方面,Arweave提供了一个永久存储模型。这意味着用户只需支付一笔预付费用,作为回报,他们的数据将被永久存储。通常,与其他DCS和CCS供应商相比,Arweave是懒惰和不精确的。Arweave与其竞争对手相比的基本特征是数据持久性。

图7:CCS和DCS解决方案的概念图。来源:Hunter Lampson。
仔细研究Filecoin、Sia和Storj,可以帮助我们更好地理解它们与CCS提供商和Arweave的异同。

图8:DCS解决方案的关键特点。来源:Filecoin、Storj、Sia、Arweave、CoinMarketCap、Crunchbase。

Filecoin

Filecoin于2020年10月推出其主网,是当今市场上采用最广泛、资金最充足的DCS项目。截至2022年7月12日,Filecoin的完全稀释市值约为11.9亿美元,达到历史最高水平123亿美元。本文作者Juan Benet是Protocol Labs的创始人兼首席执行官,该公司开发了Filecoin及其底层技术——星际文件系统(IPFS)。迄今为止,Filecoin已经筹集了2.582亿美元的资金,其中大部分来自2017年底的首次代币发行(ICO)。
要理解Filecoin,必须先了解IPFS,这是一种用于存储和检索数据的P2P分布式系统。IPFS是为了解决基于http的互联网的缺点而构建的,它使用内容寻址来对数据进行分类,这意味着信息是根据其内容而不是其位置来请求和交付的。这是通过为每个数据颁发内容标识符(CID)来实现的,CID是通过对每个文件的内容进行散列生成的,使其不可变。为了定位所请求的信息(由唯一的CID表示),IPFS使用分布式哈希表(dht),其中包含了存储与CID有关的内容的节点的网络位置。当用户从IPFS节点请求信息时,该节点将检查自己的散列表,以查看是否可以定位(然后检索)所请求的文件。如果节点不包含请求的信息,它可以从对等节点下载内容并将其交付给用户。在这个模型中,信息被复制到许多节点上,而不是在HTTP模型中存在的一个单一的、集中的位置。这消除了单点故障的风险,同时提高了检索速度,因为数据可以同时从多个节点检索。
IPFS是存储和传输数据的通信网络,Filecoin是建立在其上的经济系统。IPFS本身并不能激励用户存储其他人的数据:Filecoin可以。这是通过两种独特的证明机制完成的:复制证明(PoRep)和时空证明(PoSt)。PoRep只运行一次,以验证存储矿工是否有他们所说的内容。对于每一个链上的PoRep,都有10个SNARKs(简洁的非交互式知识论证),它们证明了合同的完成。另一方面,PoSt会持续运行,以证明随着时间的推移,存储矿工会为相同的数据分配存储空间。验证这个过程所需的链上交互是数据密集型的,因此Filecoin使用zk-SNARKs(零知识简洁的非交互式知识论证)来生成这些证明,将它们压缩到10倍。

Sia

在讨论的四个DCS协议中,Sia是第一个发布的,并于2015年6月发布。Sia由David Vorick和Luke Champine于2013年在HackMIT创立,拥有强大的用户吸引力,完全稀释的市值约为1.9亿美元,历史最高达到29.7亿美元。
Sia由2014年成立的星云实验室发起。Sia与Filecoin类似,它将上传的数据分成复合的部分(在本例中为片段),并将它们分散到全球各地的分布式主机上。与Filecoin不同,Sia通过不同的存储证明(PoS)机制实现这一点。这个证明要求主机随着时间的推移共享一小部分随机选择的数据。该证明被验证并存储在Sia区块链上,主机将获得Siacoin奖励。

Storj

与Filecoin和Sia一样,Storj自2018年10月推出以来获得了巨大的吸引力。Storj与Filecoin和Sia的区别在于,它不依赖区块链共识来存储数据。相反,Storj完全依赖纠删编码和卫星节点来存储数据,以增加数据冗余并减少带宽使用。Storj唯一使用的纠删编码意味着数据的持久性(数据在出现故障时仍然可用的概率)与扩展因子(可靠存储数据所需的额外成本)不是线性相关的。因此,在Storj上,更高的持久性并不需要成比例地增加带宽。考虑到节点波动(节点脱机(或离开网络)的速度),尽管会增加CPU运行时间,但从长远来看,纠删码可能会被证明是有价值的,因为存储和修复所需的磁盘空间和带宽更少。
Storj在网络架构和定价机制上也与Filecoin和Sia有所不同。在Storj中,定价由卫星节点、中间存储用户(包括应用程序)和存储节点共同决定。卫星节点负责协商价格和带宽利用率。因此,与其完全依赖自由市场活动,Storj的定价模型受制于中心化力量,因为卫星运营商代表着节点和终端用户之间潜在的中心化中介。
Storj还原生集成了Amazon S3,这意味着现有的Amazon S3用户可以迁移到Storj并使用基本功能,而无需更改他们的代码库。这可能会减少离开Amazon S3生态系统的摩擦。

Arweave

与Filecoin、Sia和Storj不同,Arweave提供永久数据存储。Arweave于2018年6月由首席执行官山姆•威廉姆斯和威廉•琼斯推出,截至2022年7月12日,其完全稀释的市值已达到7.26亿美元,达到28.8亿美元的历史最高水平。
Arweave寻求以一种分散的方式提供永久数据存储,只需一次性付费。这是通过Arweave的赋值机制实现的。考虑到过去50年数据存储成本每年下降30.5%,Arweave假设今天1美元/GB的存储购买力比未来1美元/GB的存储购买力更昂贵。这个delta使Arweave的捐赠池成为可能。“本金”是用户支付的前期费用,而“利息”是指以当前货币计价的购买力随时间的增长。Arweave的保守假设是每年存储价格下降0.5%,这使得捐赠池的长期可行性得以实现。
Arweave目前约3.85美元/GB的成本反映了数据存储的终端价值。从短期来看,Sia和Filecoin(甚至是三巨头)都更便宜。但从长远来看,Arweave会成为一个更明智的选择。即使在短期内,用户也会为其他人无法提供的东西支付额外的费用:数据持久性。对于一些文件来说,永久存储的成本是相对没有弹性的,因为一些文件(如nft)需要它。
Arweave由blockweave驱动,这是一种类似于区块链的数据结构,其中每个块都与前一个块和召回块相关联。召回块是任何先前挖掘过的块,而不是最近挖掘的块。因此,Arweave的结构不仅仅是将连续的区块链接在一起的链——它是一个将当前区块与先前挖掘的区块和另一个随机的区块(召回区块)链接在一起的组织。
为了挖掘一个新块,并获得挖矿奖励,挖矿者必须证明他们可以访问召回块。Arweave的访问证明(PoA)机制保证,对于每个新挖掘的块,也包括来自召回块的数据。这意味着要存储新数据,矿工必须同时存储现有数据。PoA还激励矿工在节点间平等地复制所有数据。当复制得不太好的区块被选择为召回区块时,能够访问它的矿工会在较少的矿工池中竞争相同的奖励。在其他条件相同的情况下,存储复制不太好的区块的矿工将随着时间的推移获得更大的奖励。
建立在blockweave之上的永久万维网与今天的万维网类似,但是永久的。Arweave的bockweave是永久网的基础层;永久web是与用户交互的层。由于Arweave是基于HTTP构建的,传统浏览器可以访问存储在网络上的所有数据,从而实现无缝的互操作。
  • 存储的数据
  • 节点分布
  • 搜索感兴趣的
  • 生态系统的力量
  • 需求方面的收入

存储的数据

需求是通过检查随时间推移的数据存储量直接衡量的,被认为是DCS提供商的主要KPI。仅从这个指标来看,Filecoin占主导地位;截至本文撰写时,Filecoin存储了超过90%的DCS数据圈,高于90天前的82.8%。

图9:DCS数据球存储比例。资料来源:Storj Stats, SiaStats, Viewblock, File. app, Hunter Lampson.
Filecoin不仅存储了最多的数据,而且增长最快。在过去的90天里,Filecoin平台上存储的数据增长了112%。













全部评论
期待后面的内容
点赞 回复 分享
发布于 2022-08-19 09:17 陕西

相关推荐

#牛客创作赏金赛#(新手C++)  c++的变量声明时都有固定的空间,偶尔做到可能会数据溢出的题目,我就想了个小办法,将亿位及以上的数字另开一个变量存储,本来是想用数组模拟逢十进一的,但是数组还没学会。int main(){int f=0;int a1,a2,b1,b2,c1,c2;cin >> a1 >> b1;a2 = a1 % 100000000;   //低位a1 = a1 / 100000000;     //高位b2 = b1 % 100000000;b1 = b1 / 100000000;//cout b1 = b1 * 11;b2 = b2 * 11;                                                     //运算if (b2 / 100000000 != 0)b1 += b2 / 100000000;b2 = b2 % 100000000;cout c2 = a2 - b2;c1 = a1 - b1;//cout                                                              //模拟进位while (c1 > 0 && c2 {c1 -= 1;c2 += 100000000;}//cout while (c1  0){c1 += 1;c2 -= 100000000;}//cout                                                   //准备输出格式if (c1 == 0){cout f = 1;}if (c1 > 0){cout cout f = 2;}if (c2 {cout cout f = 3;}//cout}就是这题 NC275421 第一天花2小时没做出来,后面才想到可能是空间不够,又花了一个半小时,而且局限性很大,做乘法只能乘4位数甚至是3位数。之后去网上学习了一下,发现有long long类型,秒了!这道题算是完美解决了,但是还有道题 NC275612 ,10的100次,为什么没有long long long ...那么,就只有一个办法了...python!启动!
点赞 评论 收藏
分享
10-02 14:56
东北大学 C++
点赞 评论 收藏
分享
评论
1
1
分享
牛客网
牛客企业服务