那些隐匿在光影里的“暗数据”

齐鲁晚报     2024年09月17日
  在网络世界里,及时处理“暗数据”,成为减少能耗、应对气候危机的重要组成部分。
  什么是“暗数据”?所谓“暗数据”,是指那些被收集、存储但未使用或分析的数据,以及那些一次性使用的数据。
  工作生活中,为了“以备不时之需”,我们往往会不假思索地把每一张照片、每一封邮件、每一个文档都存储下来,有的甚至重复存储。但很多数据被发送至“云端”后,我们几乎再也不会访问。
  就像漂浮在宇宙中的“暗物质”一样,这些“暗数据”的存储,占用了大量服务器的空间,既增加了电力消耗,也增加了碳排放。
  在一些公司所产生的数据中,有一半以上是为一次性使用而收集、处理和储存的。通常情况下,这些数据从未被重复使用过——它们可能是你保存在谷歌云或苹果iCloud上的多张近乎相同的图片,一张过时的企业表格,或者是来自物联网传感器的没有任何用途的数据。
  即使它们永远不会再使用,也会占用服务器的空间,需要耗费大量电力——这是一项巨大的能源成本,也是隐藏的沉没成本。
  在实现净零排放过程中,许多组织都在努力减少自己的碳足迹。
  然而,数据中心(占人类产生二氧化碳的2.5%)比航空业(占2.1%)的碳足迹更大。
  比如,一个有100名员工的数据驱动型企业,像保险公司、零售商店或银行,每天可能会产生2983GB的“暗数据”。如果将这些数据保留一年,产生的碳足迹,相当于从伦敦飞到纽约六次。
  一辆自动驾驶汽车,每秒就可以产生100GB数据,包含行驶轨迹、地理信息、车外影像等,其中就包含了大量“暗数据”。
  中国网信网曾发文指出,大数据时代,全人类每年要产生约10亿~20亿GB的新信息,相当于每人每年要产生250MB的信息。
  在这些数据中,约20%是结构化的,而80%则是非结构化或半结构化的“暗数据”。
  比如,用户散落在论坛、微博、微信或其他渠道发表的各种评价或吐槽,这些“暗数据”通常以文本、图像、声音、影视、表情包等形式存在。
  即使一些用户去世后,不再产生新数据,但他们留下的这些数据,仍会在未来持续消耗着能源。




上一篇 下一篇