读数据湖仓02数据抽象

news/2024/9/28 7:24:31

1. 不同类型的数据

1.1. 不同类型的数据在存储方面有各自的特性,这些特性极大地影响了数据在数据湖仓中的存储和使用方式

1.2. 结构化数据

  • 1.2.1. 在企业等组织中,只有少量的数据是结构化数据

  • 1.2.2. 结构化数据是基于事务的数据,是组织日常业务的副产品

1.3. 文本数据

  • 1.3.1. 存在于许多地方,如合同、电子邮件、电话交谈、医疗记录等

1.4. 机器生成的模拟/物联网数据

  • 1.4.1. 这类机器包括摄像头、无人机、手表、闹钟、车辆等

  • 1.4.2. 由机器生成的数据无处不在

2. 数据量

2.1. 在组织中,对于不同类型的数据有不同的度量维度

2.2. 最重要的维度是数据量,而存储和管理不同数据量所使用的技术也各不相同

2.3. 与文本数据相比,结构化数据的数据量相对较小

2.4. 由机器生成的数据的数据量要远远超过文本数据的数据量

3. 数据的业务价值

3.1. 仅仅有大量的数据并不意味着所有的数据都具有业务价值

  • 3.1.1. 有些数据的业务价值很高

  • 3.1.2. 有些数据的业务价值则相对较低

3.2. 由机器生成的模拟/物联网数据

  • 3.2.1. 只有一小部分具有巨大的业务价值

  • 3.2.2. 大部分由机器生成的数据都是机械式的记录,它们很少或根本没有业务价值

    • 3.2.2.1. 如果有一天车床由于异常导致无法正常工作,那么我们需要高度关注该车床当天生成的数据

    • 3.2.2.2. 车床在工作过程中生成的有用数据的比例非常低

4. 数据的访问概率

4.1. 数据的访问概率与其蕴藏的业务价值密切相关

  • 4.1.1. 数据被访问的概率集中在有业务价值的数据中

4.2. 数据湖仓中数据的访问概率与数据的业务价值呈正相关

4.3. 将不常被访问的数据与访问概率较高的数据存储在同一个地方是没有意义的,应该将其存储到不同的数据存储器中

4.4. 将不同类型的数据存储在一起不仅会影响存储器的性能、增加成本,而且会降低数据分析工程师处理数据的效率

  • 4.4.1. 将访问概率较高的数据与访问概率较低的数据存储在数据湖仓中的同一位置并不明智

4.5. 在对数据进行分隔存储时,我们需要考虑是否检索存储在大容量存储器中的数据

  • 4.5.1. 需要考虑将数据存储到大容量存储器中后,在未来出现未知需求时,我们能否查找和分析已存入大容量存储器中的数据

  • 4.5.2. 在大容量存储器中找到所需的数据后,就可以很容易地将该数据存储到高性能存储器中

5. 数据降级

5.1. 随着时间的推移,所有类型的数据都会发生数据降级(Data Degradation)

5.2. 数据的访问概率会随着时间的推移而降低

5.3. 存储时间越久的数据,对解决当前问题有帮助的概率就越低

6. 基于大容量存储器的数据归档机制

6.1. 随着时间的推移,数据的访问概率和业务价值都会降低,为了提高数据的存储能力,将大容量存储器作为归档数据的载体是必要的

6.2. 数据被存储在归档存储区,当需要用到相关数据时,可以在归档存储区进行检索

6.3. 如果数据归档处理得当,那么几乎不需要在归档存储区中检索数据

7. 数据抽象

7.1. 数据抽象是数据湖仓的基础,它是许多依赖企业数据的应用程序的基础设施

  • 7.1.1. 正确的数据抽象使数据湖仓中的各方可以方便地访问和使用数据,也能使数据更易于理解

7.2. 数据抽象(Data Abstraction)是一种处理大量复杂数据的非常有用且必要的方法

7.3. 人们在日常生活中经常使用抽象的方法来处理规模庞大且复杂的事物

7.4. 使用抽象的方式引用对象比单独提及每个对象更简便

7.5. 数据类型不同,抽象模式和方法也不同

  • 7.5.1. 结构化数据通过数据模型进行抽象

  • 7.5.2. 文本数据通过本体(Ontology)和分类标准进行抽象

  • 7.5.3. 模拟/物联网数据通过蒸馏算法进行抽象

7.6. 经过初步观察,可以发现,数据模型和本体似乎是一回事

7.7. 这两种抽象类型之间也存在一些重要且明显的区别

  • 7.7.1. 数据模型面向内部,着眼于组织的内部运行

  • 7.7.2. 本体面向外部,用于描述外部世界

  • 7.7.3. 数据模型描述的数据可在必要时进行更改

  • 7.7.4. 本体所抽象的文本则不能更改

  • 7.7.5. 数据模型所使用的数据是有限的

  • 7.7.6. 文本以及文本所依据的外部世界的描述却不是有限的

    • 7.7.6.1. 外部世界可以永远存在

7.8. 数据模型和本体是对数据的抽象,而蒸馏算法则是对处理过程的描述

7.9. 基础数据中还有另一种重要的抽象概念,即数据在组织流程中流动时对数据血缘的抽象

  • 7.9.1. 数据是作为事务的一部分被采集的

  • 7.9.2. 数据一旦被采集,就会与其他同类数据汇集在一起

  • 7.9.3. 数据到达用于分析处理的位置后,分析人员需要全面了解数据经历的整个过程,只有这样他们才能成功进行分析处理

8. 结构化数据模型

8.1. 实体关系图(Entity Relationship Diagram,ERD)

  • 8.1.1. 实体关系图描述了组织的主要主题领域及实体之间的关系

8.2. 数据项集(Data Item Set,DIS)

  • 8.2.1. 数据项集则将实体扩展为其组成部分,包括特定实体的键、属性以及数据项集中实体的从属数据

8.3. 数据库模式(Database Schema)

  • 8.3.1. 数据库模式是数据项集的镜像,它描述了数据的物理属性、索引和唯一键值等特征

  • 8.3.2. 只是在数据项集的基础上增加了一些细节

8.4. 数据模型的不同组成部分是相互关联的,实体关系图中的每个实体都有一个对应的数据项集,并且每个数据项集都有一个对应的数据库模式

8.5. 数据模型通常不包括派生数据(Derived Data)或汇总数据(Summarized Data),仅包含粒度数据(Granular Data)

8.6. 数据模型的元素可用于为数据模型内部的数据提供上下文情境

9. 本体和分类标准

9.1. 本体是一组相关的分类标准

  • 9.1.1. 本体是无限的,创建本体是为了满足特定群体的需求

    • 9.1.1.1. 本体的元素可以无限扩展
  • 9.1.2. 本体中的每个分类标准都是独一无二的

  • 9.1.3. 第一种类型的本体是通用的,适用于任何主题

    • 9.1.3.1. “我喜欢……”

    • 9.1.3.2. “我爱……”​

  • 9.1.4. 第二种类型的本体是针对某一学科的

    • 9.1.4.1. 医生有医学术语

    • 9.1.4.2. 律师有法律术语

    • 9.1.4.3. 建筑工人有建筑术语

  • 9.1.5. 第三种类型的本体是针对某个组织特定术语的本体

    • 9.1.5.1. 某家石油公司会使用一些只在其内部使用的术语

9.2. 分类标准是对相似事物的分类

  • 9.2.1. 每个分类标准中的元素都与其他分类标准中的元素存在着某种关系

  • 9.2.2. 分类标准中的每个元素都与分类标准的一般值有着相同的关系

  • 9.2.3. 分类标准用于对同类对象进行分类

  • 9.2.4. 分类标准是用来描述外部世界的

  • 9.2.5. 分类标准是一种固定的文本抽象,不会随意改变

10. 蒸馏算法

10.1. 从大量模拟/物联网数据中蒸馏有用的数据

10.2. 蒸馏算法的形式多种多样,如何选择取决于模拟/物联网数据自身的业务价值和最终业务价值之间的差异

10.3. 随着时间的推移,蒸馏算法也会随条件的变化而改变

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/65639.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

结对项目-实现一个自动生成小学四则运算题目的命令行程序

这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/CSGrade22-34这个作业要求在哪里 结对项目 - 作业 - 计科22级34班 - 班级博客 - 博客园 (cnblogs.com)这个作业的目标 实现一个自动生成小学四则运算题目的命令行程序成员 3122004742 李思危3122004754 许佳钒github…

Paper Reading: Imbalanced ensemble learning leveraging a novel data-level diversity metric

为了解决基于现有多样性度量的学习复杂性较高的问题,本文提出了一种新的数据级多样性度量 IED。它能够直接基于训练数据集度量多样性,而不需要训练分类器,同时本文也设计了两种基于最优实例配对和贪婪实例配对的 IED 计算方法。在此基础上,本文设计了一种不平衡集成学习模型…

Git 分支本质及与 commit、HEAD、tag 的关系

基于: Git - Git 是什么? Git - 分支简介 Git - 打标签快照 在介绍 Git 分支前,需要知道什么是 commit 对象,介绍 commit 对象前,需要先了解 Git 保存数据的方式。Git 直接记录快照,而非差异比较。 从概念上来说,其它大部分版本控制系统(包括 Subversion 和近似工具)以…

深度讲解-互联网算法备案指南和教程

随着人工智能和大数据技术的迅猛发展,互联网算法在内容推荐、用户画像、智能客服等领域发挥着越来越重要的作用。然而,算法的广泛应用也带来了潜在的安全风险和合规挑战。为了规范互联网算法的开发与应用,国家互联网信息办公室等相关部门发布了《互联网算法备案管理规定》,…

Git 分支本质及与 commit、HEAD、tag 之间的关系

基于: Git - Git 是什么? Git - 分支简介 Git - 打标签快照 在介绍 Git 分支前,需要知道什么是 commit 对象,介绍 commit 对象前,需要先了解 Git 保存数据的方式。Git 直接记录快照,而非差异比较。 从概念上来说,其它大部分版本控制系统(包括 Subversion 和近似工具)以…

k8s 分布式存储平台 -- Longhorn

目录一、什么是 Longhorn二、架构设计1、工作原理2、工作流程3、基于微服务设计的优势三、安装1、安装要求2、使用 Longhorn 命令行工具(验证方式一)3、使用环境检查脚本(验证方式之二)3.1、安装 jq3.2、运行脚本4、安装 open-iscsi4.1、SUSE 和 openSUSE4.2、Debian 和 Ub…

全网最适合入门的面向对象编程教程:53 Python 字符串与序列化-字符串与字符编码

在 Python 中,字符串是文本的表示,默认使用 Unicode 编码,这允许你处理各种字符集,字符编码是将字符转换为字节的规则,常见的编码包括UTF-8、UTF-16和ASCII。全网最适合入门的面向对象编程教程:53 Python 字符串与序列化-字符串与字符编码摘要: 在 Python 中,字符串是文…

【基础岛第3关】浦语提示词工程实践

[to2024-09-25 18:32:11 星期三c] 案例描述 0、前期准备 创建开发机 0.1 环境配置创建虚拟环境并激活创建虚拟环境conda create -n langgpt python=3.10 -y conda activate langgpt 2. 安装必要的库 # 安装一些必要的库 conda install pytorch==2.1.2 torchvision==0.16.2 torc…