数据仓库

    科技2025-06-08  10

    1、为什么学习数据仓库

    1、数据不兼容, 很难被整合

    2、战略决策需要数据的分析

    3、推荐系统 比如根据用户消费习惯推荐流量套餐

    2、什么是数据仓库

    数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合。

    2.1面向主题

    主题(Subject)是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念。每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象通俗来说,老板要分析啥,就要把所有涉及的内容全部包含进来。

    2.2集成

    集成性是指数据仓库中数据必须是一致的(过程是清洗,目的是集成) 数据仓库的数据是从原有的分散的多个数据库、数据文件和数据段中抽取来的; 数据来源可能既有内部数据又有外部数据。集成方法 统一:消除不一致的现象 综合:对原有数据进行综合和计算

    2.3非易失

    数据仓库中的数据是经过抽取而形成的分析型数据

    不具有原始性主要供企业决策分析之用执行的主要是‘查询’操作,一般情况下不执行‘更新’操作一个稳定的数据环境也有利于数据分析操作和决策的制订

    2.4随时间变化

    数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度

    不断增加新的数据内容不断删去旧的数据内容更新与时间有关的综合数据

    3、数据仓库和数据库的区别

    数据库是为捕获和存储数据而设计 数据仓库是为分析数据而设计

    Processed: 0.010, SQL: 8