BIML 101 - ETL数据清洗 系列 - BIML 快速入门教程 - 序

news/2024/7/7 19:49:06

 BIML 101 - BIML 快速入门教程

做大数据的项目,最花时间的就是数据清洗。

没有一个相对可靠的数据,数据分析就是无木之舟,无水之源。

 

如果你已经进了ETL这个坑,而且预算有限,并且有大量的活要做;

时间紧,任务多,是不是有点菊花一紧的感觉。

 

多少次,你对着几个月前自己写的代码在挠头,

多少次,指着屏幕上别人写的代码目瞪口呆,心中默默数有多少头草泥马。WTF。

 

不管你是做数据仓库,还是做数据转换,数据集成等等,大量的重复性的工作令人乏味;

但是,如果没有好的设计和遵从一致的流程,后期的维护就是一个更大的坑。

 

BIML,

就是你的救星。

 

码农们应该都知道一个叫DRY的原则:Don't Repeat Yourself.

强调的是代码的复用性。用BIML的最重要的一个目的就是这个 - 减少重复性代码。

当然有些其他一些软件设计的原则,譬如SOLID,也适用。

 

BIML由Varigence公司开发,语言格式类似于HTML,用于商业智能和数据仓库开发,它能够生成兼容Visual Studio的SSIS包,这方便日后查看和修改。

 

基于BIML,Varigence公司还有其他版本的工具(https://www.varigence.com/Products),有些有高级功能,适合企业级的商业应用。例如,CI(continues integration),版本发布和管理等。 - 本文非安利文,请自行查阅。

 

开源版本的BIML: https://varigence.com/BimlExpress。

  

所需技能:

  1. 基本SQL,如:create table,select等
  2. 熟悉基本的html或者xml语法,非常简单
  3. 知道一丢丢的C#,变量,连接数据库,读表
  4. SSIS的一些组件

 

本系列会从基本的创建biml入手,通过实战案例,创建一个完整的数据流。

 

其它付费商业软件由:Wherescape RED/3D, Informatica等。

 

注:

1)本系列可能稍微涉及详细的SSIS包管理和部署,但是详细的请参考别的文章。

2)本系列可能会涉及到一些数据仓库建模,星型,Data Vault等概念。

转载于:https://www.cnblogs.com/lizardbi/p/BIML101_BIML_INDUCTION_FOR_ETL_Datawarehouse.html


http://lihuaxi.xjx100.cn/news/235871.html

相关文章

Spring事务管理的底层逻辑—源码解析

本文代码为spring 5.1.2spring是如何控制事务的提交和回滚 加上Transactional注解之后,Spring可以启到事务控制的功能了,再正式执行方法前它会做一些操作,我们来看看 首先进入CglibAopProxy.class的intercept方法或者JdkDynamicAopProxy.clas…

堡垒机高危命令正则表达式

堡垒机可以设置高危命令阻断,防止操作人员误操作造成删库跑路。但是什么是高危命令,需要管理员通过配置正则表达式,进行命令匹配。 今天2021年8月6日先匹配最常见的删库跑路命令 rm -rf / ,以下几种表达式联合起来就可以阻断这类…

深入理解浏览器的缓存机制

一、前言 缓存可以说是性能优化中简单高效的一种优化方式了。一个优秀的缓存策略可以缩短网页请求资源的距离,减少延迟,并且由于缓存文件可以重复利用,还可以减少带宽,降低网络负荷。 对于一个数据请求来说,可以分为发…

(二)spring cloud微服务分布式云架构 - 整合企业架构的技术点

spring cloud本身提供的组件就很多,但我们需要按照企业的业务模式来定制企业所需要的通用架构,那我们现在需要考虑使用哪些技术呢? 下面我针对于spring cloud微服务分布式云架构做了以下技术总结,希望可以帮助到大家: …

2542513 - AS Java fails to start - Initialization of destination UMEBackendConnection failed

今天发现SAP As Java 开发机无法启动,根据 Note 2542513 处理该问题并记录。 今天发现SAP EPBPM服务器不能正常启动,jstart.exe进程显示 some process running 的黄灯状态。重启也不管用。到SAP官网 https://wiki.scn.sap.com/wiki/display/ASJAVA/%28J…

How to list/dump dm thin pool metadata device?

2019独角兽企业重金招聘Python工程师标准>>> See: How to create metadata-snap for thin tools using? I dont think LVM provides any support for metadata snapshots so you will need to drive this process through dmsetup. The kernel interface is descri…

maven项目中 把依赖的jar包一起打包

2019独角兽企业重金招聘Python工程师标准>>> Maven1-HelloWorld简单入门 使用Maven Assembly plugin将依赖打包进jar 1、pom.xml 配置文件&#xff1a; 在pom.xml配置文件中添加 <build> <plugins> <plugin> <artifactId>maven-assembly…

Ansible06-管理roles

目录 一、roles的结构 二、RHEL系统roles 三、创建角色 四、部署角色 随着 playbook 的增多&#xff0c;有很多代码重用的机会。ansible 提供了一种方式——roles&#xff0c;只需将 roles 从一个项目复制到另一个项目&#xff0c;然后用 play 调用即可实现代码重用。这里的…