该项目主要是对数据仓库元数据进行采集、管理,同时也支持业务模型元数据,指标元数据等,本身提供一个数据查询平台数据地图,并也为其他应用提供元数据支持。采集的元数据主要包括表字段信息,血缘,权限,业务关联信息等,从metastore、hivehook、离线调度平台、ranger采集到整合到后端数据库存储,进行了统计与分类,并在数据地图中的展示搜索。项目使用python/django/celery实现,存储用的mysql和redis,本人在项目中为主要后端开发,项目为从零搭建。项目中的元数据采集使用celery的定时任务,采用新表和全量两种同步策略,也提供手动同步的方式。具体可以参考我的原创博客讲讲元数据与元数据采集
该项目是包括一个sql即时查询工具,包括直连数据库和模型元数据的拖拉敏捷分析,包括一个报表系统。项目分两个大模块,查询模块和图表后端模块;查询模块专注于sql的生成、sql的解析优化,sql的执行,多种数据源的对接等,图表模块专注于图表配置,前端拖拽交互接口,外部对接,权限控制等,两个服务使用dubbo进行交互。本人为项目主要后端开发之一,主要参与图表模块,进行权限设计,查询交互;也部分参与查询模块,对hiveSql的解析进行了部分研究和优化(博客中主要分享了antlr实现解析的一些实现)。项目使用java/springboot/mybatis搭建,存储使用mysql,查询支持hive,presto,mysql等。
该项目一方面是对数据标准、数据码值进行定义、录入、管理和对外提供。另一块是数仓建模工具,通过表单,hql,execl等方式导入建表信息,提供ER图画图模块对导入表进行建模作图。建模的时候可以直接应用到数据标准和码值信息。项目使用java/springboot/mybatis搭建,存储使用mysql,本人为项目的后端开发,项目为从零搭建。
为各个产品编写打包的脚本,部署脚本,更新脚本等。通过搭建的平台使用可以直接将产品打包部署到机器上,可以更新该环境的代码,和查看环境中产品运行的状态。平台项目使用python/django构建,日常的各个脚本使用shell编写完成,同时在版本迭代有变更或依赖包有变动时实时更新。
搭建维护vpn平台使用openvpn实现,对接钉钉群完成在在群内获取验证码登录,并做登录记录和统计。
文档服务器和官网做日常维护和更新。
主要实现一些金融研报的策略,在开放平台完成回测。
搭建金融相关使用工具的平台,主要使用python/flask。