大数据人工智能科研平台

问题与挑战

费时费力
搭建大数据人工智能分析平台费时费力
消耗研究工作外太多精力
资料分散繁杂，协调困难
数据资源、分析资料分散
协调管理工作麻烦
工作重复，繁琐
重复的编程工作繁琐耗时
大量的算法需要研究和适应

产品方案

一站式平台，即开即用的分析环境
用户可以高效地完成数据管理、编程分析、模型训练、模型管理、资源管理、科研项目管理等工作。

计算引擎

运用云计算技术、Docker技术、资源调度引擎技术，根据物理资源配置为客户搭建高可用计算引擎

环境

可提供Spark/Flink伪分布式、集群模式等不同的集群环境，可提供物理机、虚拟机、容器等不同的载体系统环境。
能力

支持主流的Nvidia/AMD图形计算卡，可提供物理接入、passthrough、vGPU等不同的计算资源分配方式。

集成环境

解放科研团队搭建复杂繁琐的科研环境

支持工具支持语言

在web端即开即用使用Eclipse、Pycharm 开发环境，使用Jupyterlab 便捷编程环境。支持Python 、Java、Scala和 R。
大数据平台支持能力

集成大数据框架MapReduce/Spark/Flink等，弹性的算力调度，可单点或集群调度。

人工智能平台支持能力

集成机器学习引擎TensorFow/Pytorch 等，可按需部署、动态调度。
支持多种数据库数据治理支持能力

集成多种数据库HDFS、Hbase、Hive、Redis、Mysql等，以及CSV、Excel文件存储。集成数据治理工具kettle，数据治理库pandas、numpy等。

开发工作台

利用高性能分布式云计算资源，web端即开即用，离线训练。提高计算效率，释放个人PC

Eclipse、Pycharm 开发环境
JupyterLab 便捷编程环境

（支持Python 、Java、Scala和 R）

核心功能

全流程项目管理体系
一站式科研工作平台
多语言核心集成开发
跨环境数据实时流转

web VNC桌面IDE开发环境
JupyterLab web开发环境
Kettle ETL数据治理
STATA&SAS&MATLAB统计
分析工具集

大数据平台集群计算环境
人工智能集群计算环境
GitLib代码资源管理
Harbor镜像资源管理

WebSSH Terminal虚拟终端
GPU切片资源管理
系统资源占用实时监控
TensorFlow&PyTorch多机
多卡分布式训练
Yaml镜像发布管理

行业参考数据集
Docker计算资源隔离独占
科研资料分级共享
个人数据交换共享平台

数据可视化创新平台
Python算法组件化
Python Matplotlib可视化组件库
拖拽式人工智能工作流

特点与性能

大数据平台和人工智能集群计算环境

包括Spark、Flink、Hadoop、TensorFlow、PyTorch集群计算环境

计算资源管理系统

基于Docker虚拟化容器技术，提供独立的用户工作空间，以及对CPU、GPU、内存等系统计算资源隔离独占的管理机制

数据资源管理系统

包括对数据的分类、引用、存储、共享等基础模块，以及数据跨平台流转的管控机制

多类型IDE开发环境

基于noVNC Web桌面加载技术，实现“零配置”、“开箱即用”的编程开发体验，支持包括Eclipse、PyCharm、IDEA等常用IDE开发环境，开发环境默认集成了Matplotlib、Pandas、Numpy等常用科学计算基础类库，以及TensorFlow、PyTorch等常用人工智能基础类库

多语言核心Web工作台

支持包括Python、R、Java、Scala等常用大数据开发编程语言

ETL数据治理工作台

支持基于Kettle环境对多种类型数据和数据库进行数据抽取、数据转换和数据加载等治理操作

数据可视化系统

包括基于Matplotlib构建的Python可视化组件库，以及基于Echarts构建的HTML可视化组件库

项目协作管理系统

支持以项目的形式管理开发过程，包括项目成员、项目数据、项目文档，以及对开发代码的拉取、推送、克隆、同步等代码资源版本管理

数据统一管理

数据、资料、代码按个人、团队分开管理，通过数据存储机制和GitLab代码管理机制，打通多开发环境一致管理。

数据集与算法库

提供多个行业的数据集，和常用的统计分析算法、数据治理算法、机器学习算法，较少重复的编程工作。

数据集
提供交通、社交媒体、舆情、风电、钢铁、制造加工、医疗健康等多个行业数据。
算法库
提供基于Jupyter文件格式和Python文件格式的算法，包括统计类、数据分析类、机器学习类。

资源实时监控

提供整体和训练任务的资源监控分析，包括存储、CPU、GPU、内存等多个运行指标。