大数据综合实训平台

2022-05-31 泰迪智能科技 7684
分享到:

大数据综合实训平台包含数据整合与处理平台 大数据挖掘建模平台 大数据分析可视化平台 大数据采集平台,四个平台从数据的预处理到数据建模到最后数据的可视化,能让学生拥有完整的体验流程。

1.   数据整合与处理平台

大数据整合平台是一套ETL(Extract-Transform-Load)工具,能够实现将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,帮助教师与学生更高效、简便地将数据从业务系统迁移到数据分析数据库,并实现对数据的清洗、修改、计算、集成等处理,培养学生掌握数据迁移、整合的技能,达到与企业需求一致的效果。

整合平台特点.png


1.1 平台展示

整合平台展示图.png

图1-1 提供丰富的数据迁移与预处理功能


2.    大数据挖掘建模平台

Python数据挖掘建模平台统称为顶尖数据挖掘建模平台。其底层算法的是基于Python实现,面向高校数据挖掘相关专业课程教学的分析建模工具。平台使用JAVA语言开发,采用B/S结构,用户可通过浏览器进行访问。Python数据挖掘建模平台操作简单、便捷,用户可在没有编程基础的情况下,通过拖拽的方式进行操作,完成数据输入输出、数据预处理、挖掘建模、模型评估、部署等环节,各环节组件通过流程化的方式连接,帮助学生在基础较差的情况下快速建立工程化思维。



2.1 平台展示

512ccb99c6695b49acac8eae6f57da9.png

图2-1 提供丰富的数据分析与挖掘算法、支持自定义Python算法

2.2 平台差异

平台差异.png


3.    大数据分析可视化平台

大数据分析可视化平台由广东泰迪智能科技有限公司精心打造,是一款适用于高校教学和各领域企业的零门槛可视化工具。能够解决高校数据分析与可视化类课程教学、实训问题,学生通过运用计算公式计算,构建新的数据类型,整体提高学生的数据分析能力,同时学生可通过配置管理属性设计图表展示类型,也可以通过修改源码进行实现修改,观察图表的变化,实现对代码的熟悉,由浅入深,提升可视化的水平。平台采用B/S结构,用户不需要下载客户端,可通过浏览器进行访问。用户可在没有ECharts编程基础的情况下,通过拖拽的方式进行操作。平台基于公司多年大数据展示的积累,自主设计并开发了种类丰富的模板,将数据信息的可视化完美呈现,操作方便快捷,功能、视效内外兼修。


3.1 平台展示


大数据分析可视化平台.png


4.     大数据采集平台

大数据采集平台是面向高校大数据相关专业课程教学与实训的工具。平台采用图形用户界面,通过输入网页信息,快速抓取网页上文本、链接、图片、视频、文档文件等各类型数据;将数据存储在数据库,通过平台能够轻松查看网页数据。不仅能够帮助学生快速了解数据采集规则流程,还能够帮助老师减少数据采集课程备课成本,使用平台现有功能清晰易懂的讲解数据采集规则,展现数据采集结果;还能够帮助其他专业学生解决编程基础弱、爬虫编写困难等问题,轻松抓取网页数据。

4.1 平台展示


采集平台.png

4.2 功能介绍

表1 功能列表

序号

功能模块

说明

1

采集工程

提供互联网公开网页数据采集功能。通过配置打开网页、点击元素、翻页循环、输入文本等多种网页浏览操作以及配置提取的数据字段,实现对不同类型、多页、多层级网页数据的采集。通过配置数据字段,实现对文本、链接、图片、视频、文档文件等结构和非结构数化数据的采集。通过配置采集任务性能,在整个采集过程实现数据的完整性与稳定性

2

计划任务

提供对采集工程的定时控制功能。通过预设单次采集时间,或是每天、每周、每月的采集时间,定时自动采集数据。支持同时对多个采集工程设置定时任务,根据需要对采集时间进行多重组合,灵活调度自己的采集任务

3

数据集

提供数据存储功能。将采集的数据储存在数据库,可在线预览数据,还可将数据下载至本地


大数据采集平台特色功能如下。

(1) 眼见即可采,满足各种采集需求。支持对不同类型、多页、多层级网页数据的采集,支持对结构和非结构数化数据的采集。

image.png 

大数据采集平台采集工程设置页

(2) 无需很强的编程技术.通过点击提取元素xpath,就可快速准确获取数据。

(3) 定时采集,灵活调度采集任务。通过预设单次采集时间,或是每天、每周、每月的采集时间,定时自动采集数据。还支持同时对多个采集工程设置定时任务。

(4) 将采集的数据储存在数据库中,通过爬虫任务不断积累数据,充实数据集。

 

4.3 功能介绍

大数据采集平台支持的课程与相关实训如表 2所示。

2 课程与相关实训

序号

课程

说明

1

校园网新闻公告信息采集

采集新闻标题、封面图、摘要、发布时间、发布单位、作者、访问量等内容

2

豆瓣读书小说类图书信息采集

采集书名、封面、作者、出版社、出版年、页数、定价、书号、评分、简介等内容

3

京东某商品评论数据采集

按时间采集商品评论数据