MetaSpore 是一个一站式端到端的机器学习开发平台,提供从数据预处理、模型训练、离线实验、在线预测到在线实验分桶 ABTest 的全流程框架和开发接口。
MetaSpore 由元灵数智团队开发,欢迎关注我们的公众号和微信交流群。
Gitee MetaSpore 是本仓库镜像。
- 2022-06-10:基于MetaSpore on AlphaIDE快速落地风控算法
- 2022-05-18:AlphaIDE - 新一代AI开发生产平台开放内测
- 2022-05-07:多模态语义检索 | 基于 MetaSpore 快速部署 HuggingFace 预训练模型
- 2022-04-12:重磅!开源湖仓平台 LakeSoul 设计理念详解
- 2022-04-02:揭秘!新一代一站式机器学习平台MetaSpore的设计理念
- 2022-03-31:重磅!基于新一代MetaSpore平台快速搭建工业级推荐系统
MetaSpore 具有如下几个特点:
- 一站式端到端开发,从离线模型训练到在线预测和分桶实验,全链路统一的开发体验;
- 深度学习训练框架,兼容 PyTorch 生态,支持分布式大规模稀疏特征学习
- 训练框架与 PySpark 打通,无缝读取数据湖和数仓上的训练数据;
- 高性能在线预测服务,支持神经网络、决策树、Spark ML、SKLearn 等多种模型;支持异构计算推理加速;
- 在离线统一特征抽取框架,自动生成线上特征读取逻辑,统一特征抽取逻辑;
- 在线算法应用框架,提供模型预测、实验分桶切流、参数动态热加载和丰富的 Debug 功能;
- 丰富的行业算法示例和端到端完整链路解决方案。
我们提供了预编译的 Python 安装包,可以通过 pip 安装:
pip install metaspore
支持 Python 的最低版本为 3.8。
运行 MetaSpore 离线训练,还需要 PySpark 和 PyTorch。可以通过 pip
命令进行安装:
pip install pyspark
pip install torch==1.11.0+cpu -f https://download.pytorch.org/whl/cpu/torch_stable.html
这两个依赖没有作为 metaspore wheel 的默认依赖,这样方便用户选择需要的版本。
Spark 官方打包的 PySpark,没有包含 hadoop-cloud 的 jar 包,无法访问 S3 等云存储。我们提供了一个打包好 S3 客户端的 PySpark 安装包,可以从这里下载后安装:
pip install pyspark-3.1.2.265f9ad4ee-py2.py3-none-any.whl
关于如何设置 S3 等云存储的访问,请参考 配置 MetaSpore 离线训练 S3 访问权限
我们提供预编译好的 Docker 镜像。
docker pull swr.cn-southwest-2.myhuaweicloud.com/dmetasoul-repo/metaspore-serving-release:cpu-v1.0.1
docker pull swr.cn-southwest-2.myhuaweicloud.com/dmetasoul-repo/metaspore-serving-release:gpu-v1.0.1
Serving 服务的启动方法见 运行 Serving 镜像
关于使用上的问题,可以在 GitHub Discussion 中发帖提问,也可以通过 GitHub Issue 反馈。
可以通过 [email protected] 给我们发送邮件。
欢迎关注 元灵数智 公众号,我们会定期推送关于 MetaSpore 的架构代码解读、端到端算法业务落地案例分享等干货文章:
欢迎扫码加入 MetaSpore 开发者社区微信群,随时交流 MetaSpore 开发相关的各类问题:
如果群二维码失效,请关注公众号后点击下方 "了解我们-用户交流" 获取最新微信群二维码。
MetaSpore 是一个完全开源的项目,以 Apache License 2.0 协议发布。欢迎参与使用、反馈和贡献代码。