AI平台搭建、大模型部署、训练

基本信息

案例ID:228777

技术顾问:jolinserda - 14年经验 - 用友

联系沟通

微信扫码,建群沟通

项目名称:AI平台搭建、大模型部署、训练

所属行业:人工智能 - 其他

->查看更多案例

案例介绍

背景介绍
随着互联网数据爆炸式增长以及算力发展,人工智能也伴随着迎来快速发展的时代,各种生成式大语言模型、agent智能体等技术的日趋成熟,AI赋能业务已成当前的一种趋势。
技术架构
AI系统包括AI开发平台(面向研发人员),AI应用系统(主要面向用户)。AI开发平台的输出比如推理服务可以对业务进行赋能;AI应用系统是通过集成现有成熟技术对业务直接赋能。AI开发平台的核心模块包括数据管理(采集、清洗、标注等),模型的开发与训练,算法部署,镜像管理,任务管理等;AI应用系统核心模块包括对话(底层对接各种大模型,包括私有化部署的或者saas等)、图创(包括stablediffusion、flux、混元等)、知识库管理等。
AI开发平台采用分层架构,主要包括数据层、模型层,服务层,数据层支持多源异构数据的采集(Kafka)、存储(HDFS/对象存储)和预处理(清洗、标注、归一化),MySQL管理元数据、MinIO存储非结构化数据、HBase处理结构或者时序数据; 模型层主要集成jupterlab,通过pyspark等插件进行结构化数据处理,通过内存tensorflow、pytorch等,支持模型的训练;服务层主要包括模型服务化(API封装)、微服务治理等,基于K8s的容器编排、RESTful API网关,支持模型推理服务部署。
AI应用系统根据不同功能模块拆分多个微服务,技术架构上使用SpringCloud全家桶进行微服务的治理与管理,对接的大模型除了云厂商提供的saas接口外,出于数据安全考虑自己也私有化部署一系列的大模型,
比如deepseek-r1,deepseek-v3,qwen2.5-14b, qwen2.5-vl-32b(多模态模型), stablediffusion等,部署使用的主要推理框架有vllm和sglang等,其中deepseek-v3使用8台服务器,每台8张h20显卡,总计64张h20,使用sglang集群方式进行部署,提供高并发、高性能的服务。
项目职责
1、 主导AI平台的整体架构设计,包含需求分析、技术选型、硬件与软件系统规划,确保系统的高性能、可扩展性与高可用性
2、 搭建AI基础设施,包括计算平台、数据处理管道及AI模型训练/部署环境
3、 深入业务场景,分析行业需求,制定AI驱动的技术解决方案,提升业务效率与产品体验

相似案例推荐

其他人才的相似案例推荐

发布任务

企业点击发布任务,工程师会在任务下报名,招聘专员也会在1小时内与您联系,1小时内精准确定人才

微信接收人才推送

关注猿急送微信平台,接收实时人才推送

接收人才推送
联系需求方端客服
联系需求方端客服