背景介绍
随着互联网数据爆炸式增长以及算力发展,人工智能也伴随着迎来快速发展的时代,各种生成式大语言模型、agent智能体等技术的日趋成熟,AI赋能业务已成当前的一种趋势。
技术架构
AI系统包括AI开发平台(面向研发人员),AI应用系统(主要面向用户)。AI开发平台的输出比如推理服务可以对业务进行赋能;AI应用系统是通过集成现有成熟技术对业务直接赋能。AI开发平台的核心模块包括数据管理(采集、清洗、标注等),模型的开发与训练,算法部署,镜像管理,任务管理等;AI应用系统核心模块包括对话(底层对接各种大模型,包括私有化部署的或者saas等)、图创(包括stablediffusion、flux、混元等)、知识库管理等。
AI开发平台采用分层架构,主要包括数据层、模型层,服务层,数据层支持多源异构数据的采集(Kafka)、存储(HDFS/对象存储)和预处理(清洗、标注、归一化),MySQL管理元数据、MinIO存储非结构化数据、HBase处理结构或者时序数据; 模型层主要集成jupterlab,通过pyspark等插件进行结构化数据处理,通过内存tensorflow、pytorch等,支持模型的训练;服务层主要包括模型服务化(API封装)、微服务治理等,基于K8s的容器编排、RESTful API网关,支持模型推理服务部署。
AI应用系统根据不同功能模块拆分多个微服务,技术架构上使用SpringCloud全家桶进行微服务的治理与管理,对接的大模型除了云厂商提供的saas接口外,出于数据安全考虑自己也私有化部署一系列的大模型,
比如deepseek-r1,deepseek-v3,qwen2.5-14b, qwen2.5-vl-32b(多模态模型), stablediffusion等,部署使用的主要推理框架有vllm和sglang等,其中deepseek-v3使用8台服务器,每台8张h20显卡,总计64张h20,使用sglang集群方式进行部署,提供高并发、高性能的服务。
项目职责
1、 主导AI平台的整体架构设计,包含需求分析、技术选型、硬件与软件系统规划,确保系统的高性能、可扩展性与高可用性
2、 搭建AI基础设施,包括计算平台、数据处理管道及AI模型训练/部署环境
3、 深入业务场景,分析行业需求,制定AI驱动的技术解决方案,提升业务效率与产品体验