精通Python及Pandas、NumPy等数据分析库,具备FastAPI框架开发RESTful API的经验。熟悉大数据生态,掌握Hadoop、Spark,能利用Java/C++进行基础开发。在海康威视实习期间,作为核心成员参与了企业级多模态数据库系统研发,独立负责音频、视频、PDF等非结构化数据的结构化解析模块。通过集成OCR和CV模型,实现文件图片内容的智能识别,使检索准确率提升了30%,并利用Minio完成了S3对象存储。熟悉Linux环境、MySQL及向量数据库操作。
企业级多模态数据库系统研发
作为核心开发人员,参与研发企业级多模态数据库系统,负责非结构化数据的结构化解析加载模块、用户权限管理体系及前端页面设计。针对音频、视频、PDF、HTML、PPTX等复杂文档,自研多格式Loader,集成OCR技术与CV模型实现图片内容的智能识别,结合Minio完成S3对象存储。通过优化Embedding流程,使检索召回率提升10%、准确率提升30%、检索耗时减少15%。同时基于EgretDB向量数据库,设计实现完整的用户权限管理体系,采用bcrypt加密用户密码、JWT认证和RBAC权限控制模型,保障平台数据安全。项目基于FastAPI构建RESTful API服务,涉及Python、Java、向量数据库、机器学习等技术栈。