Python后端开发:精通Django、Flask、FastAPI等主流框架,熟悉RESTful API设计规范,具备高并发Web应用的性能优化经验。深入理解WSGI/ASGI协议,能够根据业务场景选择合适的技术架构。
数据处理与分析:熟练使用Pandas、NumPy进行数据清洗与预处理,掌握Matplotlib、Plotly等数据可视化工具。具备大规模数据处理经验,能够利用多进程/多线程技术提升计算效率。
数据库技术:熟悉关系型数据库(MySQL/PostgreSQL)的SQL优化和ORM使用,掌握Redis、MongoDB等NoSQL数据库的应用场景和最佳实践,具备数据库分库分表、读写分离的架构设计能力。
爬虫技术:精通Requests、Scrapy框架,熟悉XPath/CSS选择器和正则表达式,掌握动态网页数据抓取技术(Selenium/Playwright),具备反爬策略突破和代理IP池构建经验。
系统优化与部署:熟悉Docker容器化部署,掌握Nginx/Gunicorn/uWSGI的配置优化,具备CI/CD持续集成实践经验。了解Linux系统运维,能够进行性能监控和问题排查。
测试与代码质量:掌握unittest/pytest测试框架,践行TDD开发模式,熟练使用Git进行版本控制,注重代码规范和文档编写。
前沿技术探索:持续跟进Python 3新特性,对异步编程(asyncio)有深入理解,正在探索Python在AI领域的应用(TensorFlow/PyTorch基础)。
项目背景:某头部证券公司需要从海量研报、公告、新闻中自动提取关键实体(公司名称、高管姓名、产品名称、财务指标等),构建投研知识图谱,辅助分析师进行风险识别和投资决策
核心职责:担任AI技术负责人,负责NER算法设计与系统架构搭建
技术实现:
领域自适应NER模型:针对金融文本特点,基于BERT-BiLSTM-CRF架构设计领域自适应命名实体识别模型。针对金融文本中专有名词多、实体嵌套复杂、简写别名普遍等挑战,创新性地引入词汇增强机制和对抗训练策略,提升模型在金融领域的泛化能力
多源异构数据融合:构建分布式爬虫集群,定时采集上市公司公告、券商研报、财经新闻、监管处罚信息等10+数据源,日均处理文本量超200万篇
实体链接与消歧:针对识别出的实体,设计基于知识库的实体链接算法,解决“阿里巴巴”指代公司、“马云”指代人名等实体歧义问题。通过融入知识图谱嵌入(KGE)技术,实现同名实体的精准区分
关系抽取与知识推理:在NER基础上,结合远程监督和预训练模型,抽取实体间的语义关系(如“任职于”、“投资”、“控股”等),构建包含2000万+实体、1.2亿+关系的金融知识图谱
增量学习与持续优化:设计在线学习机制,支持通过人工标注反馈对模型进行增量更新,使模型能够快速适应新出现的实体类型和表达方式
难点突破:
解决金融文本中“ST股票”、“*ST”等特殊实体识别难题,通过引入自定义词典和规则约束,识别准确率提升15%
针对长文档中实体共指问题,设计跨句指代消解算法,将实体链接准确率从82%提升至91%
优化模型推理速度,通过模型剪枝和ONNX量化,将单篇文档处理时间从2.3秒压缩至0.4秒,满足实时处理需求
| 角色 | 职位 |
| 负责人 | python工程师 |
| 队员 | 产品经理 |
| 队员 | 后端工程师 |