猿急送>

上海产品经理兼职程序员

ID：415355

杨雪蕾有团队

python工程师

公司信息：
无

工作经验：
1年

兼职日薪：
600元/8小时

兼职时间：
下班后
周六
周日

所在区域：
上海
虹口

技术能力

Python后端开发：精通Django、Flask、FastAPI等主流框架，熟悉RESTful API设计规范，具备高并发Web应用的性能优化经验。深入理解WSGI/ASGI协议，能够根据业务场景选择合适的技术架构。

数据处理与分析：熟练使用Pandas、NumPy进行数据清洗与预处理，掌握Matplotlib、Plotly等数据可视化工具。具备大规模数据处理经验，能够利用多进程/多线程技术提升计算效率。

数据库技术：熟悉关系型数据库（MySQL/PostgreSQL）的SQL优化和ORM使用，掌握Redis、MongoDB等NoSQL数据库的应用场景和最佳实践，具备数据库分库分表、读写分离的架构设计能力。

爬虫技术：精通Requests、Scrapy框架，熟悉XPath/CSS选择器和正则表达式，掌握动态网页数据抓取技术（Selenium/Playwright），具备反爬策略突破和代理IP池构建经验。

系统优化与部署：熟悉Docker容器化部署，掌握Nginx/Gunicorn/uWSGI的配置优化，具备CI/CD持续集成实践经验。了解Linux系统运维，能够进行性能监控和问题排查。

测试与代码质量：掌握unittest/pytest测试框架，践行TDD开发模式，熟练使用Git进行版本控制，注重代码规范和文档编写。

前沿技术探索：持续跟进Python 3新特性，对异步编程（asyncio）有深入理解，正在探索Python在AI领域的应用（TensorFlow/PyTorch基础）。

项目经验

项目背景：某头部证券公司需要从海量研报、公告、新闻中自动提取关键实体（公司名称、高管姓名、产品名称、财务指标等），构建投研知识图谱，辅助分析师进行风险识别和投资决策

核心职责：担任AI技术负责人，负责NER算法设计与系统架构搭建

技术实现：

领域自适应NER模型：针对金融文本特点，基于BERT-BiLSTM-CRF架构设计领域自适应命名实体识别模型。针对金融文本中专有名词多、实体嵌套复杂、简写别名普遍等挑战，创新性地引入词汇增强机制和对抗训练策略，提升模型在金融领域的泛化能力

多源异构数据融合：构建分布式爬虫集群，定时采集上市公司公告、券商研报、财经新闻、监管处罚信息等10+数据源，日均处理文本量超200万篇

实体链接与消歧：针对识别出的实体，设计基于知识库的实体链接算法，解决“阿里巴巴”指代公司、“马云”指代人名等实体歧义问题。通过融入知识图谱嵌入（KGE）技术，实现同名实体的精准区分

关系抽取与知识推理：在NER基础上，结合远程监督和预训练模型，抽取实体间的语义关系（如“任职于”、“投资”、“控股”等），构建包含2000万+实体、1.2亿+关系的金融知识图谱

增量学习与持续优化：设计在线学习机制，支持通过人工标注反馈对模型进行增量更新，使模型能够快速适应新出现的实体类型和表达方式

难点突破：

解决金融文本中“ST股票”、“*ST”等特殊实体识别难题，通过引入自定义词典和规则约束，识别准确率提升15%

针对长文档中实体共指问题，设计跨句指代消解算法，将实体链接准确率从82%提升至91%

优化模型推理速度，通过模型剪枝和ONNX量化，将单篇文档处理时间从2.3秒压缩至0.4秒，满足实时处理需求