1、具备扎实的 Java 基础,熟悉 java 多线程编程、Java23种设计模式及架构思想;
2、熟悉自然语言处理领域Stanford NLP库、Apache Lucene(含BM25算法)、Weka机器学习库的使用;
3、熟练掌握Kafka、RabbitMQ等消息队列的使用与原理,能够基于消息机制实现解耦、异步处理和流量削峰,保障系统在
高并发场景下稳定运行;
4、熟练使用eclipse、idea整合 spring,springboot,springcloud 框架进行项目开发;
5、熟悉Elasticsearch索引构建与IK分词器配置、索引、查询等操作,能进行集群搭建与优化;
6、熟练使用Redis缓存、分布式锁实现,结合 Spring Boot/Cloud构建高可用环境;
7、熟悉JVM的内存管理机制,对JVM调优技巧有使用经验,如调整堆大小、设置GC参数等;
8、熟悉大型数据库MySQL、Oracle,且有SQL优化、Mycat分库分表、索引优化、性能调优、数据库容灾等经验;
9、熟练掌握国产数据库达梦(DM)与华为云GaussDB的使用技巧,可独立开展数据库的部署、配置与性能调优工作;
10、熟悉linux命令,能查看日志并独立排查和解决问题,能独立在CentOS、Ubuntu环境下部署项目、中间件及插件;
11、熟悉掌握devops的搭建和运维等;
12、可独立编写项目全流程涉及有需求、开发、测试的各类文档。
项目介绍:
针对中信证券境内固定收益业务利率债、信用债、ABS等的跨境交易、做市报价及风险管理需求,主导开发新一代交易系
统,实现高并发、低延迟的交易处理与数据服务。
工作内容:
一一、、wind回回售售债债券券信信息息同同步步功功能能开开发发::
1.数据接入与解析:
使用多线程机制调用Wind金融终端API,提升数据获取的并发处理能力,确保在短时间内快速获取回售债券基础信息(
债券代码、回售日、回售价格等)及实时行情数据,然后通过自定义数据解析模块,兼容Wind API多版本响应格式,确
保数据完整性;
2.全量同步与增量更新模块:
利用Kafka消息队列实现数据同步的高效管理。每日凌晨系统通过Kafka作为消息中间件执行全量同步任务,将获取的回
售债券信息批量发送到指定主题。同时,实时监听Wind数据变更事件,当有回售公告发布等变更发生时,触发增量更新
机制,将变更数据及时推送到Kafka消息队列,消费端根据消息内容更新本地数据库,实现系统解耦、异步处理和流量削
峰,保障在高并发数据变更场景下的稳定运行;
3.开发数据质量监控模块:
运用JVM调优技巧对监控服务进行性能优化,确保监控服务的高效率。编写SQL查询语句,对数据库中的数据进行检查
。如果发现某条记录中存在必填字段为空或个别字段不符合设定的合理取值范围、规则的情况,则触发告警,同时记录
日志和邮件通知权限人。
二二、、限限售售 : Reits持持仓仓维维护护功功能能开开发发::
1.基于 : REITs解禁规则的限售份额解禁计算引擎开发
使用多线程编程开发解禁计算引擎,确保在处理大量REITs数据时能够快速准确地计算出每日可解禁份额。具体为动态计
算每日可解禁份额,通过接受输入的REITs基础信息(证券代码、发行规模、锁定期、解禁比例等)、当前日期(用于判
断是否达到解禁条件)、历史解禁记录(避免重复解禁)对外输出每日可解禁份额(证券代码、解禁日期、解禁份额)
并严格按照解禁规则(战略投资者锁定期12个月、按分3年每年解禁1/3比例解禁等)动态计算每日可解禁份额;
2.持仓状态自动更新模块开发:
设计数据库表结构,存储REITs持仓信息(证券代码、限售份额、解禁日期等)。在设计表结构时,充分考虑数据的完整
性和可扩展性,为后续的查询和统计提供便利,然后开发定时任务,每日凌晨自动更新持仓状态,将到期份额标记为“可
流通”。使用Spring框架的定时任务功能,实现定时任务的配置和管理,确保任务能够准确、稳定地执行。
3.合规性校验及数据同步模块开发:
实现解禁份额与交易系统的联动校验,防止违规交易(如提前卖出未解禁份额)将限售REITs持仓数据同步至内部交易系
统与风控平台。
三三、、FOTON门门户户(境境外外)AI智智能能问问答答引引擎擎开开发发::
1.自然语言处理(NLP)模块开发:
(1)通过使用Java调用Stanford NLP库对用户提出的问题做分词和词性标注,做预处理;
(2)通过TF-IDF算法训练分类模型再处理,使用Apache Lucene里内置的TF-IDF的实现,将训练数据事先存储为文档,
然后使用Lucene的IndexWriter和Analyzer对文档集合建立索引,索引中会包含每个词的TF-IDF值,进一步使用IndexRea
der和TermFreqVector获取文档的TF-IDF特征向量,然后使用Weka机器学习库去训练分类模型集合,从而识别用户提出
的常见问题。
(3)针对部分问题的特定实体的格式特点,编写正则表达式进行匹配,对部分无法提取共性的特定实体,使用境外团队
预训练的NER模型识别(因特定实体较少,故未实际实现)。
2.知识库构建与检索:
(1)数据清洗,编写Java批量脚本处理Excel/PDF文档,正则清洗噪声数据(HTML标签、特殊符号);
(2)索引设计,使用Elasticsearch建立索引字段:问题、答案、标签、更新时间,配置IK分词器和自定义词典;
3.检索优化
建表存储文档及答案内容,包含文档ID、文档内容、点击量、投诉率等关键字段,使用现有的Apache Lucene中的BM25
实现库,输入查询从而返回BM25得分较高的候选文档的BM25得分,再通过调用境外团队预训练的BERT模型,输入查
询和候选文档,拿到BERT得分。再根据核心公式最终得分=a*BM25得分+b*BERT得分+c*点击量-d*投诉率,计算出最终
得分,对返回答案内容的结果进行分数排序(优先返回高点击量、低投诉率答案)。
车辆故障数据同步功能开发 围绕 VIN、故障码、维修历史等核心数据,构建多源数据同步体系: 数据接入与解析:多线程调用江铃原厂 API 及维修终端接口,高效获取故障基础信息与实时车况数据;通过自定义解析模块兼容多版本 API 格式,保障数据完整性。 全量同步与增量更新:
项目介绍 针对中信证券境内固定收益业务(利率债、信用债、ABS 等)的跨境交易、做市报价及风险管理需求,主导开发新一代交易系统,实现高并发交易处理与低延迟数据服务,支撑业务高效开展。 工作内容 一、Wind 回售债券信息同步功能开发 围绕回售债券核心数据构建高效同步体系: