猿急送>

上海后端兼职程序员

ID：188253

yuexiang

算法工程师

公司信息：
上海互教教育

工作经验：
3年

兼职日薪：
2000元/8小时

兼职时间：
下班后
周六
周日
可工作日远程
可工作日驻场（离职原因）
可工作日驻场（自由职业原因）

所在区域：
上海
浦东

技术能力

1) 熟悉数据结构, C++, python, mysql, mongodb, neo4j
2) 熟悉机器学习，掌握KNN, decision trees, naive bayes, logistic regression, adaboost; k-means; pca; back propagation, newton's method, coordinate descent等算法，熟练使用scikit-learn
3) 熟悉深度学习，会用MLP, CNN, RNN, Transformer, Word2vec, Seq2Seq, Attention, encoder-decoder, LM, GAN.会用tensorflow, keras, PyTorch
4) 会遗传算法和增强学习，比如DQN, Policy Gradient, Actor critic
5) 熟悉自然语言处理的各个阶段, 熟练使用 jieba, ltp, corenlp, spacy, nltk, gensim, numpy, pandas, matplotlib 等工具包
6) 2015年接触自然语言处理；英语听说读写良好

项目经验

项目经历
1) latex到sympy的转化
描述:将latex转化为content mathml, 然后将content mathml 转化为sympy, 90.1%的准确率
标签: 数据预处理，表达式树
2) 数学试题和英语试题解析
描述: 设计word模板，解析用户上传的word成数学和英语试题。设计每一题型要抽取的字段，对题目进行预处理，并进行题号推导，题型推导，选项推导，填空空白推导等。
标签: 模板设计, 数据预处理, 题型推断
3) 数学试题标注系统
描述:输入数学试题，自动标记题目考察的知识点和题目难度值，用于题目推荐。当学生做错了某道题目，推荐给学生考点一致，题目文本相似，难度适中的题目给学生。
标签: 数据预处理, word2vec,LSTM
4) 数学试题自动解题
描述:输入数学试题，自动解题
标签:模板匹配, drools规则引擎
5) 属性融合
描述: 对CN-DBpedia的属性进行聚类，比如老婆，妻子等同义属性聚为一类。Pairwise属性相似度计算用到了同义词，翻译，缩略词，word2vec, transE, 属性值枚举相似度，正则相似度，CN-Probase概念相似度
标签: 相似度计算
6) Mention2entity（和同学一起做，我完成模型构建部分）
描述: 利用Elmo进行命名实体识别。比如给定百科词条刘德华和百科概要“又名华仔，华哥”，识别mention华仔和华哥，对应于实体刘德华。
标签: 序列标注，命名实体识别
7) 市民信箱用户画像与服务推荐
描述: 对市民信息进行打标签，并关联相关服务。
标签: 规则系统，基于知识库的规则构建
8) 文本抽取
描述: 从doc docx pptx ppt xlsx xls gif jpg jpeg json html htm pdf png ps rtf tiff tif txt csv格式中抽取文本, 支持扫描pdf和非扫描pdf。支持图片ocr文字纠错。
标签: ocr, 文本纠错
9) 疾病匹配
描述:输入疾病名称，匹配到标准的icd-10疾病名称
标签: 同义词构建，相似词计算
10) 疾病问答系统
描述:输入关于疾病的问题，输出问题的自然回答。
标签: 知识图谱构建，问题解析
11) 深度阅读
描述: 输入一本书，进行书籍链接，实体链接，句子链接。书籍链接会找到与书籍相关的infobox, 图片，实体关系，wordcloud, 电视剧，电影。实体链接会将书中实体链接到知识库。句子链接会将句子链接到相关的解析，赏析，名家评论，图片，翻译，新闻，视频。
标签: 爬虫，实体链接
12) 论文链接
描述: 上传论文，对论文中的文本进行词汇挖掘，词语链接到Wikipedia，并爬取主要搜索引擎进行词语摘要
标签: 词汇挖掘，爬虫，摘要
13) 公式链接
描述: 输入数学公式，将公式链接到Wikipedia。首先，抽取所有wiki词条中的公式，解析表达式，将输入公式与抽取的公式进行相似度比较。主要有字符串相似度和tree edit distance 。
标签：数据预处理，相似度计算
14）表格键值对抽取
描述：从表格从抽取键值对。首先采用规则抽取出key，然后将当前,右边,下边单元格内容进行拼接，预测一个span作为value. 起始位置和终止位置测试集准确度均达到97%。
标签：机器阅读，信息抽取
15）PDF无表格线和有表格线表格抽取
描述：从PDF中抽取无表格线表格和有表格线表格。上传PDF,对每一页利用ResNet进行图片分类，判断是否包含无表格线表格。然后对包含无表格线表格的页面，利用ALBERT进行文本分类，判断每一行是否属于表格，完成表格外框抽取。然后利用文字间隙和语义信息画表格内框线。有表格线表格采用Opencv抽取线条进行表格抽取。合并无表格线表格和有表格线表格结果作为pdf抽表结果。其中无表格线抽表经历了使用U-net进行像素分类，判断每一个点是黑色像素还是白色像素，进行画线；经历了使用Yolov3, Cornernet，Centernet等进行目标检测，采用目标检测的方法进行画矩形框抽取线条；行分类抽取外框和规则抽取内框等三个阶段，其中行分类抽取外框和规则抽取内框抽表结果最好。
标签：图像分类，文本分类，像素分类，目标检测
16) python utils 开发
描述：负责开发python 基础库，提供给全公司python程序员使用。Python utils 库包含dict, list, sequence, string, database, excel, pdf, html等相关的模块。

案例展示

PDF抽取表格

PDF无表格线和有表格线表格抽取描述：从PDF中抽取无表格线表格和有表格线表格。上传PDF,对每一页利用ResNet进行图片分类，判断是否包含无表格线表格。然后对包含无表格线表格的页面，利用ALBERT进行文本分类，判断每一行是否属于表格，完成表格外框抽取。然后利用文字间隙
书籍阅读系统

描述: 输入一本书，进行书籍链接，实体链接，句子链接。书籍链接会找到与书籍相关的infobox, 图片，实体关系，wordcloud, 电视剧，电影。实体链接会将书中实体链接到知识库。句子链接会将句子链接到相关的解析，赏析，名家评论，图片，翻译，新闻，视频。标签: 爬虫，实体