猿急送>

深圳其它兼职程序员

ID：213048

不像

无

公司信息：
tcl

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
周六
周日

所在区域：
深圳
宝安

技术能力

熟练掌握Python核心编程方法，熟悉基本数据结构
熟练掌握SQL语言和数据库表体系，掌握关系型数据库mysql、非关系型数据库mongodb和内存数据库redis的日常操作
熟练掌握Numpy、Scrapy、Matplotlib、pandas等数据科学分析库的使用，能独立进行数据清洗、处理、分析与可视化操作
掌握jieba和wordcloud的使用，可以根据需求进行文本信息处理分析
熟悉excel,csv、html可以对各项数据做各个维度的对比分析
熟悉朴素贝叶斯、决策树、线性回归、逻辑回归、聚类算法、PCA、推荐系统算法、k-邻近算法等。
熟悉爬虫基本库的使用，如requests,urllib,bs4,xpath,selenium,正则表达式等，能够独立进行爬虫项目的开发
熟悉Scrapy爬虫框架及网页抓取原理，可以高效地进行抓取海量数据、解析处理和入库等日常工作
熟悉Linux操作系统及git版本控制系统，熟悉掌握常用命令的操作

项目经验

智能电视用户语音行为分析
通过对智能电视的用户语音数据收集，使用ASR转换成用户情感语料文本。训练出能对用户的语音内容划分领域与识别，并作出相应的回复、动作、与功能的调整的模型，以提高用户体验和用户粘度。
责任描述：
1.将已收集并转换好的语料文本进行标注、分类、清洗，并保存到相应的Excel表中。
2.对文本信息进行预处理，利用Pandas读取Excel中分好领域的语料文本信息、标注、以及设计好的回复语料、相关功能调整、相关动作调整的标记，并转换成DataFrame格式的数据。
4.将读取好的文本数据量化，使用jieba分词提取关键字进行关键词提取和筛选及中文停用词过滤，针对词频，做特征选择构建向量空间模型，利用Tf_idf进行文本量化转换及使用max_df或min_df逆文档频率进一步进行关键词筛选，N-gram排除顺序干扰，调整相关程度关键词的权重，将化分好的数据进行归一化处理。
5.使用matplotlib进行可视化，减少数据方面的误差。
6.构建朴素贝叶斯（NBbiru）分类模型，将以5：1的比例划分为训练集与测试集。使用训练集数据进行分类算法，使用测试集对结果进行检测，调整超参数的值，使用混淆矩阵和分类评价报告筛选评分最优的参数的分类器并保存。
7.最后测试实验该分类器对比现实效果做出相应调整