基本信息

  • 姓名:吴礼尉
  • 电话:189-xxxx-xxx
  • 邮箱:wuliwei1998@qq.com
  • 求职意向:后端研发工程师

教育经历

北京信息科技大学-本科-计算机科学与技术 (2017.9~2021~7)

  • 大三之前热衷于程序设计竞赛,
  • 大三上学期开始进入互联网公司实习,先后在百度和字节跳动担任后端研发实习生。

工作经历

百度-视觉技术部-通用架构组 后端研发实习生(2019.10~2020.4)

  • 组里的主要职责是视觉服务后端架构的开发和维护,协助部门内部各个算法组(人脸、ocr等)算法模型落地,为百度贴吧、网盘、小度音箱等厂内业务提供视觉技术支持。
  • 参与百度视频中台的研发。

字节跳动-头条百科-数据侧 后端研发实习生(2020.4~2021.3)

  • 数据统计看板:词条状态统计(正常、封禁、废弃),词条质量统计(摘要字数、图片数、基本信息数、参考信息数等),生产数据(提交数和审核通过数),消费数据(搜索、曝光、点击uv和pv)
  • 数据质量提升:低质词条的抽取和任务下放,死链去除,运营同学的取数据需求。
  • 数据仓库建设:词条信息表、词条特征表、词条内链表、任务下放表、不适合下放任务表等。

荣誉奖项

  • 2019ACM-ICPC国际大学生程序设计竞赛 亚洲区域赛银川站 铜奖 2019.10
  • 2019ACM-ICPC国际大学生程序设计竞赛 全国邀请赛(西安)铜奖 2019.5
  • 第十届蓝桥杯C/C++程序设计 大学B组 全国二等奖 2019.5
  • 北京信息科技大学第10届程序设计竞赛 一等奖 2019.11

项目经历

字节跳动-头条百科-百科数据看板(2020.5~2021.2)

项目背景

头条百科的日常运营和产品设计需要大量的数据进行支撑,为了方便产品和运营以及技术同学查看数据,我们开发了界面友好的数据看板,将百科的生产、消费、词条质量等数据进行可视化。

相关技术

数据流:mysql(百科原始数据) (天级同步)-> hive sql -> sparkr解析原始数据 -> hive sql -> 内部数据可视化工具 -> 可视化图表

项目介绍

主要统计如下指标并将其可视化

  • 消费侧:搜索、曝光、点击pv和uv,词条按搜索pv从大到小排序,从垂类的维度统计等。
  • 生产侧:操作记录统计、提交版本数、审核通过版本数统计。
  • 词条侧:词条的状态(是否可编辑、是否可查看)统计,词条质量(摘要数、基本信息数、图片数、参考资料数等),词条名和义项名长度,摘要长度等。
  • 特殊词条:敏感词、不宜下放词等展示。

字节跳动-头条百科-低质词条优化(2020.8~2021.3)

项目背景

头条百科的词条创建和完善一方面靠机器自动处理简单任务,但大部分还是要靠奖励机制来吸引用户参与编辑和创建,在之前的任务下放主要靠人工在运营后台通过excel表下放任务,现在我们要通过机器把低质词条分类筛选出来,按搜索pv从大到小的顺序下放给任务。比如:无摘要图,摘要图尺寸小,无基本信息等。

相关技术

通过spark筛选出低质词条并对其进行归类倒入到hive表,如:无摘要图、摘要图尺寸小、无基本信息、摘要或正文包含无用信息等。将要下放的词条与不宜下放词条进行过滤之后形成任务表,通过hive -> kafka与线上服务对接进行任务下放。

字节跳动-无效内链去除(2020.12~2021.1)

项目背景

在一个百科词条里存在另外一个词条的链接,我们称之为【内链】,内链在用户编辑时添加。但是随着词条状态的变更,比如一个词条下架,那么原来指向这个词条的内链就会失效,我们称之为【无效内链】。这个项目要做的定时地将无效内链剔除。

相关技术

通过spark并行对全量词条进行json解析,可以得到一张内链表,关键列是from_id和to_id,from表示存在内链的词条id,to表示内链所指向的词条id。然后通过hive sql来得到每个词条内链所指向的词条的状态,从而筛选出来已经下架的to_id。通过hive->kafka将筛选结果送到golang服务消费。在golang端把无效内链去除。