THU FASTsys Research Group

    

个人简介

  • 魏钧宇,清华大学计算机系高性能研究所五年级博士研究生,指导老师为张广艳老师。主要研究方向为云日志存储和数据压缩,致力于构建绿色、集约、高效的数据存储系统。

学术经历

  • 2015.09 - 2019.06,清华大学计算机系(工学学士学位)
  • 2016.09 - 2019.06,清华大学人文学院哲学系(哲学学士学位)
  • 2019.09 - 2024.06(预计)清华大学计算机系(工学博士学位)

研究内容

在数字经济时代,全球数据爆发性增长,数据中心的规模也在不断扩大;与此同时,资源能源约束日趋收紧,绿色发展日益成为全球共识。在这一背景下,数据压缩成为构建绿色集约型数据中心的一项关键技术。一个压缩系统的设计不仅要保证数据的高压缩率,同时还需确保特对压缩数据的低延迟访问和整个系统的高写入带宽。我的研究聚焦现代数据中心中每日规模可达PB量级的云日志数据,通过理论抽象和系统建模寻找解决方案,设计了高效的静态、动态数据模式感知策略,提出了日志细粒度结构化压缩和高效过滤检索方法,同时实现了云日志高密压缩、快速写入和低延迟检索,构建了包括数据写入、数据过滤、数据检索、数据归档全生命周期在内的高密高性能云日志存储系统,有效支撑了日志长期存储、异常数据溯源、系统故障检测等现实目标。具体研究内容如下:

  1. 提出了数据模式感知的云日志结构化策略,该策略强调在进行压缩数据域划分时应兼顾域内数据共性和域间数据差异性。基于该结构化策略,在云日志场景下可通过提取日志数据静态模式和动态模式实现数据模式感知的日志域划分,为进一步的细粒度高密压缩和精确数据摘要生成打下了坚实的理论基础。
  2. 提出了静态模式驱动的云日志高密压缩方法LogReducer, 该方法对结构化数据单元采用包括差分编码、关联编码、弹性编码在内的一系列定制化编码策略,实现了平均30倍以上的数据压缩率。
  3. 提出了双态模式驱动的压缩云日志低延迟检索方法LogGrep, 该方法在保证高压缩率的同时实现了日志数据的细粒度结构化和按需解压,从而对压缩数据的访问延迟削减达一个数量级以上。
  4. 提出了基于模式解耦的两阶段数据模式快速生成策略,在保证高压缩率和低检索延迟的前提下,显著提升了数据写入带宽。同时结合硬件特点将上述系列方法和策略集成为一个完整的日志存储系统,在压缩率、检索延迟和写入速度三个维度上同时达到了目前的国际领先水平。

会议论文

  • [SOSP] Shaobu Wang, Guangyan Zhang, Junyu Wei, Yang Wang, Jiesheng Wu, Qingchao Luo. Understanding Silent Data Corruptions in a Large Production CPU Population. In the Proceedings of the 29th ACM Symposium on Operating Systems Principles (SOSP’23), Koblenz, Germany, Oct 2023. Pages 216-230.

  • [EuroSys] Junyu Wei, Guangyan Zhang, Junchao Chen, Yang Wang, Weimin Zheng, Tingtao Sun, Jiesheng Wu, Jiangwei Jiang. LogGrep: Fast and Cheap Cloud Log Storage by Exploiting both Static and Runtime Patterns. in Proceedings of the 18th European Conference on Computer Systems (EuroSys’23), Roma, Italy, May 2023. Pages 452-468.

  • [FAST] Junyu Wei, Guangyan Zhang, Yang Wang, Zhiwei Liu, Zhanyang Zhu, Junchao Chen, Tingtao Sun, Qi Zhou. On the Feasibility of Parser-based Log Compression in Large-Scale Cloud Systems. in the Proceedings of the 19th USENIX Conference on File and Storage Technologies (FAST’21), Santa Clara, CA, February 2021. Pages 249-262.

  • [FAST] Tianyang Jiang, Guangyan Zhang, Zican Huang, Xiaosong Ma, Junyu Wei, Zhiyue Li, Weimin Zheng. FusionRAID: Achieving Consistent Low Latency for Commodity SSD Arrays. In the Proceedings of the 19th USENIX Conference on File and Storage Technologies (FAST’21), Santa Clara, CA, February 2021. Pages 355-370.

期刊论文

  • [TOS] Junyu Wei, Guangyan Zhang, Junchao Chen, Yang Wang, Weimin Zheng, Tingtao Sun, Jiesheng Wu, and Jiangwei Jiang. 2024. Exploiting Data-pattern-aware Vertical Partitioning to Achieve Fast and Low-cost Cloud Log Storage. ACM Trans. Storage 20, 2, Article 12 (May 2024).

  • [计算机研究与发展] 魏钧宇, 张广艳, 陈军超. 数据模式感知的低成本云日志存储系统[J]. 计算机研究与发展, 2023, 64(11). 封面亮点文章.

  • [FITEE] Junchao Chen, Guangyan Zhang, Junyu Wei. A survey on design and application of open-channel solid-state drives[J]. Frontiers of Information Technology & Electronic Engineering, 2023, 24(5):637-658.

成果落地

  • 数据模式感知的低成本云日志存储系统有效解决了阿里云百PB量级日志存储面临的实际问题,经企业方评估,该系统可实现对千万条高密压缩云日志数据检索的秒级响应,全年预计可节省上亿元成本,获评阿里巴巴集团2023年度优秀学术合作项目奖(在1000余个项目中排名前10)

个人荣誉

  • 2023.12 清华大学计算机系学生最高荣誉——钟士模奖学金
  • 2023.12 蒋南翔奖学金
  • 2023.10 国家奖学金
  • 2023.09 龙湖卓越奖
  • 2023.05 阿里巴巴集团优秀研究型实习生
  • 2022.10 清华大学优秀共青团员

助教工作

  • 2019.03 - 2019.06 清华大学 计算机系 计算机系统结构(CS 40240443)(本科生)
  • 2020.03 - 2020.06 清华大学 计算机系 计算机系统结构(CS 40240443)(本科生)
  • 2021.03 - 2021.06 清华大学 计算机系 计算机系统结构(CS 40240443)(本科生)

爱好特长

  • 跑步、羽毛球、乒乓球爱好者,清华晨跑队队员,坚持每年跑量800km以上
  • 钢琴演奏爱好者
  • 古典诗词、国学爱好者
  • 德国古典哲学、马克思主义政治经济学爱好者
  • 外语学习爱好者,可熟练使用英语、德语,有一定法语、意大利语、日语基础
  • 清华校史馆优秀讲解员,提供中、英、德、法等多语种志愿讲解服务