Publications | Jidong Zhai

Qihao Zhang, Mingliang Tang, Mingshu Zhai, Kinman Lei, Jidong Zhai (2026). RoMeo: Mitigating Dual-dimensional Outliers with Rotated Mixed Precision Quantization. Proceedings of the 31st ACM SIGPLAN Annual Symposium on Principles and Practice of Parallel Programming, PPoPP 2026, Sydney, NSW, Australia, 31 January 2026 - 4 February 2026.

Cite DOI URL

Shuhong Huang, Shizhi Tang, Yuan Wen, Huanqi Cao, Ruibai Tang, Yidong Chen, Jiping Yu, Yang Li, Chao Jiang, Limin Xiao, Jidong Zhai (2026). ParDiff: Efficiently Parallelizing Reverse-Mode Automatic Differentiation with Direct Indexing. Proceedings of the 31st ACM SIGPLAN Annual Symposium on Principles and Practice of Parallel Programming, PPoPP 2026, Sydney, NSW, Australia, 31 January 2026 - 4 February 2026.

Cite DOI URL

Hui Zeng, Daming Zhao, Pengfei Yang, WenXuan Hou, Tianyang Zheng, Hui Li, Weiye Ji, Jidong Zhai (2026). Lethe: Layer- and Time-Adaptive KV Cache Pruning for Reasoning-Intensive LLM Serving. Fortieth AAAI Conference on Artificial Intelligence, Thirty-Eighth Conference on Innovative Applications of Artificial Intelligence, Sixteenth Symposium on Educational Advances in Artificial Intelligence, AAAI 2026, Singapore, January 20-27, 2026.

Cite DOI URL

Yuyang Chen, Linqian Zeng, Yijin ZHou, Hengjie Li, Jidong Zhai (2026). Jano: Adaptive Diffusion Generation with Early-stage Convergence Awareness. CoRR.

Cite DOI URL

Chia-Chi Hsieh, Zan Zong, Xinyang Chen, Jianjiang Li, Jidong Zhai, Lijie Wen (2026). FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving. CoRR.

Cite DOI URL

Ziyu Huang, Yangjie Zhou, Zihan Liu, Xinhao Luo, Yijia Diao, Minyi Guo, Jidong Zhai, Yu Feng, Chen Zhang, Anbang Wu, Jingwen Leng (2026). FlashFuser: Expanding the Scale of Kernel Fusion for Compute-Intensive Operators via Inter-Core Connection. IEEE International Symposium on High Performance Computer Architecture, HPCA 2026, Sydney, Australia, January 31 - Feb. 4, 2026.

Cite DOI URL

Yu Zhang, Feng Zhang, Yani Liu, Huanchen Zhang, Jidong Zhai, Wenchao Zhou, Xiaoyong Du (2026). Enabling Tile-Based Direct Query on Adaptively Compressed Data With GPU Acceleration. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Yani Liu, Feng Zhang, Yu Zhang, Shuhao Zhang, Bingsheng He, Jianhua Wang, Jidong Zhai, Xiaoyong Du (2026). ComStar: Compression-Aware Stream Query for Heterogeneous Hybrid Architecture. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Chengzhang Wu, Liyan Zheng, Haojie Wang, Kezhao Huang, Zixuan Ma, Dong Dong, Jidong Zhai (2026). ChituDiffusion: A Data-Characteristic-Aware Serving System for Diffusion Models. Proceedings of the 31st ACM SIGPLAN Annual Symposium on Principles and Practice of Parallel Programming, PPoPP 2026, Sydney, NSW, Australia, 31 January 2026 - 4 February 2026.

Cite DOI URL

Qi Zhang, Jidong Zhai, Weimin Zheng (2026). A Survey on Accelerated Technologies for Mixture-of-Experts Model Training Systems. Tsinghua Science and Technology.

Cite DOI URL

Song Wang, Keao Qiao, Jindong Liang, Nianchen Hua, Rui Lu, Jidong Zhai, Jing Pei (2026). A Hybrid Platform for Multi-Neurons Model with Optimum Co-Design Method. Big Data Min. Anal..

Cite DOI URL

Yao-Yang Liu, Zhen Zheng, Feng Zhang, Jin-Cheng Feng, Yi-Yang Fu, Jidong Zhai, Bingsheng He, Xiao Zhang, Xiaoyong Du (2026). A comprehensive taxonomy of prompt engineering techniques for large language models. Frontiers Comput. Sci..

Cite DOI URL

Chenxi Xu, Tianhui Shi, Shixuan Sun, Jidong Zhai, Xinyu Chen (2025). X-SET: An Efficient Graph Pattern Matching Accelerator With Order-Aware Parallel Intersection Units. Proceedings of the 58th IEEE/ACM International Symposium on Microarchitecture, MICRO 2025, Seoul, Republic of Korea, October 18-22, 2025.

Cite DOI URL

Haoyu Yang, Zan Zong, Yuyang Jin, Kinman Lei, Jiaao He, Qigang Yang, Jidong Zhai (2025). UltraAttn: Efficiently Parallelizing Attention through Hierarchical Context-Tiling. Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC 2025, St. Louis, MO, USA, November 16-21, 2025.

Cite DOI URL

Zan Zong, Minkun Guo, Mingshu Zhai, Yinan Tang, Jianjiang Li, Jidong Zhai (2025). Training Large Models on Heterogeneous and Geo-Distributed Resource with Constricted Networks. Big Data Min. Anal..

Cite DOI URL

Yuyang Jin, Xirui Shui, Mingshu Zhai, Zan Zong, Feng Zhang, Felix Wolf, Jidong Zhai (2025). TraceFlow: Efficient Trace Analysis for Large-Scale Parallel Applications via Interaction Pattern-Aware Trace Distribution. Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC 2025, St. Louis, MO, USA, November 16-21, 2025.

Cite DOI URL

Hang Wu, Jianian Zhu, Yinghui Li, Haojie Wang, Biao Hou, Jidong Zhai (2025). SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models. CoRR.

Cite DOI URL

Qihao Zhang, Mingshu Zhai, Rui Sun, Jidong Zhai (2025). QFactory: Accelerating Quantized Large Language Model Serving with Qtile Graphs. Proceedings of the 2025 USENIX Annual Technical Conference, USENIX ATC 2025, Boston, MA, USA, July 7-9, 2025.

Cite URL

Ruofan Wu, Zhen Zheng, Feng Zhang, Chuanjie Liu, Zaifeng Pan, Jidong Zhai, Xiaoyong Du (2025). PluS: Highly Efficient and Expandable ML Compiler with Pluggable Graph Schedules. Proceedings of the 2025 USENIX Annual Technical Conference, USENIX ATC 2025, Boston, MA, USA, July 7-9, 2025.

Cite URL

Kezhao Huang, Siqi Zhu, Mingshu Zhai, Liyan Zheng, Kinman Lei, Jiaao He, Yuyang Jin, Jidong Zhai (2025). mTuner: Accelerating Parameter-Efficient Fine-Tuning on Multi-GPU Servers with Elastic Tensor. Proceedings of the 2025 USENIX Annual Technical Conference, USENIX ATC 2025, Boston, MA, USA, July 7-9, 2025.

Cite URL

Yuyang Jin, Haojie Wang, Xiongchao Tang, Zhenhua Guo, Yaqian Zhao, Torsten Hoefler, Tao Liu, Xu Liu, Jidong Zhai (2025). Leveraging Graph Analysis to Pinpoint Root Causes of Scalability Issues for Parallel Applications. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Hui Zeng, Daming Zhao, Pengfei Yang, WenXuan Hou, Tianyang Zheng, Hui Li, Weiye Ji, Jidong Zhai (2025). Lethe: Layer- and Time-Adaptive KV Cache Pruning for Reasoning-Intensive LLM Serving. CoRR.

Cite DOI URL

Chen Zhang, Kuntai Du, Shu Liu, Woosuk Kwon, Xiangxi Mo, Yufeng Wang, Xiaoxuan Liu, Kaichao You, Zhuohan Li, Mingsheng Long, Jidong Zhai, Joseph Gonzalez, Ion Stoica (2025). Jenga: Effective Memory Management for Serving LLM with Heterogeneity. CoRR.

Cite DOI URL

Chen Zhang, Kuntai Du, Shu Liu, Woosuk Kwon, Xiangxi Mo, Yufeng Wang, Xiaoxuan Liu, Kaichao You, Zhuohan Li, Mingsheng Long, Jidong Zhai, Joseph Gonzalez, Ion Stoica (2025). Jenga: Effective Memory Management for Serving LLM with Heterogeneity. Proceedings of the ACM SIGOPS 31st Symposium on Operating Systems Principles, SOSP 2025, Lotte Hotel World, Seoul, Republic of Korea, October 13-16, 2025.

Cite DOI URL

Zixuan Ma, Haojie Wang, Jingze Xing, Shuhong Huang, Liyan Zheng, Chen Zhang, Huanqi Cao, Kezhao Huang, Mingshu Zhai, Shizhi Tang, Penghan Wang, Jidong Zhai (2025). IntelliGen: Instruction-Level Auto-tuning for Tensor Program with Monotonic Memory Optimization. Proceedings of the 23rd ACM/IEEE International Symposium on Code Generation and Optimization, CGO 2025, Las Vegas, NV, USA, March 1-5, 2025.

Cite DOI URL

Jiaao He, Shengqi Chen, Kezhao Huang, Jidong Zhai (2025). HypeReca: Distributed Heterogeneous In-Memory Embedding Database for Training Recommender Models. Proceedings of the 2025 USENIX Annual Technical Conference, USENIX ATC 2025, Boston, MA, USA, July 7-9, 2025.

Cite URL

Yuyang Jin, Jidong Zhai, Kezhao Huang, Weimin Zheng (2025). HSampler : Optimizing Multi-GPU GNN Sampling with Collision-Avoid Selection. Network and Parallel Computing - 21st IFIP WG 10.3 International Conference, NPC 2025, Nha Trang, Vietnam, November 14-16, 2025, Proceedings, Part I.

Cite DOI URL

Qian Xu, Feng Zhang, Chengxi Li, Lei Cao, Zheng Chen, Jidong Zhai, Xiaoyong Du (2025). HARMONY: A Scalable Distributed Vector Database for High-Throughput Approximate Nearest Neighbor Search. Proc. ACM Manag. Data.

Cite DOI URL

Qian Xu, Feng Zhang, Chengxi Li, Lei Cao, Zheng Chen, Jidong Zhai, Xiaoyong Du (2025). HARMONY: A Scalable Distributed Vector Database for High-Throughput Approximate Nearest Neighbor Search. CoRR.

Cite DOI URL

Miao Tao, Yuanzhen Zhou, Haoran Xu, Zeyu He, Zhenyu Yang, Yuchang Zhang, Zhongling Su, Linning Xu, Zhenxiang Ma, Rong Fu, Hengjie Li, Xingcheng Zhang, Jidong Zhai (2025). GS-Cache: A GS-Cache Inference Framework for Large-scale Gaussian Splatting Models. CoRR.

Cite DOI URL

Runxin Zhong, Yuyang Jin, Chen Zhang, Kinman Lei, Shuangyu Li, Jidong Zhai (2025). FlashTensor: Optimizing Tensor Programs by Leveraging Fine-grained Tensor Property. Proceedings of the 30th ACM SIGPLAN Annual Symposium on Principles and Practice of Parallel Programming, PPoPP 2025, Las Vegas, NV, USA, March 1-5, 2025.

Cite DOI URL

Ziyu Huang, Yangjie Zhou, Zihan Liu, Xinhao Luo, Yijia Diao, Minyi Guo, Jidong Zhai, Yu Feng, Chen Zhang, Anbang Wu, Jingwen Leng (2025). FlashFuser: Expanding the Scale of Kernel Fusion for Compute-Intensive Operators via Inter-Core Connection. CoRR.

Cite DOI URL

Jianian Zhu, Hang Wu, Haojie Wang, Yinghui Li, Biao Hou, Ruixuan Li, Jidong Zhai (2025). FastCache: Optimizing Multimodal LLM Serving through Lightweight KV-Cache Compression Framework. CoRR.

Cite DOI URL

Feng Zhang, Chenyang Zhang, Jiawei Guan, Qiangjun Zhou, Kuangyu Chen, Xiao Zhang, Bingsheng He, Jidong Zhai, Xiaoyong Du (2025). Breaking the Edge: Enabling Efficient Neural Network Inference on Integrated Edge Devices. IEEE Trans. Cloud Comput..

Cite DOI URL

Daming Zhao, Jiantao Zhou, Jidong Zhai, Keqin Li (2025). A Reinforcement Learning Based Framework for Holistic Energy Optimization of Sustainable Cloud Data Centers. IEEE Trans. Serv. Comput..

Cite DOI URL

Lijuan Jiang, Xingjian Qian, Zhenxiang Ma, Zan Zong, Hengjie Li, Chao Yang, Jidong Zhai (2025). A Flexible Programmable Pipeline Parallelism Framework for Efficient DNN Training. CoRR.

Cite DOI URL

Kezhao Huang, Jidong Zhai, Liyan Zheng, Haojie Wang, Yuyang Jin, Qihao Zhang, Runqing Zhang, Zhen Zheng, Youngmin Yi, Xipeng Shen (2024). WiseGraph: Optimizing GNN with Joint Workload Partition of Graph and Operations. Proceedings of the Nineteenth European Conference on Computer Systems, EuroSys 2024, Athens, Greece, April 22-25, 2024.

Cite DOI URL

Kinman Lei, Yuyang Jin, Mingshu Zhai, Kezhao Huang, Haoxing Ye, Jidong Zhai (2024). PUZZLE: Efficiently Aligning Large Language Models through Light-Weight Context Switch. Proceedings of the 2024 USENIX Annual Technical Conference, USENIX ATC 2024, Santa Clara, CA, USA, July 10-12, 2024.

Cite URL

Jiaao He, Shengqi Chen, Jidong Zhai (2024). POSTER: Pattern-Aware Sparse Communication for Scalable Recommendation Model Training. Proceedings of the 29th ACM SIGPLAN Annual Symposium on Principles and Practice of Parallel Programming, PPoPP 2024, Edinburgh, United Kingdom, March 2-6, 2024.

Cite DOI URL

Liang Wang, Jinzhe Yang, Jidong Zhai, Guangwen Yang (2024). Optimizing I/O Performance Through Effective vCPU Scheduling Interference Management. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Muyan Hu, Ashwin Venkatram, Shreyashri Biswas, Balamurugan Marimuthu, Bohan Hou, Gabriele Oliaro, Haojie Wang, Liyan Zheng, Xupeng Miao, Jidong Zhai, Zhihao Jia (2024). Optimal Kernel Orchestration for Tensor Programs with Korch. CoRR.

Cite DOI URL

Muyan Hu, Ashwin Venkatram, Shreyashri Biswas, Balamurugan Marimuthu, Bohan Hou, Gabriele Oliaro, Haojie Wang, Liyan Zheng, Xupeng Miao, Jidong Zhai, Zhihao Jia (2024). Optimal Kernel Orchestration for Tensor Programs with Korch. Proceedings of the 29th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Volume 3, ASPLOS 2024, La Jolla, CA, USA, 27 April 2024- 1 May 2024.

Cite DOI URL

Yidong Chen, Chen Zhang, Rongchao Dong, Haoyuan Zhang, Yonghua Zhang, Zhonghua Lu, Jidong Zhai (2024). MixQ: Taming Dynamic Outliers in Mixed-Precision Quantization by Online Prediction. Proceedings of the International Conference for High Performance Computing, Networking, Storage, and Analysis, SC 2024, Atlanta, GA, USA, November 17-22, 2024.

Cite DOI URL

Chen Zhang, Rongchao Dong, Haojie Wang, Runxin Zhong, Jike Chen, Jidong Zhai (2024). MAGPY: Compiling Eager Mode DNN Programs by Monitoring Execution States. Proceedings of the 2024 USENIX Annual Technical Conference, USENIX ATC 2024, Santa Clara, CA, USA, July 10-12, 2024.

Cite URL

Yuyang Jin, Haojie Wang, Runxin Zhong, Chen Zhang, Xia Liao, Feng Zhang, Jidong Zhai (2024). Graph-Centric Performance Analysis for Large-Scale Parallel Applications. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Jiesong Liu, Feng Zhang, Lv Lu, Chang Qi, Xiaoguang Guo, Dong Deng, Guoliang Li, Huanchen Zhang, Jidong Zhai, Hechen Zhang, Yuxing Chen, Anqun Pan, Xiaoyong Du (2024). G-Learned Index: Enabling Efficient Learned Index on GPU. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Kezhao Huang, Haitian Jiang, Minjie Wang, Guangxuan Xiao, David Wipf, Xiang Song, Quan Gan, Zengfeng Huang, Jidong Zhai, Zheng Zhang (2024). FreshGNN: Reducing Memory Access via Stable Historical Embeddings for Graph Neural Network Training. Proc. VLDB Endow..

PDF Cite DOI

Jiaao He, Jidong Zhai (2024). FastDecode: High-Throughput GPU-Efficient LLM Serving using Heterogeneous Pipelines. CoRR.

Cite DOI URL

Yanliang Zhou, Feng Zhang, Tuo Lin, Yuanjie Huang, Saiqin Long, Jidong Zhai, Xiaoyong Du (2024). F-TADOC: FPGA-Based Text Analytics Directly on Compression with HLS. 40th IEEE International Conference on Data Engineering, ICDE 2024, Utrecht, The Netherlands, May 13-16, 2024.

Cite DOI URL

Yuyang Jin, Runxin Zhong, Saiqin Long, Jidong Zhai (2024). Efficient Inference for Pruned CNN Models on Mobile Devices With Holistic Sparsity Alignment. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Jianbin Fang, Jidong Zhai, Zheng Wang (2024). Editorial for the special issue on programming models and system software for High-Performance Computing (HPC) environments. CCF Trans. High Perform. Comput..

Cite DOI URL

Weitao Wan, Feng Zhang, Chenyang Zhang, Mingde Zhang, Jidong Zhai, Yunpeng Chai, Huanchen Zhang, Wei Lu, Yuxing Chen, Haixiang Li, Anqun Pan, Xiaoyong Du (2024). Compressed Data Direct Computing for Databases. IEEE Trans. Knowl. Data Eng..

Cite DOI URL

Zhenhua Guo, Yinan Tang, Jidong Zhai, Tongtong Yuan, Jian Jin, Li Wang, Yaqian Zhao, Rengang Li (2024). A Survey on Performance Modeling and Prediction for Distributed DNN Training. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Linxiao Nie, Jiuding Sun, Yanlin Wang, Lun Du, Shi Han, Dongmei Zhang, Lei Hou, Juanzi Li, Jidong Zhai (2023). Unveiling the Black Box of PLMs with Semantic Anchors: Towards Interpretable Neural Semantic Parsing. Thirty-Seventh AAAI Conference on Artificial Intelligence, AAAI 2023, Thirty-Fifth Conference on Innovative Applications of Artificial Intelligence, IAAI 2023, Thirteenth Symposium on Educational Advances in Artificial Intelligence, EAAI 2023, Washington, DC, USA, February 7-14, 2023.

Cite DOI URL

Zixuan Ma, Yuyang Jin, Shizhi Tang, Haojie Wang, Wei-Cheng Xue, Jidong Zhai, Wei-Min Zheng (2023). Unified Programming Models for Heterogeneous High-Performance Computers. J. Comput. Sci. Technol..

Cite DOI URL

Sunita Chandrasekaran, Min Si, Jidong Zhai, Lena Oden (2023). Special issue on new trends in high-performance computing: Software systems and applications. Softw. Pract. Exp..

Cite DOI URL

Mingshu Zhai, Jiaao He, Zixuan Ma, Zan Zong, Runqing Zhang, Jidong Zhai (2023). SmartMoE: Efficiently Training Sparsely-Activated Models through Combining Offline and Online Parallelization. Proceedings of the 2023 USENIX Annual Technical Conference, USENIX ATC 2023, Boston, MA, USA, July 10-12, 2023.

Cite URL

Kezhao Huang, Haitian Jiang, Minjie Wang, Guangxuan Xiao, David Wipf, Xiang Song, Quan Gan, Zengfeng Huang, Jidong Zhai, Zheng Zhang (2023). ReFresh: Reducing Memory Access from Exploiting Stable Historical Embeddings for Graph Neural Network Training. CoRR.

Cite DOI URL

Zixuan Ma, Haojie Wang, Jingze Xing, Liyan Zheng, Chen Zhang, Huanqi Cao, Kezhao Huang, Shizhi Tang, Penghan Wang, Jidong Zhai (2023). PowerFusion: A Tensor Compiler with Explicit Data Movement Description and Instruction-level Graph IR. CoRR.

Cite DOI URL

Haojie Wang, Jidong Zhai, Mingyu Gao, Feng Zhang, Tuowei Wang, Zixuan Ma, Shizhi Tang, Liyan Zheng, Wen Wang, Kaiyuan Rong, Yuanyong Chen, Zhihao Jia (2023). Optimizing DNNs With Partially Equivalent Transformations and Automated Corrections. IEEE Trans. Computers.

Cite DOI URL

Qianjin Du, Shiji Zhou, Xiaohui Kuang, Gang Zhao, Jidong Zhai (2023). Joint Geometrical and Statistical Domain Adaptation for Cross-domain Code Vulnerability Detection. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, EMNLP 2023, Singapore, December 6-10, 2023.

Cite DOI URL

Tianhui Shi, Jidong Zhai, Haojie Wang, Qiqian Chen, Mingshu Zhai, Zixu Hao, Haoyu Yang, Wenguang Chen (2023). GraphSet: High Performance Graph Mining through Equivalent Set Transformations. Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC 2023, Denver, CO, USA, November 12-17, 2023.

Cite DOI URL

Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu, Wendi Zheng, Xiao Xia, Weng Lam Tam, Zixuan Ma, Yufei Xue, Jidong Zhai, Wenguang Chen, Zhiyuan Liu, Peng Zhang, Yuxiao Dong, Jie Tang (2023). GLM-130B: An Open Bilingual Pre-trained Model. The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023.

Cite URL

Yihua Hu, Feng Zhang, Yifei Xia, Zhiming Yao, Letian Zeng, Haipeng Ding, Zhewei Wei, Xiao Zhang, Jidong Zhai, Xiaoyong Du, Siqi Ma (2023). Enabling Efficient Random Access to Hierarchically Compressed Text Data on Diverse GPU Platforms. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Liyan Zheng, Haojie Wang, Jidong Zhai, Muyan Hu, Zixuan Ma, Tuowei Wang, Shuhong Huang, Xupeng Miao, Shizhi Tang, Kezhao Huang, Zhihao Jia (2023). EINNET: Optimizing Tensor Programs with Derivation-Based Transformations. 17th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2023, Boston, MA, USA, July 10-12, 2023.

Cite URL

Juncheng Cao, Kaiyuan Rong, Mingshu Zhai, Zeyu Song, Yanyu Ren, Yuxi Zhu, Wentao Han, Jidong Zhai (2023). Critique of \"A Parallel Framework for Constraint-Based Bayesian Network Learning via Markov Blanket Discovery\" by SCC Team From Tsinghua University. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Zheng Chen, Feng Zhang, Jiawei Guan, Jidong Zhai, Xipeng Shen, Huanchen Zhang, Wentong Shu, Xiaoyong Du (2023). CompressGraph: Efficient Parallel Graph Analytics with Rule-Based Compression. Proc. ACM Manag. Data.

Cite DOI URL

Chen Zhang, Lingxiao Ma, Jilong Xue, Yining Shi, Ziming Miao, Fan Yang, Jidong Zhai, Zhi Yang, Mao Yang (2023). Cocktailer: Analyzing and Optimizing Dynamic Control Flow in Deep Learning. 17th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2023, Boston, MA, USA, July 10-12, 2023.

Cite URL

Zhen Zheng, Zaifeng Pan, Dalin Wang, Kai Zhu, Wenyi Zhao, Tianyou Guo, Xiafei Qiu, Minmin Sun, Junjie Bai, Feng Zhang, Xiaoyong Du, Jidong Zhai, Wei Lin (2023). BladeDISC: Optimizing Dynamic Shape Machine Learning Workloads via Compiler Approach. Proc. ACM Manag. Data.

Cite DOI URL

Wei Liu, Jiangming Jin, Hao Wu, Yifan Gong, Ziyue Jiang, Jidong Zhai (2022). Zoro: A robotic middleware combining high performance and high reliability. J. Parallel Distributed Comput..

Cite DOI URL

Liyan Zheng, Jidong Zhai, Xiongchao Tang, Haojie Wang, Teng Yu, Yuyang Jin, Shuaiwen Leon Song, Wenguang Chen (2022). Vapro: performance variance detection and diagnosis for production-run parallel applications. PPoPP ‘22: 27th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, Seoul, Republic of Korea, April 2 - 6, 2022.

Cite DOI URL

Chen Zhang, Haojie Wang, Zixuan Ma, Lei Xie, Zeyu Song, Jidong Zhai (2022). UniQ: A Unified Programming Model for Efficient Quantum Circuit Simulation. SC22: International Conference for High Performance Computing, Networking, Storage and Analysis, Dallas, TX, USA, November 13-18, 2022.

Cite DOI URL

Lei Xie, Jidong Zhai, Zhenxing Zhang, Jonathan Allcock, Shengyu Zhang, Yicong Zheng (2022). Suppressing ZZ crosstalk of Quantum computers through pulse and scheduling co-optimization. ASPLOS ‘22: 27th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Lausanne, Switzerland, 28 February 2022 - 4 March 2022.

Cite DOI URL

Feng Zhang, Jidong Zhai, Xipeng Shen, Onur Mutlu, Xiaoyong Du (2022). POCLib: A High-Performance Framework for Enabling Near Orthogonal Processing on Compression. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Feng Zhang, Yani Liu, Ningxuan Feng, Cheng Yang, Jidong Zhai, Shuhao Zhang, Bingsheng He, Jiazao Lin, Xiao Zhang, Xiaoyong Du (2022). Periodic Weather-Aware LSTM With Event Mechanism for Parking Behavior Prediction. IEEE Trans. Knowl. Data Eng..

Cite DOI URL

Yuyang Jin, Haojie Wang, Runxin Zhong, Chen Zhang, Jidong Zhai (2022). PerFlow: a domain specific framework for automatic performance analysis of parallel applications. PPoPP ‘22: 27th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, Seoul, Republic of Korea, April 2 - 6, 2022.

Cite DOI URL

Qingyu Xu, Feng Zhang, Mingde Zhang, Jidong Zhai, Bingsheng He, Cheng Yang, Shuhao Zhang, Jiazao Lin, Haidi Liu, Xiaoyong Du (2022). Payment behavior prediction on shared parking lots with TR-GCN. VLDB J..

Cite DOI URL

Liyan Zheng, Haojie Wang, Jidong Zhai, Muyan Hu, Zixuan Ma, Tuowei Wang, Shizhi Tang, Lei Xie, Kezhao Huang, Zhihao Jia (2022). OLLIE: Derivation-based Tensor Program Optimizer. CoRR.

Cite DOI URL

Yunquan Zhang, Jidong Zhai, Rajiv Ranjan (2022). Message from the High Performance Computing and Communications 2022 Program Chairs. 24th IEEE Int Conf on High Performance Computing & Communications; 8th Int Conf on Data Science & Systems; 20th Int Conf on Smart City; 8th Int Conf on Dependability in Sensor, Cloud & Big Data Systems & Application, HPCC/DSS/SmartCity/DependSys 2022, Hainan, China, December 18-20, 2022.

Cite DOI URL

Jidong Zhai, Liyan Zheng, Jinghan Sun, Feng Zhang, Xiongchao Tang, Xuehai Qian, Bingsheng He, Wei Xue, Wenguang Chen, Weimin Zheng (2022). Leveraging Code Snippets to Detect Variations in the Performance of HPC Systems. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Linxiao Nie, Jiuding Sun, Yanlin Wang, Lun Du, Shi Han, Dongmei Zhang, Lei Hou, Juanzi Li, Jidong Zhai (2022). Guiding the PLMs with Semantic Anchors as Intermediate Supervision: Towards Interpretable Semantic Parsing. CoRR.

Cite DOI URL

Jidong Zhai, Min Si, Antonio J. Peña (2022). Guest Editorial. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Linxiao Nie, Shulin Cao, Jiaxin Shi, Jiuding Sun, Qi Tian, Lei Hou, Juanzi Li, Jidong Zhai (2022). GraphQ IR: Unifying the Semantic Parsing of Graph Query Languages with One Intermediate Representation. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, EMNLP 2022, Abu Dhabi, United Arab Emirates, December 7-11, 2022.

Cite DOI URL

Linxiao Nie, Shulin Cao, Jiaxin Shi, Qi Tian, Lei Hou, Juanzi Li, Jidong Zhai (2022). GraphQ IR: Unifying Semantic Parsing of Graph Query Language with Intermediate Representation. CoRR.

Cite DOI URL

Shizhi Tang, Jidong Zhai, Haojie Wang, Lin Jiang, Liyan Zheng, Zhenhao Yuan, Chen Zhang (2022). FreeTensor: a free-form DSL with holistic optimizations for irregular tensor programs. PLDI ‘22: 43rd ACM SIGPLAN International Conference on Programming Language Design and Implementation, San Diego, CA, USA, June 13 - 17, 2022.

Cite DOI URL

Jiaao He, Jidong Zhai, Tiago Antunes, Haojie Wang, Fuwen Luo, Shangfeng Shi, Qin Li (2022). FasterMoE: modeling and optimizing training of large-scale dynamic pre-trained models. PPoPP ‘22: 27th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, Seoul, Republic of Korea, April 2 - 6, 2022.

Cite DOI URL

Jiesong Liu, Feng Zhang, Hourun Li, Dalin Wang, Weitao Wan, Xiaokun Fang, Jidong Zhai, Xiaoyong Du (2022). Exploring Query Processing on CPU-GPU Integrated Edge Device. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Zaifeng Pan, Feng Zhang, Yanliang Zhou, Jidong Zhai, Xipeng Shen, Onur Mutlu, Xiaoyong Du (2022). Exploring Data Analytics Without Decompression on Embedded GPU Systems. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Zixuan Ma, Haojie Wang, Guanyu Feng, Chen Zhang, Lei Xie, Jiaao He, Shengqi Chen, Jidong Zhai (2022). Efficiently emulating high-bitwidth computation with low-bitwidth hardware. ICS ‘22: 2022 International Conference on Supercomputing, Virtual Event, June 28 - 30, 2022.

Cite DOI URL

Jidong Zhai, Liyan Zheng, Feng Zhang, Xiongchao Tang, Haojie Wang, Teng Yu, Yuyang Jin, Shuaiwen Leon Song, Wenguang Chen (2022). Detecting Performance Variance for Parallel Applications Without Source Code. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Runxin Zhong, Jiajie Chen, Chen Zhang, Mingshu Zhai, Zeyu Song, Yutian Wang, Wentao Han, Lin Gan, Jidong Zhai (2022). Critique of \"MemXCT: Memory-Centric X-Ray CT Reconstruction With Massive Parallelization\" by SCC Team From Tsinghua University. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Feng Zhang, Weitao Wan, Chenyang Zhang, Jidong Zhai, Yunpeng Chai, Haixiang Li, Xiaoyong Du (2022). CompressDB: Enabling Efficient Compressed Data Direct Processing for Various Databases. SIGMOD ‘22: International Conference on Management of Data, Philadelphia, PA, USA, June 12 - 17, 2022.

Cite DOI URL

Zixuan Ma, Jiaao He, Jiezhong Qiu, Huanqi Cao, Yuanwei Wang, Zhenbo Sun, Liyan Zheng, Haojie Wang, Shizhi Tang, Tianyu Zheng, Junyang Lin, Guanyu Feng, Zeqiang Huang, Jie Gao, Aohan Zeng, Jianwei Zhang, Runxin Zhong, Tianhui Shi, Sha Liu, Weimin Zheng, Jie Tang, Hongxia Yang, Xin Liu, Jidong Zhai, Wenguang Chen (2022). BaGuaLu: targeting brain scale pretrained models with over 37 million cores. PPoPP ‘22: 27th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, Seoul, Republic of Korea, April 2 - 6, 2022.

Cite DOI URL

Zhen Zheng, Xuanda Yang, Pengzhan Zhao, Guoping Long, Kai Zhu, Feiwen Zhu, Wenyi Zhao, Xiaoyong Liu, Jun Yang, Jidong Zhai, Shuaiwen Leon Song, Wei Lin (2022). AStitch: enabling a new multi-dimensional optimization space for memory-intensive ML training and inference on modern SIMT architectures. ASPLOS ‘22: 27th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Lausanne, Switzerland, 28 February 2022 - 4 March 2022.

Cite DOI URL

Kezhao Huang, Jidong Zhai, Zhen Zheng, Youngmin Yi, Xipeng Shen (2021). Understanding and bridging the gaps in current GNN performance optimizations. PPoPP ‘21: 26th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, Virtual Event, Republic of Korea, February 27- March 3, 2021.

Cite DOI URL

Feng Zhang, Jidong Zhai, Xipeng Shen, Dalin Wang, Zheng Chen, Onur Mutlu, Wenguang Chen, Xiaoyong Du (2021). TADOC: Text analytics directly on compression. VLDB J..

Cite DOI URL

Xian-He Sun, Dong Li, Wen-Guang Chen, Tao Li, Jiwu Shu, Bo Wu, Jin Xiong, Jinging Xue, Feng Zhang, Jidong Zhai, Zhiia Zhao (2021). Preface. J. Comput. Sci. Technol..

Cite DOI URL

Haojie Wang, Jidong Zhai, Mingyu Gao, Zixuan Ma, Shizhi Tang, Liyan Zheng, Yuanzhi Li, Kaiyuan Rong, Yuanyong Chen, Zhihao Jia (2021). PET: Optimizing Tensor Programs with Partially Equivalent Transformations and Automated Corrections. 15th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2021, July 14-16, 2021.

Cite URL

Lei Xie, Jidong Zhai, Weimin Zheng (2021). Mitigating Crosstalk in Quantum Computers through Commutativity-Based Instruction Reordering. 58th ACM/IEEE Design Automation Conference, DAC 2021, San Francisco, CA, USA, December 5-9, 2021.

Cite DOI URL

Chen Zhang, Zeyu Song, Haojie Wang, Kaiyuan Rong, Jidong Zhai (2021). HyQuas: hybrid partitioner based quantum circuit simulation system on GPU. ICS ‘21: 2021 International Conference on Supercomputing, Virtual Event, USA, June 14-17, 2021.

Cite DOI URL

Pavan Balaji, Jidong Zhai, Min Si (2021). Guest Editorial. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Feng Zhang, Zaifeng Pan, Yanliang Zhou, Jidong Zhai, Xipeng Shen, Onur Mutlu, Xiaoyong Du (2021). G-TADOC: Enabling Efficient GPU-Based Text Analytics without Decompression. CoRR.

Cite URL

Feng Zhang, Zaifeng Pan, Yanliang Zhou, Jidong Zhai, Xipeng Shen, Onur Mutlu, Xiaoyong Du (2021). G-TADOC: Enabling Efficient GPU-Based Text Analytics without Decompression. 37th IEEE International Conference on Data Engineering, ICDE 2021, Chania, Greece, April 19-22, 2021.

Cite DOI URL

Jiaao He, Jiezhong Qiu, Aohan Zeng, Zhilin Yang, Jidong Zhai, Jie Tang (2021). FastMoE: A Fast Mixture-of-Expert Training System. CoRR.

Cite URL

Chen Zhang, Chenggang Zhao, Jiaao He, Shengqi Chen, Liyan Zheng, Kezhao Huang, Wentao Han, Jidong Zhai (2021). Critique of \"Planetary Normal Mode Computation: Parallel Algorithms, Performance, and Reproducibility\" by SCC Team From Tsinghua University. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Teng Yu, Runxin Zhong, Vladimir Janjic, Pavlos Petoumenos, Jidong Zhai, Hugh Leather, John Thomson (2021). Collaborative Heterogeneity-Aware OS Scheduler for Asymmetric Multicore Processors. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Feng Zhang, Jidong Zhai, Bo Wu, Bingsheng He, Wenguang Chen, Xiaoyong Du (2021). Automatic Irregularity-Aware Fine-Grained Workload Partitioning on Integrated Architectures. IEEE Trans. Knowl. Data Eng..

Cite DOI URL

Feng Zhang, Zheng Chen, Chenyang Zhang, Amelie Chi Zhou, Jidong Zhai, Xiaoyong Du (2021). An Efficient Parallel Secure Machine Learning Framework on GPUs. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Zhixiang Ren, Yongheng Liu, Tianhui Shi, Lei Xie, Yue Zhou, Jidong Zhai, Youhui Zhang, Yunquan Zhang, Wenguang Chen (2021). AIPerf: Automated machine learning as an AI-HPC benchmark. Big Data Min. Anal..

Cite DOI URL

Hao Wu, Jiangming Jin, Jidong Zhai, Yifan Gong, Wei Liu (2021). Accelerating GPU Message Communication for Autonomous Navigation Systems. IEEE International Conference on Cluster Computing, CLUSTER 2021, Portland, OR, USA, September 7-10, 2021.

Cite DOI URL

Xiongchao Tang, Chen Zhang, Jidong Zhai, Xuehai Qian, Wenguang Chen, Yong Jiang (2021). A Fast Lock for Explicit Message Passing Architectures. IEEE Trans. Computers.

Cite DOI URL

Feng Zhang, Jidong Zhai, Xipeng Shen, Dalin Wang, Zheng Chen, Onur Mutlu, Wenguang Chen, Xiaoyong Du (2020). TADOC: Text Analytics Directly on Compression. CoRR.

Cite URL

Yuyang Jin, Haojie Wang, Teng Yu, Xiongchao Tang, Torsten Hoefler, Xu Liu, Jidong Zhai (2020). ScalAna: Automating Scaling Loss Detection with Graph Analysis. CoRR.

Cite URL

Yuyang Jin, Haojie Wang, Teng Yu, Xiongchao Tang, Torsten Hoefler, Xu Liu, Jidong Zhai (2020). ScalAna: automating scaling loss detection with graph analysis. Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC 2020, Virtual Event / Atlanta, Georgia, USA, November 9-19, 2020.

Cite DOI URL

Feng Zhang, Ningxuan Feng, Yani Liu, Cheng Yang, Jidong Zhai, Shuhao Zhang, Bingsheng He, Jiazao Lin, Xiaoyong Du (2020). PewLSTM: Periodic LSTM with Weather-Aware Gating Mechanism for Parking Behavior Prediction. Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence, IJCAI 2020.

Cite DOI URL

Qingyu Xu, Feng Zhang, Mingde Zhang, Jidong Zhai, Jiazao Lin, Haidi Liu, Xiaoyong Du (2020). Payment Behavior Prediction and Statistical Analysis for Shared Parking Lots. Network and Parallel Computing - 17th IFIP WG 10.3 International Conference, NPC 2020, Zhengzhou, China, September 28-30, 2020, Revised Selected Papers.

Cite DOI URL

Zheng Chen, Feng Zhang, Amelie Chi Zhou, Jidong Zhai, Chenyang Zhang, Xiaoyong Du (2020). ParSecureML: An Efficient Parallel Secure Machine Learning Framework on GPUs. ICPP 2020: 49th International Conference on Parallel Processing, Edmonton, AB, Canada, August 17-20, 2020.

Cite DOI URL

Ziyue Jiang, Yifan Gong, Jidong Zhai, Yu-Ping Wang, Wei Liu, Hao Wu, Jiangming Jin (2020). Message Passing Optimization in Robot Operating System. Int. J. Parallel Program..

Cite DOI URL

Wei Liu, Yifan Gong, Hao Wu, Jidong Zhai, Jiangming Jin (2020). Memory-Centric Communication Mechanism for Real-time Autonomous Navigation Applications. ICPP 2020: 49th International Conference on Parallel Processing, Edmonton, AB, Canada, August 17-20, 2020.

Cite DOI URL

Yuyang Jin, Haojie Wang, Xiongchao Tang, Torsten Hoefler, Xu Liu, Jidong Zhai (2020). Identifying scalability bottlenecks for large-scale parallel programs with graph analysis. PPoPP ‘20: 25th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, San Diego, California, USA, February 22-26, 2020.

Cite DOI URL

Tianhui Shi, Mingshu Zhai, Yi Xu, Jidong Zhai (2020). GraphPi: High Performance Graph Pattern Matching through Effective Redundancy Elimination. CoRR.

Cite URL

Tianhui Shi, Mingshu Zhai, Yi Xu, Jidong Zhai (2020). GraphPi: high performance graph pattern matching through effective redundancy elimination. Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC 2020, Virtual Event / Atlanta, Georgia, USA, November 9-19, 2020.

Cite DOI URL

Chanyoung Oh, Zhen Zheng, Xipeng Shen, Jidong Zhai, Youngmin Yi (2020). GOPipe: A Granularity-Oblivious Programming Framework for Pipelined Stencil Executions on GPU. PACT ‘20: International Conference on Parallel Architectures and Compilation Techniques, Virtual Event, GA, USA, October 3-7, 2020.

Cite DOI URL

Feng Zhang, Jidong Zhai, Xipeng Shen, Onur Mutlu, Xiaoyong Du (2020). Enabling Efficient Random Access to Hierarchically-Compressed Data. 36th IEEE International Conference on Data Engineering, ICDE 2020, Dallas, TX, USA, April 20-24, 2020.

Cite DOI URL

Lei Xie, Jidong Zhai, Baodong Wu, Yuanbo Wang, Xingcheng Zhang, Peng Sun, Shengen Yan (2020). Elan: Towards Generic and Efficient Elastic Training for Deep Learning. 40th IEEE International Conference on Distributed Computing Systems, ICDCS 2020, Singapore, November 29 - December 1, 2020.

Cite DOI URL

Xiaoyang Wang, Zhe Zhou, Ping Han, Tong Meng, Guangyu Sun, Jidong Zhai (2020). Edge-Stream: a Stream Processing Approach for Distributed Applications on a Hierarchical Edge-computing System. 5th IEEE/ACM Symposium on Edge Computing, SEC 2020, San Jose, CA, USA, November 12-14, 2020.

Cite DOI URL

Zhixiang Ren, Yongheng Liu, Tianhui Shi, Lei Xie, Yue Zhou, Jidong Zhai, Youhui Zhang, Yunquan Zhang, Wenguang Chen (2020). AIPerf: Automated machine learning as an AI-HPC benchmark. CoRR.

Cite URL

Jiaao He, Chenggang Zhao, Jiping Yu, Xinjian Yu, Liyan Zheng, Chenyao Lou, Shizhi Tang, Wentao Han, Jidong Zhai (2019). Student Cluster Competition 2018, Team Tsinghua University: Reproducing performance of multi-physics simulations of the Tsunamigenic 2004 Sumatra megathrust earthquake on the Intel Skylake Architecture. Parallel Comput..

Cite DOI URL

Ningxuan Feng, Feng Zhang, Jiazao Lin, Jidong Zhai, Xiaoyong Du (2019). Statistical Analysis and Prediction of Parking Behavior. Network and Parallel Computing - 16th IFIP WG 10.3 International Conference, NPC 2019, Hohhot, China, August 23-24, 2019, Proceedings.

Cite DOI URL

Xiongchao Tang, Haojie Wang, Xiaosong Ma, Nosayba El-Sayed, Jidong Zhai, Wenguang Chen, Ashraf Aboulnaga (2019). Spread-n-share: improving application performance and cluster throughput with resource-aware job placement. Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC 2019, Denver, Colorado, USA, November 17-19, 2019.

Cite DOI URL

Amelie Chi Zhou, Yao Xiao, Yifan Gong, Bingsheng He, Jidong Zhai, Rui Mao (2019). Privacy Regulation Aware Process Mapping in Geo-Distributed Cloud Data Centers. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Xiongchao Tang, Jidong Zhai, Xuehai Qian, Wenguang Chen (2019). pLock: A Fast Lock for Architectures with Explicit Inter-core Message Passing. Proceedings of the Twenty-Fourth International Conference on Architectural Support for Programming Languages and Operating Systems, ASPLOS 2019, Providence, RI, USA, April 13-17, 2019.

Cite DOI URL

Feng Zhang, Weifeng Liu, Ningxuan Feng, Jidong Zhai, Xiaoyong Du (2019). Performance evaluation and analysis of sparse matrix and graph kernels on heterogeneous processors. CCF Trans. High Perform. Comput..

Cite DOI URL

Zhen Zheng, Chanyoung Oh, Jidong Zhai, Xipeng Shen, Youngmin Yi, Wenguang Chen (2019). HiWayLib: A Software Framework for Enabling High Performance Communications for Heterogeneous Pipeline Computations. Proceedings of the Twenty-Fourth International Conference on Architectural Support for Programming Languages and Operating Systems, ASPLOS 2019, Providence, RI, USA, April 13-17, 2019.

Cite DOI URL

Feng Zhang, Jidong Zhai, Marc Snir, Hai Jin, Hironori Kasahara, Mateo Valero (2019). Guest Editorial: Special Issue on Network and Parallel Computing for Emerging Architectures and Applications. Int. J. Parallel Program..

Cite DOI URL

Chanyoung Oh, Zhen Zheng, Xipeng Shen, Jidong Zhai, Youngmin Yi (2019). GOPipe: a granularity-oblivious programming framework for pipelined stencil executions on GPU. Proceedings of the 24th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, PPoPP 2019, Washington, DC, USA, February 16-20, 2019.

Cite DOI URL

Bin Yang, Xu Ji, Xiaosong Ma, Xiyang Wang, Tianyu Zhang, Xiupeng Zhu, Nosayba El-Sayed, Haidong Lan, Yibo Yang, Jidong Zhai, Weiguo Liu, Wei Xue (2019). End-to-end I/O Monitoring on a Leading Supercomputer. 16th USENIX Symposium on Networked Systems Design and Implementation, NSDI 2019, Boston, MA, February 26-28, 2019.

Cite URL

Xu Ji, Bin Yang, Tianyu Zhang, Xiaosong Ma, Xiupeng Zhu, Xiyang Wang, Nosayba El-Sayed, Jidong Zhai, Weiguo Liu, Wei Xue (2019). Automatic, Application-Aware I/O Forwarding Resource Allocation. 17th USENIX Conference on File and Storage Technologies, FAST 2019, Boston, MA, February 25-28, 2019.

Cite URL

Feng Zhang, Jidong Zhai, Xipeng Shen, Onur Mutlu, Wenguang Chen (2018). Zwift: A Programming Framework for High Performance Text Analytics on Compressed Data. Proceedings of the 32nd International Conference on Supercomputing, ICS 2018, Beijing, China, June 12-15, 2018.

Cite DOI URL

Xiongchao Tang, Jidong Zhai, Xuehai Qian, Bingsheng He, Wei Xue, Wenguang Chen (2018). vSensor: leveraging fixed-workload snippets of programs for performance variance detection. Proceedings of the 23rd ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, PPoPP 2018, Vienna, Austria, February 24-28, 2018.

Cite DOI URL

Ka Cheong Jason Lau, Yuxuan Li, Lei Xie, Qian Xie, Beichen Li, Yu Chen, Guanyu Feng, Jiping Yu, Xinjian Yu, Miao Wang, Wentao Han, Jidong Zhai (2018). Student cluster competition 2017, team Tsinghua University: Reproducing vectorization of the tersoff multi-body potential on the Intel Skylake and NVIDIA Volta architectures. Parallel Comput..

Cite DOI URL

Haojie Wang, Jidong Zhai, Xiongchao Tang, Bowen Yu, Xiaosong Ma, Wenguang Chen (2018). Spindle: Informed Memory Access Monitoring. Proceedings of the 2018 USENIX Annual Technical Conference, USENIX ATC 2018, Boston, MA, USA, July 11-13, 2018.

Cite URL

Feng Zhang, Jidong Zhai, Marc Snir, Hai Jin, Hironori Kasahara, Mateo Valero (2018). Network and Parallel Computing - 15th IFIP WG 10.3 International Conference, NPC 2018, Muroran, Japan, November 29 - December 1, 2018, Proceedings. Springer.

Cite DOI URL

Feng Zhang, Jidong Zhai, Xipeng Shen, Onur Mutlu, Wenguang Chen (2018). Efficient Document Analytics on Compressed Data: Method, Challenges, Algorithms, Insights. Proc. VLDB Endow..

PDF Cite DOI

Youwei Zhuo, Jinglei Cheng, Qinyi Luo, Jidong Zhai, Yanzhi Wang, Zhongzhi Luan, Xuehai Qian (2018). CSE: Parallel Finite State Machines with Convergence Set Enumeration. 51st Annual IEEE/ACM International Symposium on Microarchitecture, MICRO 2018, Fukuoka, Japan, October 20-24, 2018.

Cite DOI URL

Yuwei Hu, Jidong Zhai, Dinghua Li, Yifan Gong, Yuhao Zhu, Wei Liu, Lei Su, Jiangming Jin (2018). BitFlow: Exploiting Vector Parallelism for Binary Neural Networks on CPU. 2018 IEEE International Parallel and Distributed Processing Symposium, IPDPS 2018, Vancouver, BC, Canada, May 21-25, 2018.

Cite DOI URL

Xiongchao Tang, Jidong Zhai, Bowen Yu, Wenguang Chen, Weimin Zheng, Keqin Li (2018). An Efficient In-Memory Checkpoint Method and its Practice on Fault-Tolerant HPL. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Feng Zhang, Heng Lin, Jidong Zhai, Jie Cheng, Dingyi Xiang, Jizhong Li, Yunpeng Chai, Xiaoyong Du (2018). An adaptive breadth-first search algorithm on integrated architectures. J. Supercomput..

Cite DOI URL

Jidong Zhai, Wen-Guang Chen (2018). A vision of post-exascale programming. Frontiers Inf. Technol. Electron. Eng..

Cite DOI URL

Zhen Zheng, Chanyoung Oh, Jidong Zhai, Xipeng Shen, Youngmin Yi, Wenguang Chen (2017). Versapipe: a versatile programming framework for pipelined computing on GPU. Proceedings of the 50th Annual IEEE/ACM International Symposium on Microarchitecture, MICRO 2017, Cambridge, MA, USA, October 14-18, 2017.

Cite DOI URL

Feng Zhang, Jidong Zhai, Bingsheng He, Shuhao Zhang, Wenguang Chen (2017). Understanding Co-Running Behaviors on Integrated CPU/GPU Architectures. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Xiongchao Tang, Jidong Zhai, Bowen Yu, Wenguang Chen, Weimin Zheng (2017). Self-Checkpoint: An In-Memory Checkpoint Method Using Less Space and Its Practice on Fault-Tolerant HPL. Proceedings of the 22nd ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, Austin, TX, USA, February 4-8, 2017.

Cite DOI URL

Heng Lin, Xiongchao Tang, Bowen Yu, Youwei Zhuo, Wenguang Chen, Jidong Zhai, Wanwang Yin, Weimin Zheng (2017). Scalable Graph Traversal on Sunway TaihuLight with Ten Million Cores. 2017 IEEE International Parallel and Distributed Processing Symposium, IPDPS 2017, Orlando, FL, USA, May 29 - June 2, 2017.

Cite DOI URL

Feng Zhang, Bo Wu, Jidong Zhai, Bingsheng He, Wenguang Chen (2017). FinePar: irregularity-aware fine-grained workload partitioning on integrated architectures. Proceedings of the 2017 International Symposium on Code Generation and Optimization, CGO 2017, Austin, TX, USA, February 4-8, 2017.

Cite URL

Amelie Chi Zhou, Yifan Gong, Bingsheng He, Jidong Zhai (2017). Efficient process mapping in geo-distributed cloud data centers. Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC 2017, Denver, CO, USA, November 12 - 17, 2017.

Cite DOI URL

Shuo Yang, Kai Wu, Yifan Qiao, Dong Li, Jidong Zhai (2017). Algorithm-Directed Crash Consistence in Non-Volatile Memory for HPC. CoRR.

Cite URL

Shuo Yang, Kai Wu, Yifan Qiao, Dong Li, Jidong Zhai (2017). Algorithm-Directed Crash Consistence in Non-volatile Memory for HPC. 2017 IEEE International Conference on Cluster Computing, CLUSTER 2017, Honolulu, HI, USA, September 5-8, 2017.

Cite DOI URL

Jidong Zhai, Wenguang Chen, Weimin Zheng, Keqin Li (2016). Performance Prediction for Large-Scale Parallel Applications Using Representative Replay. IEEE Trans. Computers.

Cite DOI URL

Jidong Zhai, Feng Zhang, Qingwen Li, Wenguang Chen, Weimin Zheng (2016). Characterizing and optimizing TPC-C workloads on large-scale systems using SSD arrays. Sci. China Inf. Sci..

Cite DOI URL

Shuangcheng Niu, Jidong Zhai, Xiaosong Ma, Xiongchao Tang, Wenguang Chen, Weimin Zheng (2016). Building Semi-Elastic Virtual Clusters for Cost-Effective HPC Cloud Resource Provisioning. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Haibao Chen, Song Wu, Hai Jin, Wenguang Chen, Jidong Zhai, Yingwei Luo, Xiaolin Wang (2016). A survey of cloud resource management for complex engineering applications. Frontiers Comput. Sci..

Cite DOI URL

Xinliang Wang, Wei Xue, Jidong Zhai, Yangtong Xu, Weimin Zheng, Hai-Xiang Lin (2016). A Fast Tridiagonal Solver for Intel MIC Architecture. 2016 IEEE International Parallel and Distributed Processing Symposium, IPDPS 2016, Chicago, IL, USA, May 23-27, 2016.

Cite DOI URL

Feng Zhang, Jidong Zhai, Wenguang Chen, Bingsheng He, Shuhao Zhang (2015). To Co-run, or Not to Co-run: A Performance Study on Integrated Architectures. 23rd IEEE International Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems, MASCOTS 2015, Atlanta, GA, USA, October 5-7, 2015.

Cite DOI URL

Ikjoon Kim, Jidong Zhai, Yan Li, Wenguang Chen (2015). Optimizing seam carving on multi-GPU systems for real-time content-aware image resizing. J. Supercomput..

Cite DOI URL

Jidong Zhai, Mingliang Liu, Ye Jin, Xiaosong Ma, Wenguang Chen (2015). Automatic Cloud I/O Configurator for I/O Intensive Parallel Applications. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Yunyun Jiang, Tian Xiao, Jidong Zhai, Ying Zhao, Wenguang Chen (2015). A Power-Conserving Online Scheduling Scheme for Video Streaming Services. Algorithms and Architectures for Parallel Processing - 15th International Conference, ICA3PP 2015, Zhangjiajie, China, November 18-20, 2015, Proceedings, Part I.

Cite DOI URL

Ikjoon Kim, Jidong Zhai, Yan Li, Wenguang Chen (2014). Optimizing Seam Carving on multi-GPU systems for real-time image resizing. 20th IEEE International Conference on Parallel and Distributed Systems, ICPADS 2014, Hsinchu, Taiwan, December 16-19, 2014.

Cite DOI URL

Jidong Zhai, Jianfei Hu, Xiongchao Tang, Xiaosong Ma, Wenguang Chen (2014). CYPRESS: Combining Static and Dynamic Analysis for Top-Down Communication Trace Compression. International Conference for High Performance Computing, Networking, Storage and Analysis, SC 2014, New Orleans, LA, USA, November 16-21, 2014.

Cite DOI URL

Shuangcheng Niu, Jidong Zhai, Xiaosong Ma, Xiongchao Tang, Wenguang Chen (2013). Cost-effective cloud HPC resource provisioning by building semi-elastic virtual clusters. International Conference for High Performance Computing, Networking, Storage and Analysis, SC'13, Denver, CO, USA - November 17 - 21, 2013.

Cite DOI URL

Mingliang Liu, Ye Jin, Jidong Zhai, Yan Zhai, Qianqian Shi, Xiaosong Ma, Wenguang Chen (2013). ACIC: automatic cloud I/O configurator for parallel applications. The 22nd International Symposium on High-Performance Parallel and Distributed Computing, HPDC'13, New York, NY, USA - June 17 - 21, 2013.

Cite URL

Mingliang Liu, Ye Jin, Jidong Zhai, Yan Zhai, Qianqian Shi, Xiaosong Ma, Wenguang Chen (2013). ACIC: automatic cloud I/O configurator for HPC applications. International Conference for High Performance Computing, Networking, Storage and Analysis, SC'13, Denver, CO, USA - November 17 - 21, 2013.

Cite DOI URL

Shuangcheng Niu, Jidong Zhai, Xiaosong Ma, Mingliang Liu, Yan Zhai, Wenguang Chen, Weimin Zheng (2012). Employing Checkpoint to Improve Job Scheduling in Large-Scale Systems. Job Scheduling Strategies for Parallel Processing, 16th International Workshop, JSSPP 2012, Shanghai, China, May 25, 2012. Revised Selected Papers.

Cite DOI URL

Mingliang Liu, Jidong Zhai, Yan Zhai, Xiaosong Ma, Wenguang Chen (2011). One optimized I/O configuration per HPC application: leveraging the configurability of cloud. APSys ‘11 Asia Pacific Workshop on Systems, Shanghai, China, July 11-12, 2011.

Cite DOI URL

Jidong Zhai, Tianwei Sheng, Jiangzhou He, Wenguang Chen, Weimin Zheng (2011). Efficiently Acquiring Communication Traces for Large-Scale Parallel Applications. IEEE Trans. Parallel Distributed Syst..

Cite DOI URL

Yan Zhai, Mingliang Liu, Jidong Zhai, Xiaosong Ma, Wenguang Chen (2011). Cloud versus in-house cluster: evaluating Amazon cluster compute instances for running MPI applications. Conference on High Performance Computing Networking, Storage and Analysis - State of the Practice Reports, SC 2011, Seattle, Washington, USA, November 12-18, 2011.

Cite DOI URL

Jidong Zhai, Wenguang Chen, Weimin Zheng (2010). PHANTOM: predicting performance of parallel applications on large-scale parallel machines using a single node. Proceedings of the 15th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, PPOPP 2010, Bangalore, India, January 9-14, 2010.

Cite DOI URL

Jin Zhang, Jidong Zhai, Wenguang Chen, Weimin Zheng (2009). Process Mapping for MPI Collective Communications. Euro-Par 2009 Parallel Processing, 15th International Euro-Par Conference, Delft, The Netherlands, August 25-28, 2009. Proceedings.

Cite DOI URL

Wenguang Chen, Jidong Zhai, Jin Zhang, Weimin Zheng (2009). LogGPO: An accurate communication model for performance prediction of MPI programs. Sci. China Ser. F Inf. Sci..

Cite DOI URL

Jidong Zhai, Tianwei Sheng, Jiangzhou He, Wenguang Chen, Weimin Zheng (2009). FACT: fast communication trace collection for parallel applications through program slicing. Proceedings of the ACM/IEEE Conference on High Performance Computing, SC 2009, November 14-20, 2009, Portland, Oregon, USA.

Cite DOI URL