Tengyang Xie

Zitiert von

	Alle	Seit 2019
Zitate	1312	1311
h-index	14	14
i10-index	15	15

460

230

115

345

20192020202120222023202410 57 152 245 395 450

Öffentlicher Zugriff

Alle anzeigen

8 Artikel

0 Artikel

verfügbar

nicht verfügbar

Basierend auf Fördermandaten

Koautoren

Nan JiangAssistant Professor of Computer Science, UIUCBestätigte E-Mail-Adresse bei illinois.edu
Ching-An ChengMicrosoft ResearchBestätigte E-Mail-Adresse bei microsoft.com
Yu BaiOpenAIBestätigte E-Mail-Adresse bei salesforce.com
Paul MineiroMicrosoftBestätigte E-Mail-Adresse bei mineiro.com
Alekh AgarwalGoogleBestätigte E-Mail-Adresse bei google.com
Yu-Xiang WangAssociate Professor @ UC San DiegoBestätigte E-Mail-Adresse bei ucsd.edu
Dylan J. FosterPrincipal Researcher, Microsoft ResearchBestätigte E-Mail-Adresse bei microsoft.com
Yifei MaApplied Scientist, Amazon.ComBestätigte E-Mail-Adresse bei amazon.com
Caiming XiongSalesforce ResearchBestätigte E-Mail-Adresse bei salesforce.com
Huan WangSalesforce ResearchBestätigte E-Mail-Adresse bei yale.edu
Wen SunAssistant Professor, Cornell UniversityBestätigte E-Mail-Adresse bei cornell.edu
Corby RossetMicrosoft BingBestätigte E-Mail-Adresse bei microsoft.com
Ahmed Hassan AwadallahMicrosoft ResearchBestätigte E-Mail-Adresse bei microsoft.com
Philip AmortilaUniversity of Illinois, Urbana-ChampaignBestätigte E-Mail-Adresse bei illinois.edu
Mohak BhardwajUniversity of WashingtonBestätigte E-Mail-Adresse bei cs.washington.edu
John LangfordMicrosoft Research New YorkBestätigte E-Mail-Adresse bei hunch.net
Nathan KallusCornell UniversityBestätigte E-Mail-Adresse bei cornell.edu
Masatoshi UeharaGenentechBestätigte E-Mail-Adresse bei gene.com
Masaaki ImaizumiThe University of Tokyo / RIKEN AIPBestätigte E-Mail-Adresse bei g.ecc.u-tokyo.ac.jp
Sham M KakadeHarvard UniversityBestätigte E-Mail-Adresse bei seas.harvard.edu

Folgen

Tengyang Xie

Assistant Professor of Computer Science, University of Wisconsin-Madison

Bestätigte E-Mail-Adresse bei cs.wisc.edu - Startseite

Reinforcement Learning Machine Learning Artificial Intelligence


Titel Nach Zitationen sortieren Nach Jahr sortieren Nach Titel sortieren	Zitiert von Zitiert von	Jahr
Bellman-consistent pessimism for offline reinforcement learning T Xie, CA Cheng, N Jiang, P Mineiro, A Agarwal Advances in neural information processing systems 34, 6683-6694, 2021	260	2021
Towards Optimal Off-Policy Evaluation for Reinforcement Learning with Marginalized Importance Sampling T Xie, Y Ma, YX Wang Advances in Neural Information Processing Systems, 9665-9675, 2019	178	2019
Policy finetuning: Bridging sample-efficient offline and online reinforcement learning T Xie, N Jiang, H Wang, C Xiong, Y Bai Advances in neural information processing systems 34, 27395-27407, 2021	155	2021
Batch value-function approximation with only realizability T Xie, N Jiang International Conference on Machine Learning, 11404-11413, 2021	115	2021
Adversarially trained actor critic for offline reinforcement learning CA Cheng, T Xie, N Jiang, A Agarwal International Conference on Machine Learning, 3852-3878, 2022	112	2022
Provably efficient q-learning with low switching cost Y Bai, T Xie, N Jiang, YX Wang Advances in Neural Information Processing Systems, 8004-8013, 2019	103	2019
Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical Comparison T Xie, N Jiang Proceedings of the 36th Conference on Uncertainty in Artificial Intelligence …, 2020	100	2020
Finite sample analysis of minimax offline reinforcement learning: Completeness, fast rates and first-order efficiency M Uehara, M Imaizumi, N Jiang, N Kallus, W Sun, T Xie arXiv preprint arXiv:2102.02981, 2021	60	2021
The role of coverage in online reinforcement learning T Xie, DJ Foster, Y Bai, N Jiang, SM Kakade arXiv preprint arXiv:2210.04157, 2022	55	2022
A Block Coordinate Ascent Algorithm for Mean-Variance Optimization T Xie, B Liu, Y Xu, M Ghavamzadeh, Y Chow, D Lyu, D Yoon Advances in Neural Information Processing Systems, 1073-1083, 2018	36	2018
Direct nash optimization: Teaching language models to self-improve with general preferences C Rosset, CA Cheng, A Mitra, M Santacroce, A Awadallah, T Xie arXiv preprint arXiv:2404.03715, 2024	33	2024
A variant of the wang-foster-kakade lower bound for the discounted setting P Amortila, N Jiang, T Xie arXiv preprint arXiv:2011.01075, 2020	25	2020
Adversarial model for offline reinforcement learning M Bhardwaj, T Xie, B Boots, N Jiang, CA Cheng Advances in Neural Information Processing Systems 36, 2024	20	2024
Preference fine-tuning of llms should leverage suboptimal, on-policy data F Tajwar, A Singh, A Sharma, R Rafailov, J Schneider, T Xie, S Ermon, ... arXiv preprint arXiv:2404.14367, 2024	19	2024
Interaction-Grounded Learning T Xie, J Langford, P Mineiro, I Momennejad International Conference on Machine Learning, 11414-11423, 2021	10	2021
Armor: A model-based framework for improving arbitrary baseline policies with offline data T Xie, M Bhardwaj, N Jiang, CA Cheng arXiv preprint arXiv:2211.04538, 2022	8	2022
Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF T Xie, DJ Foster, A Krishnamurthy, C Rosset, A Awadallah, A Rakhlin arXiv preprint arXiv:2405.21046, 2024	5	2024
Interaction-grounded learning with action-inclusive feedback T Xie, A Saran, DJ Foster, L Molu, I Momennejad, N Jiang, P Mineiro, ... Advances in Neural Information Processing Systems 35, 12529-12541, 2022	5	2022
Harnessing density ratios for online reinforcement learning P Amortila, DJ Foster, N Jiang, A Sekhari, T Xie arXiv preprint arXiv:2401.09681, 2024	4	2024
Privacy preserving off-policy evaluation T Xie, PS Thomas, G Miklau arXiv preprint arXiv:1902.00174, 2019	4	2019

Das System kann den Vorgang jetzt nicht ausführen. Versuchen Sie es später erneut.

Artikel 1–20

Zitate pro Jahr

Doppelte Zitate

Zusammengeführte Zitate

Koautor hinzufügenKoautoren

Folgen

Zitiert von

Koautoren