GEMv2: Multilingual NLG benchmarking in a single line of code

Sebastian Gehrmann; Abhik Bhattacharjee; Abinaya Mahendiran; Alex Wang; Alexandros Papangelis; Aman Madaan; Angelina McMillan-Major; Anna Shvets; Ashish Upadhyay; Bernd Bohnet; Bingsheng Yao; Bryan Wilie; Chandra Bhagavatula; Chaobin You; Craig Thomson; Cristina Garbacea; Dakuo Wang; Daniel Deutsch; Deyi Xiong; Di Jin; Dimitra Gkatzia; Dragomir Radev; Elizabeth Clark; Esin Durmus; Faisal Ladhak; Filip Ginter; Genta Indra Winata; Hendrik Strobelt; Jekaterina Novikova; Jenna Kanerva; Jenny Chim; Jiawei Zhou; Jordan Clive; Joshua Maynez; João Sedoc; Juraj Juraska; Kaustubh Dhole; Khyathi Raghavi Chandu; Laura Perez-Beltrachini; Leonardo Ribeiro; Lewis Tunstall; Li Zhang; Mahima Pushkarna; Mathias Creutz; Michael White; Mihir Sanjay Kale; Moussa Kamal Eddine; Nico Daheim; Nishant Subramani; Ondrej Dusek; Paul Pu Liang; Pawan Sasanka Ammanamanch; Qi Zhu; Ratish Puduppully; Reno Kriz; Rifat Shahriyar; Saad Mahamood; Salomey Osei; Samuel Cahyawijaya; Sanja Štajner; Sebastien Montella; Shailza Jolly; Simon Mille; Tianhao Shen; Tosin Adewumi; Vikas Raunak; Vipul Raheja; Vitaly Nikolaev; Vivian Tsai; Yacine Jernite; Ying Xu; Yisi Sang; Yixin Liu; Yufang Hou

Publication

GEMv2: Multilingual NLG benchmarking in a single line of code

By Sebastian Gehrmann, Abhik Bhattacharjee, Abinaya Mahendiran, Alex Wang, Alexandros Papangelis, Aman Madaan, Angelina McMillan-Major, Anna Shvets, Ashish Upadhyay, Bernd Bohnet, Bingsheng Yao, Bryan Wilie, Chandra Bhagavatula, Chaobin You, Craig Thomson, Cristina Garbacea, Dakuo Wang, Daniel Deutsch, Deyi Xiong, Di Jin, Dimitra Gkatzia, Dragomir Radev, Elizabeth Clark, Esin Durmus, Faisal Ladhak, Filip Ginter, Genta Indra Winata, Hendrik Strobelt, Jekaterina Novikova, Jenna Kanerva, Jenny Chim, Jiawei Zhou, Jordan Clive, Joshua Maynez, João Sedoc, Juraj Juraska, Kaustubh Dhole, Khyathi Raghavi Chandu, Laura Perez-Beltrachini, Leonardo Ribeiro, Lewis Tunstall, Li Zhang, Mahima Pushkarna, Mathias Creutz, Michael White, Mihir Sanjay Kale, Moussa Kamal Eddine, Nico Daheim, Nishant Subramani, Ondrej Dusek, Paul Pu Liang, Pawan Sasanka Ammanamanch, Qi Zhu, Ratish Puduppully, Reno Kriz, Rifat Shahriyar, Saad Mahamood, Salomey Osei, Samuel Cahyawijaya, Sanja Štajner, Sebastien Montella, Shailza Jolly, Simon Mille, Tianhao Shen, Tosin Adewumi, Vikas Raunak, Vipul Raheja, Vitaly Nikolaev, Vivian Tsai, Yacine Jernite, Ying Xu, Yisi Sang, Yixin Liu, Yufang Hou

2022

Download Copy BibTeX

@Article{Gehrmann2022,
 author = {Sebastian Gehrmann and Abhik Bhattacharjee and Abinaya Mahendiran and Alex Wang and Alexandros Papangelis and Aman Madaan and Angelina McMillan-Major and Anna Shvets and Ashish Upadhyay and Bernd Bohnet and Bingsheng Yao and Bryan Wilie and Chandra Bhagavatula and Chaobin You and Craig Thomson and Cristina Garbacea and Dakuo Wang and Daniel Deutsch and Deyi Xiong and Di Jin and Dimitra Gkatzia and Dragomir Radev and Elizabeth Clark and Esin Durmus and Faisal Ladhak and Filip Ginter and Genta Indra Winata and Hendrik Strobelt and Jekaterina Novikova and Jenna Kanerva and Jenny Chim and Jiawei Zhou and Jordan Clive and Joshua Maynez and João Sedoc and Juraj Juraska and Kaustubh Dhole and Khyathi Raghavi Chandu and Laura Perez-Beltrachini and Leonardo Ribeiro and Lewis Tunstall and Li Zhang and Mahima Pushkarna and Mathias Creutz and Michael White and Mihir Sanjay Kale and Moussa Kamal Eddine and Nico Daheim and Nishant Subramani and Ondrej Dusek and Paul Pu Liang and Pawan Sasanka Ammanamanch and Qi Zhu and Ratish Puduppully and Reno Kriz and Rifat Shahriyar and Saad Mahamood and Salomey Osei and Samuel Cahyawijaya and Sanja Štajner and Sebastien Montella and Shailza Jolly and Simon Mille and Tianhao Shen and Tosin Adewumi and Vikas Raunak and Vipul Raheja and Vitaly Nikolaev and Vivian Tsai and Yacine Jernite and Ying Xu and Yisi Sang and Yixin Liu and Yufang Hou},
 title = {GEMv2: Multilingual NLG benchmarking in a single line of code},
 year = {2022},
 url = {https://www.amazon.science/publications/gemv2-multilingual-nlg-benchmarking-in-a-single-line-of-code},
}

Share

Download

Copy BibTeX

@Article{Gehrmann2022,
 author = {Sebastian Gehrmann and Abhik Bhattacharjee and Abinaya Mahendiran and Alex Wang and Alexandros Papangelis and Aman Madaan and Angelina McMillan-Major and Anna Shvets and Ashish Upadhyay and Bernd Bohnet and Bingsheng Yao and Bryan Wilie and Chandra Bhagavatula and Chaobin You and Craig Thomson and Cristina Garbacea and Dakuo Wang and Daniel Deutsch and Deyi Xiong and Di Jin and Dimitra Gkatzia and Dragomir Radev and Elizabeth Clark and Esin Durmus and Faisal Ladhak and Filip Ginter and Genta Indra Winata and Hendrik Strobelt and Jekaterina Novikova and Jenna Kanerva and Jenny Chim and Jiawei Zhou and Jordan Clive and Joshua Maynez and João Sedoc and Juraj Juraska and Kaustubh Dhole and Khyathi Raghavi Chandu and Laura Perez-Beltrachini and Leonardo Ribeiro and Lewis Tunstall and Li Zhang and Mahima Pushkarna and Mathias Creutz and Michael White and Mihir Sanjay Kale and Moussa Kamal Eddine and Nico Daheim and Nishant Subramani and Ondrej Dusek and Paul Pu Liang and Pawan Sasanka Ammanamanch and Qi Zhu and Ratish Puduppully and Reno Kriz and Rifat Shahriyar and Saad Mahamood and Salomey Osei and Samuel Cahyawijaya and Sanja Štajner and Sebastien Montella and Shailza Jolly and Simon Mille and Tianhao Shen and Tosin Adewumi and Vikas Raunak and Vipul Raheja and Vitaly Nikolaev and Vivian Tsai and Yacine Jernite and Ying Xu and Yisi Sang and Yixin Liu and Yufang Hou},
 title = {GEMv2: Multilingual NLG benchmarking in a single line of code},
 year = {2022},
 url = {https://www.amazon.science/publications/gemv2-multilingual-nlg-benchmarking-in-a-single-line-of-code},
}

Share

Evaluations in machine learning rarely use the latest metrics, datasets, or human evaluation in favor of remaining compatible with prior work. The compatibility, often facilitated through leaderboards, thus leads to outdated but standardized evaluation practices. We pose that the standardization is taking place in the wrong spot. Evaluation infrastructure should enable researchers to use the latest methods and what should be standardized instead is how to incorporate these new evaluation advances. We introduce GEMv2, the new version of the Generation, Evaluation, and Metrics Benchmark which uses a modular infrastructure for dataset, model, and metric developers to benefit from each other’s work. GEMv2 supports 40 documented datasets in 51 languages, ongoing online evaluation for all datasets, and our interactive tools make it easier to add new datasets to the living benchmark

GEMv2: Multilingual NLG benchmarking in a single line of code

Latest news

Work with us