← Назад к работе
Работы, на которые ссылается эта работа
Работ: 34
Работа: Video Captioning with Spatio-Temporal Graph Transformers
ActivityNet: A large-scale video benchmark for human activity understanding
Fabian Caba Heilbron, Víctor Escorcia, Bernard Ghanem +1
Статья2015Цитирований: 3ABITowards Automatic Learning of Procedures From Web Instructional Videos
Luowei Zhou, Chenliang Xu, Jason J. Corso
Статья2018Цитирований: 3ABIVid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning
Antoine Yang, Arsha Nagrani, Paul Hongsuck Seo +5
Статья2023Цитирований: 3ABIVideo Captioning Using Large Language Models
Priyanshu Malaviya, Dhruvit Patel, Santosh Kumar Bharti
Статья2024Цитирований: 3ABIStreaming Dense Video Captioning
Xingyi Zhou, Anurag Arnab, Shyamal Buch +5
Статья2024Цитирований: 2ABICIDEr: Consensus-based image description evaluation
Ramakrishna Vedantam, C. Lawrence Zitnick, Devi Parikh
Статья2015Цитирований: 2ABIVideo ReCap: Recursive Captioning of Hour-Long Videos
Md Mohaiminul Islam, Ngan Ho, Xitong Yang +3
Статья2024Цитирований: 2ABI