RedPajama-Data-v2: an Open Dataset with 30 Trillion Tokens for Training Large Language Models

APaperADay@alien.top · 2 years ago

RedPajama-Data-v2: an Open Dataset with 30 Trillion Tokens for Training Large Language Models

FairSum@alien.top · 2 years ago

Man, 30T tokens deduplicated is a lot of data.

For reference, Llama 2 was trained on 2T tokens and GPT-4 was believed to have been trained on 13T tokens (and my suspicion is Turbo was too). This is much, much more than that.