Во-вторых данные берутся по запросу и касательно только одного пользователя.
Даже если выкачать все посты конкретного пользователя, потом для выявления потенциального плагиата тексты этих сообщений нужно будет сравнить по определённому алгоритму с постами других пользователей, поэтому полагаю, что для полноценного анализа нужна
полная база данных всех постов форума.
В-третьих, информация в текстовом варианте весит не гигабайты.
Да, в этом случае совокупный размер постов будет меньше.