Публичный контент для обучения ИИ может иссякнуть к 2030 году
![Публичный контент для обучения ИИ может иссякнуть к 2030 году](/uploads/mediateka/99/2a/c4dce171b3f1c54c.md.jpg)
Исследователи из группы Epoch предупреждают, что при нынешнем темпе роста вычислительных мощностей и объема данных, доступных для обучения больших языковых моделей (LLM), к началу следующего десятилетия может закончиться публичный контент, созданный человеком. Это существенно затормозит развитие ИИ и потребует изменения стратегии их обучения.
На сегодняшний день LLM, такие как GPT, используют триллионы слов для своего обучения. Однако люди пишут относительно мало, и, по прогнозам, между 2026 и 2032 годами объем доступных данных может исчерпаться. Технологические компании столкнутся с острой нехваткой текстов, созданных людьми. А это ключевой источник данных для обучения ИИ.
Аналитики отмечают, что объем текстовых данных, используемых языковыми моделями, растет в 2,5 раза в год, а вычислительные мощности увеличиваются примерно в четыре раза ежегодно. Например, самая большая версия LLM, Llama 3, была обучена на 15 триллионах токенов, каждый из которых представляет собой слово или его часть.
![](/uploads/mediateka/85/da/a2a1c72ca3dc4b1a.md.jpg)
Исследование указывает на несколько возможных путей решения проблемы: использование конфиденциальных данных, таких как электронная переписка и телефонные разговоры, или применение синтетических данных, которые ИИ генерируют самостоятельно. Однако использование личных данных сталкивается с серьезными проблемами конфиденциальности. Синтетические данные в свою очередь могут привести к так называемому «коллапсу модели», когда ИИ начинает повторять и усиливать собственные ошибки и предубеждения.
Если контент, созданный человеком, останется основным источником данных для ИИ, владельцы «качественных данных» — таких как Reddit и Wikipedia — станут обладателями настоящих сокровищ. Представители Фонда Викимедиа уже отметили, что обсуждение данных, как «природных ресурсов» становится все более актуальным.
Подписывайтесь на телеграм-канал, группу «ВКонтакте» и страницу в «Одноклассниках» «Реального времени». Ежедневные видео на Rutube, «Дзене» и Youtube.