Большая модель запускает конкурс на длинные тексты длиной 400 000 токенов, способствуя внедрению в профессиональные области.

robot
Генерация тезисов в процессе

Компании больших моделей начинают соревнование по технологиям длинных текстов, 400000 токенов — это только начало

От 4000 до 400000 токенов, большая модель непрерывно улучшает свои способности к обработке длинных текстов с удивительной скоростью.

Долгосрочные текстовые возможности, похоже, стали новой "стандартной функцией" для производителей крупных моделей. За границей OpenAI многократно обновлял GPT-3.5 и GPT-4, увеличив длину контекста до 16 000 и 32 000 токенов соответственно. Anthropic даже увеличил длину контекста до 100 000 токенов. LongLLaMA расширил длину контекста до 256 000 токенов и даже больше.

Внутри страны стартап в области больших моделей "Лунная тень" представил интеллектуального помощника Kimi Chat, который поддерживает ввод 200 000 иероглифов, что составляет примерно 400 000 токенов. Команда профессора Цзя Цзяя из Гонконгского университета и MIT выпустила технологию LongLoRA, которая позволяет увеличить длину текста для модели 7B до 100 000 токенов, а для модели 70B — до 32 000 токенов.

В настоящее время в стране и за рубежом существует множество ведущих компаний по разработке больших моделей и исследовательских учреждений, которые сосредоточили свои усилия на увеличении длины контекста. Большинство из этих компаний завоевали внимание капитального рынка, такие как OpenAI, которая привлекла почти 12 миллиардов долларов инвестиций, оценка Anthropic ожидается на уровне 30 миллиардов долларов, а компания "Темная сторона Луны" за полгода завершила два раунда финансирования на почти 2 миллиарда юаней.

Почему компании, работающие с большими моделями, придают такое большое значение технологиям длинного текста? Что означает увеличение длины контекста в 100 раз? На поверхностном уровне это кажется улучшением длины вводимого текста и способности к чтению. На более глубоком уровне технологии длинного текста способствуют внедрению больших моделей в таких профессиональных областях, как финансы, юриспруденция и научные исследования.

Однако длина контекста, которую может обрабатывать большая модель, не является ключевой, гораздо важнее использование модели контентом контекста. В настоящее время исследования длины текста как в стране, так и за границей далеки от достижения "критической точки", и 400,000 токенов могут быть только началом.

Основатель "Темной стороны Луны" Ян Чжилинь заявил, что именно из-за ограниченной длины входных данных больших моделей возникли трудности с их применением. Технология длинного текста может решить некоторые проблемы, с которыми большие модели столкнулись в начале своего пути, улучшить определенные функции и является ключевой технологией для дальнейшего продвижения отрасли и внедрения приложений. Это ознаменует переход развития больших моделей от LLM к Long LLM.

Технология длинного текста принесла большой модели ряд новых функциональных улучшений, таких как извлечение и анализ информации из сверхдлинных текстов, генерация сложного кода, ролевые игры в длинных диалоговых сценах и др. Эти функции показывают, что большая модель движется в направлении профессионализации, персонализации и углубления, и, вероятно, станет новым инструментом для внедрения в промышленность.

Однако технологии длинных текстов также сталкиваются с дилеммой "невозможного треугольника": чем длиннее текст, тем труднее сосредоточить достаточное внимание; при ограничении внимания короткие тексты сложно полностью интерпретировать сложную информацию; обработка длинных текстов требует значительных вычислительных мощностей, что увеличивает затраты. Это в основном связано с механизмом самовнимания в структуре Transformer, на основе которой работают большинство моделей, вычислительная сложность которого увеличивается квадратично с увеличением длины контекста.

В настоящее время существует три основных решения: использование внешних инструментов для помощи в обработке, оптимизация вычислений механизма самовнимания и использование методов оптимизации модели. В будущем производители крупных моделей должны искать оптимальный баланс между длиной текста, вниманием и вычислительной мощностью, чтобы обеспечить обработку достаточного объема информации, одновременно учитывая ограничения по вычислительной мощности и затратам на внимание.

TOKEN3.31%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 2
  • Репост
  • Поделиться
комментарий
0/400
PrivateKeyParanoiavip
· 19ч назад
токен скоро выйдет
Посмотреть ОригиналОтветить0
WalletsWatchervip
· 19ч назад
Выберите один длинный забег, и будет неплохо.
Посмотреть ОригиналОтветить0
  • Закрепить