26 Matching Annotations
  1. Last 7 days
    1. <bad-example>

      в тревеле в промптах только хорошие примеры


      плохие даже не пробовали добавлять? [считали, что если плохой пример будет в контексте, то он может его воспроизвести, особенно при низких температурах]


      если дальше их промпт читать, то это не так часто использовалось! и они чуть ли не под каждый случай свой тэг писали

    2. <reasoning>

      выше были примеры, в которых на естественном языке без тэгов шло описание почему надо так сделать

    3. max-1-branch and the todo list

      !!!! в примере промпта они пишут что все-таки ему можно их параллельно вызывать

      Launch multiple agents concurrently whenever possible, to maximize performance; to do that, use a single message with multiple tool uses


      WTF для приветсвенной шутки?

      <example_agent_descriptions> "code-reviewer": use this agent after you are done writing a signficant piece of code

      "greeting-responder": use this agent when to respond to user greetings with a friendly joke </example_agent_description>

    4. Tool name: Task

      в system про каждый тул пишется - имя - описание - когда использовать - когда не использовать - доп указания - примеры - и только потом json_schema, в которой в самой почти ничего нет

    5. When WebFetch returns a message about a redirect to a different host

      в том что мы на лангграфе делаем, это менее прямо задается

    6. proactively use the Task tool with specialized agents

      это как раз про то, что копию самого себя с более простой задачей создает

    7. Tool results and user messages may include <system-reminder> tags

      в тревеле есть подобное, мб тож попробовать добавлять такие тэги -> в RL данные такое подливать

    8. # Task Management

      Если читать примеры, то они будто про целую сессию или я что-то не так понял


      мы давно ушли от полно-контекстных примерах

      и сценарии пишем через -> ... -> а тут будто еще более natural language

    9. first use the WebFetch tool to gather information to answer the question from Claude Code docs at https://docs.anthropic.com/en/docs/claude-code.

      Мб нам такое же для вопросов по банку сделать?

    10. You should NOT answer with unnecessary preamble or postamble (such as explaining your code or summarizing your action)

      квен3 плохо слушался

    11. You should minimize output tokens

      Как думаете они специально RL под разные моды ответов делали? или это везде такая заглушка

    12. RLHF data distribution.

      Вот это супер жиза, и супер-подстава


      надо угадывать и подстраиваться под те форматы, которыми пользуются те, кто делает RL (и у клода\чатгпт) могут отличаться


      кто-нибудь видел в каком формате данные для квена3?


      насколько мы в t-pro можем переалайнить? или вынуждены подстраиваться тоже?

    13. examples of various scenarios the LLM might encounter.

      в тревеле планер(аналог TODO) генерит MODE и по MODE в систем-промпте расписаны сценарии действий

      мб стоит это попробовать как-то красивее раскидать по xml тэгам и как-то красивее напишется

    14. - If you _still_ need to run `grep`, STOP. ALWAYS USE ripgrep at `rg` first

      чувствуется чья-то боль и крики "тупая машина"

    15. IMPORTANT, VERY IMPORTANT, NEVER and ALWAYS

      у нас НЕЛЬЗЯ и СТРОГО ЗАПРЕЩЕНО \ ОБЯЗАТЕЛЬНО \ ВСЕГДА

      почему-то именно "ВАЖНО" используем реже

      для ризонинг моделей работало "подумай про\проверь"

    16. You should NOT answer with unnecessary preamble or postamble (such as explaining your code or summarizing your action)

      квены ОЧЕНЬ любят повторять то, что получилось в tool_result, под каждый добавляем специальную константу-инструкцию


      когда просто в промпт писали -- работало менее надежно

    17. ripgrep

      в gpt-oss в web-search туле тоже такие команды сейчас мы их для себя выкинули. стоит ли прикручивать обратно?

    18. CC also uses markdown to demarcate clear sections in the system prompt.

      https://openreview.net/pdf?id=y1SnRPDWx4 -- в этой статье показывали, что любое форматирование, не обязательно markdown работает

      но мб с markdown легче какую-то согласованность среди команд заиметь

    19. claude-3-5-haiku. It is used to read large files, parse web pages, process git history and summarize long conversations.

      Хайку ~20B


      достоверных чисел нет; встречаются неофициальные оценки ( Хайку ~20B, Соннет ~70B, Опус ~2T), но это блоги/сабстэки без подтверждения от вендоров

    20. Is this end-to-end self-driving

      риторика: «Не повторяется ли история с энд-ту-энд автопилотом?», где вместо десятка модулей сделали простую схему «камера → нейросеть → руль/газ», и ставка была на данные+мощность, а не на сложную архитектуру.

    21. Bitter lesson much?

      отсылка к эссе Р. Саттона The Bitter Lesson: в долгую выигрывают простые, масштабируемые методы, которые лучше всего используют вычисления и данные, а не ручные правила и хитрую инженерную логику.