A versão 0.3 do Atropos já está disponível!
Nosso framework de Ambientes RL teve muitas atualizações desde a versão 0.2 - alguns destaques:
- O Atropos agora pode ser usado como um framework de benchmarking e avaliações por @rogershijin, com nosso primeiro benchmark externo, Reward-Bench 2!
- Adicionado o Reasoning Gym, um repositório de gym de ambiente externo portado para o Atropos com mais de 100 tarefas de raciocínio por @neurosp1ke e amigos
- @max_paperclips integrou o bootcamp de raciocínio da @intern_lm, adicionando mais de 1000 novas tarefas de raciocínio para RL
- @dmayhem93, o engenheiro líder do Atropos, adicionou dezenas de correções de bugs e outras melhorias de confiabilidade e compatibilidade, melhor suporte para multi-ambiente e CI/CD
- Muitos dos ambientes do hackathon Atropos foram mesclados em /environments/community - listar todos eles ocuparia a maior parte do espaço da tela, mas alguns destaques:
VR-CLI por @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, design de proteínas por @hallerite, um ambiente de roteamento de modelo por @gabinfay, múltiplos em lean proving, a arena catbot, pokemon showdown, poker, helpful doctors, poesia sânscrita por @khoomeik e muito mais!
- Outros novos ambientes notáveis oficialmente suportados incluem:
Answer format following environment
Pydantic to JSON environment portado do trabalho de @MatternJustus
Instruction Following portado do trabalho de @natolambert e @allen_ai
Letter Counting
- 47 novos colaboradores!
Confira o changelog completo aqui: https://t.co/4mI4ZcnZiS