LLMとそのプログラミング能力についての真実Sentientは最近、主要大学と競合プログラミングチーム(@nyuniversity, @Princeton, @UCSanDiego, @UW, @CCARaven, @UWaterloo, @mcgillu)にわたって、コミュニティが構築した取り組みを通じて、モデルのコーディング能力を公平に評価しました。私たちの分析によると、プログラミングモデルのトレーニングとベンチマークパイプラインにはデータ漏洩と方法論の欠陥があるため、現在のベンチマークはモデルの実際のコーディング能力を正確に表現しなくなってしまいました。ライブベンチマークリーダーボードと論文をチェックしてください:👉 https://t.co/5yIRA7NrsJ👉 https://t.co/S9B0rxgEVV