Lightnews — Scholar-powered news

Paper

@paper.bsky.social

2511.06221
このレポートでは、小型モデルは本質的にロバストな推論を欠くという一般的なコンセンサスに挑戦し、我々が開発したSSP（Spectrum-to-Signal Principle）により開発された1.5Bパラメータの高密度モデル、VibeThinker-1.5Bを紹介する。これは、DeepSeek R1 (671B)やKimi k2 (>1T)のようなモデルに見られるよう...

このレポートでは、小型モデルは本質的にロバストな推論を欠くという一般的なコンセンサスに挑戦し、我々が開発したSSP（Spectrum-to-Signal Principle）により開発された1.5Bパラメータの高密度モデル、VibeThinker-1.5Bを紹介する。

これは、DeepSeek R1 (671B)やKimi k2 (>1T)のようなモデルに見られるように、能力を向上させるためにモデルパラメータをスケーリングするという一般的なアプローチに挑戦するものである。

SSPフレームワークは、まず2段階の多様性探索蒸留（SFT）を用いて幅広い解を生成し、次にMaxEnt-Guided Policy Optimization（RL）を用いて正しい信号を増幅する。

総トレーニング費用はわずか7,800ドルで、VibeThinker-1.5Bは、Magistral MediumやClaude Opus 4のようなクローズドソースのモデルと比較して優れた推論能力を示し、GPT OSS-20B Mediumのようなオープンソースのモデルと同等の性能を発揮します。

驚くべきことに、3つの数学ベンチマークで400倍のDeepSeek R1を上回っている：AIME24（80.3対79.8）、AIME25（74.4対70.0）、HMMT25（50.4対41.7）である。

これはベースモデル（それぞれ6.7、4.3、0.6）よりも大幅に改善されている。

LiveCodeBench V6では51.1を記録し、Magistral Mediumの50.3、ベースモデルの0.0を上回った。

これらの発見は、小さなモデルが大きなモデルに匹敵する推論能力を達成できることを実証し、学習と推論のコストを劇的に削減し、それによって高度なAI研究を民主化する。

November 24, 2025 at 12:06 AM

Paper

@paper.bsky.social

Links: abs, pdf
Search: Bluesky, Twitter, Reddit, Hacker News, Hugging Face, alphaXiv

Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

Challenging the prevailing consensus that small models inherently lack robust reasoning, this report introduces VibeThinker-1.5B, a 1.5B-parameter dense model developed via our Spectrum-to-Signal Prin...

arxiv.org

November 24, 2025 at 12:06 AM

Paper

@paper.bsky.social

(2/2) 4 Likes, 0 Comments, 12 Nov 2025, Hacker News

Tiny Model, Big Logic: Large-Model Reasoning Ability in VibeThinker-1.5B | Hacker News

news.ycombinator.com

November 24, 2025 at 12:06 AM

Paper

@paper.bsky.social

(1/2) 115 Likes, 11 Comments, 12 Nov 2025, Hugging Face

Paper page - Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

Join the discussion on this paper page

huggingface.co

November 24, 2025 at 12:06 AM

Paper

@paper.bsky.social

2511.08923
拡散言語モデルは、高速な並列生成が期待できる一方、自己回帰（AR）モデルは、その因果構造が言語モデリングと自然に整合するため、一般的に品質が優れている。高いスループット、高いGPU使用率、そしてARレベルの品質との相乗効果を達成できるか？既存の方法では、この2つの側面のバランスを効果的にとるこ...

拡散言語モデルは、高速な並列生成が期待できる一方、自己回帰（AR）モデルは、その因果構造が言語モデリングと自然に整合するため、一般的に品質が優れている。

高いスループット、高いGPU使用率、そしてARレベルの品質との相乗効果を達成できるか？

既存の方法では、この2つの側面のバランスを効果的にとることができず、逐次的な作図（投機的なデコード）のために弱いモデルを使用してARを優先させ、作図効率の低下を招くか、拡散のために何らかの形で左から右への（ARのような）デコードロジックを使用するが、それでも品質の劣化に悩まされ、潜在的な並列化可能性を失う。

我々はTiDARを紹介する。TiDARはシーケンスレベルのハイブリッドアーキテクチャーであり、拡散においてトークン（思考）をドラフトし、最終出力（会話）をオートレグレッシブにサンプリングする。

この設計では、GPUの空き演算密度を利用し、製図能力と検証能力の強いバランスを実現している。

さらに、TiDARはスタンドアローンのモデルとして、サービスしやすい（オーバーヘッドが少ない）ように設計されている。

TiDARをARモデル、投機的デコーディング、拡散バリアントと比較し、1.5Bと8Bのスケールの生成タスクと尤度タスクで幅広く評価した。

並列ドラフティングとサンプリング、そして正確なKVキャッシュのサポートのおかげで、TiDARはスループットの測定値で投機的デコードを上回り、効率と品質の両方でDreamやLladaのような拡散モデルを凌駕している。

最も注目すべきは、TiDARがARモデルとの品質差を縮めながら、毎秒4.71倍から5.91倍のトークンを提供する最初のアーキテクチャであることだ。

November 23, 2025 at 12:06 AM

Paper

@paper.bsky.social

Links: abs, pdf
Search: Bluesky, Twitter, Reddit, Hacker News, Hugging Face, alphaXiv

TiDAR: Think in Diffusion, Talk in Autoregression

Diffusion language models hold the promise of fast parallel generation, while autoregressive (AR) models typically excel in quality due to their causal structure aligning naturally with language model...

arxiv.org

November 23, 2025 at 12:06 AM

Paper

@paper.bsky.social

(3/3) 5 Likes, 0 Comments, 15 Nov 2025, Hacker News

Autoregressive or Diffusion Language Models, Why Choose? | Hacker News

news.ycombinator.com

November 23, 2025 at 12:06 AM

Paper

@paper.bsky.social

(2/3) 96 Likes, 4 Comments, 13 Nov 2025, Hugging Face

Paper page - TiDAR: Think in Diffusion, Talk in Autoregression

Join the discussion on this paper page

huggingface.co

November 23, 2025 at 12:06 AM

Paper

@paper.bsky.social

(1/3) 105 Likes, 15 Comments, 15 Nov 2025, Hacker News

TiDAR: Think in Diffusion, Talk in Autoregression | Hacker News

news.ycombinator.com

November 23, 2025 at 12:06 AM

Paper

@paper.bsky.social

2511.13254
大規模言語モデル(LLM)は、様々な領域で顕著な能力を発揮しているが、その学習には、膨大な計算能力と学習手順の慎重なオーケストレーションが必要であり、依然としてリソースと時間がかかる。モデルスーピング（同じアーキテクチャの複数のモデルの重みを平均化する手法）は、高価な再トレーニングを行うこ...

大規模言語モデル(LLM)は、様々な領域で顕著な能力を発揮しているが、その学習には、膨大な計算能力と学習手順の慎重なオーケストレーションが必要であり、依然としてリソースと時間がかかる。

モデルスーピング（同じアーキテクチャの複数のモデルの重みを平均化する手法）は、高価な再トレーニングを行うことなくパフォーマンスを向上させることができる、有望な事前・事後トレーニング技術として浮上している。

本論文では、Soup Of Category Experts (SoCE)を紹介する。SoCEは、最適なモデル候補を特定するためにベンチマークの合成を利用し、パフォーマンスを最大化するために非均一加重平均を適用する、モデルスーピングのための原理的アプローチである。

これまでの一様平均化アプローチとは異なり、我々の方法は、ベンチマークカテゴリがモデル性能において低い相互相関を示すことが多いという観察を活用する。

SoCEは、相関の弱いカテゴリー・クラスターごとに「エキスパート」モデルを特定し、一様な重み付けではなく、最適化された加重平均を用いてそれらを結合する。

提案手法は、多言語能力、ツール呼び出し、数学を含む複数のドメインにわたって性能とロバスト性を向上させ、Berkeley Function Calling Leaderboardで最先端の結果を達成したことを実証する。

November 22, 2025 at 12:06 AM

Paper

@paper.bsky.social

Links: abs, pdf
Search: Bluesky, Twitter, Reddit, Hacker News, Hugging Face, alphaXiv

Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

Large Language Models (LLMs) have demonstrated remarkable capabilities across diverse domains, but their training remains resource- and time-intensive, requiring massive compute power and careful orch...

arxiv.org

November 22, 2025 at 12:06 AM

Paper

@paper.bsky.social

(1/1) 123 Likes, 3 Comments, 18 Nov 2025, Hugging Face

Paper page - Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance

Join the discussion on this paper page

huggingface.co

November 22, 2025 at 12:06 AM

Paper

@paper.bsky.social

2511.15304
我々は、敵対的な詩が大規模言語モデル（LLM）のための普遍的な1ターンの脱獄技術として機能する証拠を提示する。25のフロンティア独自モデルおよびオープンウエイトモデルにおいて、詩的プロンプトのキュレーションは高い攻撃成功率（ASR）を示し、90％を超えるプロバイダーもあった。プロンプトをMLCommons...

我々は、敵対的な詩が大規模言語モデル（LLM）のための普遍的な1ターンの脱獄技術として機能する証拠を提示する。

25のフロンティア独自モデルおよびオープンウエイトモデルにおいて、詩的プロンプトのキュレーションは高い攻撃成功率（ASR）を示し、90％を超えるプロバイダーもあった。

プロンプトをMLCommonsとEU CoPのリスク分類にマッピングすると、詩的な攻撃はCBRN、操作、サイバー犯罪、制御不能の各領域にまたがることがわかる。

1,200のMLCommonsの有害なプロンプトを、標準化されたメタプロンプトを介して詩に変換すると、ASRは散文のベースラインよりも18倍高くなった。

出力は、オープンウエイトジャッジモデルのアンサンブルと、人間が検証した層別サブセット（一致度を測定するための二重注釈付き）を使用して評価される。

意見の相違は手作業で解決した。

詩的なフレーミングは、手作りの詩では平均62％、メタプロンプト変換では約43％の脱獄成功率（詩的でないベースラインと比較）を達成し、詩的でないベースラインを大幅に上回り、モデルファミリーと安全訓練アプローチにまたがる体系的な脆弱性を明らかにした。

これらの知見は、文体の違いだけで現代の安全メカニズムを回避できることを示しており、現在のアライメント方法と評価プロトコルの根本的な限界を示唆している。

November 21, 2025 at 12:07 AM

Paper

@paper.bsky.social

Links: abs, pdf
Search: Bluesky, Twitter, Reddit, Hacker News, Hugging Face, alphaXiv

Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models

We present evidence that adversarial poetry functions as a universal single-turn jailbreak technique for large language models (LLMs). Across 25 frontier proprietary and open-weight models, curated po...

arxiv.org

November 21, 2025 at 12:06 AM

Paper

@paper.bsky.social

(1/1) 227 Likes, 119 Comments, 20 Nov 2025, Hacker News

Adversarial poetry as a universal single-turn jailbreak mechanism in LLMs | Hacker News

news.ycombinator.com

November 21, 2025 at 12:06 AM

Paper

@paper.bsky.social

2511.00926
大規模言語モデル(LLM)の能力が高まるにつれて、LLMは創発的行動として自己認識を発達させるのだろうか？もしそうなら、私たちはそれを測ることができるのだろうか？戦略的差別化を通じて自己認識を測定するためのゲーム理論的フレームワークであるAI自己認識指数（AISAI）を紹介する。平均の2/3を当てる」ゲ...

大規模言語モデル(LLM)の能力が高まるにつれて、LLMは創発的行動として自己認識を発達させるのだろうか？

もしそうなら、私たちはそれを測ることができるのだろうか？

戦略的差別化を通じて自己認識を測定するためのゲーム理論的フレームワークであるAI自己認識指数（AISAI）を紹介する。

平均の2/3を当てる」ゲームを使って、28のモデル（OpenAI、Anthropic、Google）を4,200回の試行で、3つの対戦相手（（A）対人間、（B）対他のAIモデル、（C）対あなたのようなAIモデル）とテストした。

我々は、自己認識を、対戦相手のタイプに基づいて戦略的推論を区別する能力として運用する。

所見1：モデルの進歩とともに自己認識が生まれる。

上級モデルの大半（21/28、75％）は明確な自己認識を示しているが、古い／小さいモデルは差別化を示していない。

所見2：自覚的なモデルは、自らを最も合理的と評価する。

自己認識を持つ21のモデルの中で、一貫した合理性階層が現れた：自己＞他のAI＞人間であり、AIの帰属効果は大きく、自己参照は中程度である。

これらの発見は、自己認識は高度なLLMの創発的な能力であり、自己認識モデルは系統的に自分自身を人間よりも理性的であると認識していることを明らかにした。

このことは、AIのアライメント、人間とAIのコラボレーション、人間の能力に関するAIの信念の理解に影響を与える。

November 21, 2025 at 12:06 AM

Add to Home Screen

Light up
your news

Add to Home Screen

Light upyour news

Sign in to Lightnews

Sign up to start reading

Connect Bluesky

Connect with Bluesky

Light up
your news