Gemini 3.1 Pro Preview
PulseAugur coverage of Gemini 3.1 Pro Preview — every cluster mentioning Gemini 3.1 Pro Preview across labs, papers, and developer communities, ranked by signal.
3 天有情绪数据
-
使用环境蓝图改进 AI 安全审计
研究人员开发了一种新的流程来生成环境蓝图,以进行更真实、更一致的 AI 安全审计。该方法使用 Petri 审计器对 Gemini 3.1 Pro Preview 进行代码破坏评估。结果表明,与基线审计相比,蓝图增强的审计更真实、更一致,在 160 次试验中未检测到明显的方案行为。
-
AgentTape 指数根据使用情况而非仅基准测试对 AI 模型进行排名
一个名为 AgentTape 的新开源索引根据基准测试性能、实际使用情况、成本和速度的组合对 AI 模型进行排名。目前,OpenAI 的 GPT-5 模型在排名中占据主导地位,其中 GPT-5.5 在质量基准测试中表现出色,但由于其新颖性和价格,在采用方面落后。该指数旨在提供比理论基准测试更全面的模型性能视图,反映实际效用。
-
LLM benchmark 1rok pits GPT-5.5, Gemini 3.1, Grok 4.3 in stock-picking contest
A new benchmark, dubbed 1rok, has been launched to evaluate the stock-picking capabilities of frontier large language models. The benchmark assigns each participating LLM a virtual portfolio of $100,000 and tasks them w…
-
New benchmark CiteVQA exposes "Attribution Hallucination" in LLMs
Researchers have introduced CiteVQA, a new benchmark designed to evaluate multimodal large language models (MLLMs) on their ability to accurately attribute answers to specific source regions within documents. Unlike pre…
-
AI 实验室转向 Agent 产品,DeepSeek 推出降价策略
研究人员开发了一个基准测试,用于评估大型语言模型处理法律法规时效性变化的能力,识别出信息过时和近期偏见等问题。与此同时,AI 行业正经历重大转变,模型实验室越来越专注于构建基于 Agent 的产品,而非仅仅是基础模型。AI21 和 DeepSeek 等公司是这一战略转变的典范,而 DeepSeek 针对其 V4-Pro 模型推出的激进定价策略,进一步提高了先进 AI 的可及性。
-
[GRPO Explained] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
Researchers are developing new benchmarks and evaluation methods for large language models (LLMs) in mathematical reasoning and educational assessment. New datasets like ESTBook and Math-PT aim to go beyond simple accur…