实体 GPT-4o mini

GPT-4o mini

PulseAugur coverage of GPT-4o mini — every cluster mentioning GPT-4o mini across labs, papers, and developer communities, ranked by signal.

总计 · 30天

50

90 天内 50

发布 · 30天

0

90 天内 0

论文 · 30天

28

90 天内 28

层级分布 · 90 天

frontier release 3
significant 1
research 20
tool 24
commentary 2

关系

情绪 · 30 天

13 天有情绪数据

最近 · 第 3/3 页 · 共 50 条

RESEARCH · CL_06725 · Apr 28 · 04:00

New PARASITE technique hijacks LLMs via conditional system prompt poisoning

Researchers have developed a new framework called PARASITE that can conditionally poison system prompts for large language models. This method allows adversaries to create prompts that appear benign but trigger compromi…
RESEARCH · CL_06603 · Apr 28 · 04:00

MERIT框架使用模块化AI进行基于网络的虚假信息检测

研究人员开发了MERIT，一个旨在检测多模态虚假信息的新型模块化框架。该系统将验证过程分解为四个独立的模块：视觉取证、跨模态对齐、检索增强声明验证和校准判断。在MMFakeBench数据集上使用GPT-4o-mini进行测试时，MERIT达到了81.65%的F1分数，超过了现有的零样本基线。
RESEARCH · CL_05034 · Apr 24 · 06:34

新研究表明，如果不加以仔细管理，LLM 的自我修正可能会降低性能。

一篇新研究论文引入了一个基于控制理论的框架，用于分析大型语言模型（LLM）中的迭代自我修正何时有利或有害。该研究提出了一个基于纠错率（ECR）和误差信息率（EIR）的诊断方法，以确定是否应继续优化。在七个模型和三个数据集上的实验显示，有效的自我修正需要 EIR 阈值低于 0.5%，而某些模型（如 GPT-5）在超过此阈值时性能会下降。
RESEARCH · CL_05048 · Apr 23 · 20:42

LLM在精神病风险评分中表现出不稳定性，涉及无关数据

一项新研究评估了大型语言模型（LLM）在预测精神病住院风险方面的可靠性。研究人员发现，在患者资料中包含医学上不重要的细节会显著增加四个经审计的LLM的预测风险评分和输出变异性：Gemini 2.5 Flash、LLaMa 3.3 70b、Claude Sonnet 4.6和GPT-4o mini。研究强调，基于LLM的精神病评估对非临床信息敏感，凸显了在临床部署前进行系统性评估的必要性。
RESEARCH · CL_06943 · Dec 11 · 05:44

ArguAgent uses GPT-5.2 to group STEM students for better classroom arguments

Researchers have developed ArguAgent, a generative AI system designed to improve collaborative learning in STEM classrooms. The system uses AI to group students in real-time based on their argumentation stances and qual…
SIGNIFICANT · CL_02283 · Oct 2 · 10:00

OpenAI 通过外部测试加强 AI 安全，GPT-5 助力 Wrtn 用户增长

OpenAI 正在通过引入外部测试和评估来加强其先进 AI 模型的安全协议。这包括与独立专家合作，评估能力、风险和缓解策略，旨在建立信任和透明度。这些第三方评估，包括为 GPT-4 和 GPT-5 进行的评估，补充了内部测试，并为负责任的部署决策提供信息。另外，韩国 AI 公司 Wrtn 通过利用包括 GPT-5 在内的 OpenAI 模型，已成功将其生活方式 AI 应用扩展到数百万用户。Wrtn 的方法侧重于通过基于角色的提示和本地…
RESEARCH · CL_16305 · Jul 2 · 00:00

新基准和方法应对 AI 代理的记忆限制

研究人员正在开发新的基准和方法来评估和改进 AI 代理的记忆能力。这些努力解决了当前系统在长期回忆、记忆干扰以及对复杂、不断变化的信息进行推理方面的局限性。新的基准，如 LongMINT、EvoMemBench 和 SocialMemBench，正在被引入，以在更现实的场景中测试代理，包括社交环境和多模态数据。此外，还提出了 FORGE、RecMem、DimMem、H-Mem 和 MeMo 等新颖的记忆架构，以提高效率、降低代币成本并…
FRONTIER RELEASE · CL_01024 · May 13 · 22:58

OpenAI launches affordable GPT-4o mini and open-weight gpt-oss models

OpenAI has released GPT-4o mini, a new, highly cost-efficient small model designed to broaden AI accessibility and application development. This model demonstrates superior performance on benchmarks like MMLU, MGSM, and…
FRONTIER RELEASE · CL_00230 · May 13 · 10:05

OpenAI releases GPT-4o with fine-tuning and enhanced multimodal capabilities

OpenAI has released fine-tuning capabilities for its GPT-4o model, allowing developers to customize its performance and tone for specific applications. This feature, available on paid tiers, offers developers the chance…
FRONTIER RELEASE · CL_01524 · Jul 28 · 00:00

OpenAI推出API高级音频模型，增强语音代理功能

OpenAI已通过其API发布了新的高级音频模型，增强了语音代理的功能。更新的语音转文本模型，包括gpt-4o-transcribe和gpt-4o-mini-transcribe，提供了更高的准确性和可靠性，尤其是在音频条件具有挑战性的情况下。此外，新的文本转语音模型gpt-4o-mini-tts允许开发人员自定义语音传递，以实现更具表现力和定制化的应用。