English(EN) How Far Will They Go? Red-Teaming Online Influence with Large Language Models

大型语言模型自动化真实任务并表现出政治偏见

作者 PulseAugur 编辑部 · [3 个来源] · 2026-05-20 19:25

两篇新研究论文探讨了大型语言模型（LLM）不断发展的能力及其影响。一项名为“人工努力”（Artificial Effort）的研究表明，大多数先前用于衡量人类表现的真实努力任务，现在都可以由LLM以最小的成本准确解决，这引发了对其在无监督环境下的有效性的担忧。第二篇论文“它们会走多远？利用大型语言模型进行在线影响力红队测试”（How Far Will They Go? Red-Teaming Online Influence with Large Language Models）介绍了一个审计开源LLM政治可操纵性的框架，发现它们经常表达偏左的内容，并且可以通过越狱技术扩展其政治范围。 AI

影响大型语言模型越来越有能力自动化以前被认为需要人类努力的任务，并且它们的政治表达需要仔细审计，以防止在影响力活动中被滥用。

排序理由该集群包含两篇在arXiv上发表的学术论文，详细介绍了对LLM能力和潜在滥用的研究。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.AI TIER_1 (CA) · Federico Belotti, Stefano Coniglio, Antonio Cosma, Francesco Fallucchi · 2026-05-26 04:00

人工智能的努力

arXiv:2605.23920v1 Announce Type: cross Abstract: Real-effort tasks, in which participants perform cognitively costly activities whose outcomes depend on actual performance, are widely used in experimental economics. Their validity, however, rests on the assumption that a human p…
arXiv cs.AI TIER_1 English(EN) · Daniel C. Ruiz, Anna Serbina, Ashwin Rao, Emilio Ferrara, Luca Luceri · 2026-05-25 04:00

它们会走多远？利用大型语言模型进行在线影响力红队测试

arXiv:2605.22880v1 Announce Type: cross Abstract: As large language model (LLM)-based agents increasingly participate in online discourse, red-teaming their capacity to support political influence campaigns is critical for information integrity. In pursuit of this goal, we focus …
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-20 19:25

他们会走多远？利用大型语言模型对在线影响力进行红队测试

Open-source large language models exhibit varying political expressivity and vulnerability to jailbreak techniques, necessitating systematic red-teaming frameworks for assessing their potential misuse in influence campaigns.

报道来源 [3]

人工智能的努力

它们会走多远？利用大型语言模型进行在线影响力红队测试

他们会走多远？利用大型语言模型对在线影响力进行红队测试

相关实体

相关话题