实体 Multitask Representation Engineering

Multitask Representation Engineering

PulseAugur coverage of Multitask Representation Engineering — every cluster mentioning Multitask Representation Engineering across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_70261 · Jun 4 · 04:00

新的基准和方法推动 LLM 代码生成和翻译

研究人员正在开发新的基准和技术来评估和改进大型语言模型 (LLM) 在代码生成和翻译方面的能力。一项研究引入了一个多语言、基于执行的评估方法，用于开放代码 LLM，结果显示当前模型在性能上远落后于人类，并突出了不同语言和问题类型之间的性能差异。另一个基准 CodeTaste 专注于 LLM 生成的代码重构，显示了在生成指定重构和发现人类选择的重构之间存在差距。此外，还有通过多任务表示工程提高代码可读性的努力，以及为代码翻译创建更好的数…

新的基准和方法推动 LLM 代码生成和翻译