一位Reddit用户正在寻求建议,是构建自定义图像编码器进行视频帧分类,还是使用CLIP或DINO等现有模型。他们的主要目标是提高处理速度,并支持在低功耗、仅CPU的设备上部署。该用户计划在包含数百万张图像和数百万参数的数据集上训练其自定义编码器,目标是在其特定任务上实现比当前基于CLIP的编码器更好的性能。 AI
排序理由 这是一个用户在论坛上提问,不是新闻条目。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →
一位Reddit用户正在寻求建议,是构建自定义图像编码器进行视频帧分类,还是使用CLIP或DINO等现有模型。他们的主要目标是提高处理速度,并支持在低功耗、仅CPU的设备上部署。该用户计划在包含数百万张图像和数百万参数的数据集上训练其自定义编码器,目标是在其特定任务上实现比当前基于CLIP的编码器更好的性能。 AI
排序理由 这是一个用户在论坛上提问,不是新闻条目。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →
<!-- SC_OFF --><div class="md"><p>Hello, I would like to know whether building my own image encoder would be a good idea instead of using models like CLIP, SigLIP/SigLIP2, or DINO.</p> <p>My use case is video frame classification.</p> <p>My pipeline is the following: the client s…