博客

探索 AI 技术的前沿动态与深度洞察

别再后期配音了，ByteDance 的新模型让声音和画面一起“长”出来。

"AI 视频能说话了"这个卖点听上去很酷，但具体好用到什么程度？踩了哪些坑？

"同时生成音频和视频"这句话说起来很简单，但做起来需要在模型架构上动刀子。

别再后期配音了，ByteDance 的新模型让声音和画面一起"长"出来。

一个数字就够了：5 秒特效镜头，传统人工一个月 3000 元，AI 两分钟 3 元。

有个数字让我盯着看了很久。

今天，2026 年 2 月 9 日，字节跳动干了一件让整个 AI 视频圈炸锅的事。

你的 AI 客服每天处理一万条消息。其中大概六千条是"我的订单到哪了""怎么退货""营业时间是几点"。剩下四千条才涉及退款协商、投诉升级、多轮推理这类需要强模型的场景。

2 月 5 日，Anthropic 发布了 Claude Opus 4.6。距离上一个 Opus 4.5 刚过去两个半月，版本号只跳了 0.1，但变化不小。

今天早上起来刷推特，我人都傻了。

今天，2026 年 2 月 5 日，大概会被载入 AI 编程史册。

说实话，看到 Opus 4.6 定价的时候，我第一反应是 Anthropic 的产品经理脑子进水了。

2 月 5 日 Anthropic 发了 Opus 4.6，同一天 OpenAI 放出了 GPT-5.3-Codex。加上去年底发布的 GPT-5.2 和 Gemini 3 Pro，2026 年初的旗舰模型格局已经很清楚了。

每次大模型发布，厂商都会贴一张 benchmark 表：我们在 X 上得了多少分、在 Y 上赢了谁。Opus 4.6 的发布也不例外——Terminal-Bench 第一、Humanity's Last Exam 第一、GDPval-AA

很多 LLM 应用“能用”和“好用”之间，差的不是模型，而是工程指标：你到底在保证什么？是总耗时？首字时间（TTFT）？还是在高峰期的可用性？