V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
HomeZane
1.57D
V2EX  ›  分享创造

最近 codex 新增了 5.4 能控制电脑,然后为啥不做个聊天控制 codex 呢?

  •  
  •   HomeZane · 3 月 11 日 · 1547 次点击

    最近看 openclaw 这波,有点离谱了

    我自己的感觉是,既然 5.4 能操作电脑,为啥不直接用 codex 呢。(当然还包含 codex 送的一个月会员太好使了,而且最近老充值额度,还有 2 倍,外加必须电脑使用)

    考虑到 codex 是分项目的,所以就选了 Discord 这个,一个频道绑定一个 Project 感觉挺合适的

    所以我顺手做了个小东西: discord-codex-bridge

    它做的事情很简单,就是把 Discord 频道变成一个项目入口。

    大概是这样:

    • 一个 Discord 频道绑定一个本地项目目录
    • 频道里发的消息,直接变成这个项目上的 Codex 任务
    • 每个频道自己保留 session ,上下文能续上
    • 同一频道串行执行,避免跑乱
    • 现在也加了 /review 、/cancel 、sandbox 这些基础能力

    我自己主要是拿它当一个更轻一点的远程入口。 比如电脑在家里挂着,本地跑着 Codex ,手机上 Discord 直接丢一句:

    “帮我 review 一下这个仓库” “看看这个报错” “改下 README”

    当然也适合直接操作电脑,回复消息。

    当然这东西现在还是偏 MVP 。 也不是给公开群随便开的,更适合可信环境,或者自己、小团队内部折腾。 本质上还是把本地 agent 的能力,用一个更顺手的入口接出来。

    仓库在这里: https://github.com/comeran/discord-codex-bridge

    10 条回复    2026-03-11 17:16:47 +08:00
    zhangsimon
        1
    zhangsimon  
       3 月 11 日
    请教下大佬
    GPT5.4 说增强了电脑操作能力,能接近人类水平

    我让 codex 打开小红书浏览某个话题前 100 的笔记给我总结下
    为什么 codex 完全做不到
    codex 并不会模拟人类操作,一条条翻开笔记,而是尝试爬虫浏览,结果又爬取失败
    最终也没有完成我这个任务😭

    是我描述的不够具体吗?还是我对 codex 或 GPT5.4 能力 存在什么误解
    Dream4U
        2
    Dream4U  
       3 月 11 日
    yeekal
        3
    yeekal  
       3 月 11 日   ❤️ 1
    @zhangsimon 这确实是宣传上的容易误导的地方。 我理解 gpt5.4 的电脑操作能力 是指“如果你提供给他操控电脑的环境,那么他就能比其他模型更准确的操控电脑”, 注意这里的重点是它本质上还是一个大模型,不能直接操控电脑,他需要环境,需要配套的 skill ,需要能截图,能控制鼠标。所以回到你的问题,你需要在 codex 上安装能操控电脑的 skill 。 比如针对小红书,那需要安装浏览器自动化的工具或者专门针对小红书自动化的工具。不过我没研究过,推测是这样
    zhangsimon
        4
    zhangsimon  
       3 月 11 日
    @yeekal 感谢回复,我刚发完贴又把问题发给了 GPT 问了下,大致回答意思和你说的一致;但 GPT 也给了我一个解决方案:让我在 codex 里说清楚不要用脚本而是真实浏览,拆解一步步来执行。我刚按照他说的试了下,确实跑通了。

    不过过程频繁蹦出来在让我确认执行的提示(我印象起码点了 20 多次……)
    有没有可能给他最大权限别提醒?
    还有就是你说的调用浏览器能力,有没有好用的 skill 推荐的?感谢大佬
    HomeZane
        5
    HomeZane  
    OP
       3 月 11 日   ❤️ 1
    @zhangsimon 打开我本机安装的小红书 app ,然后搜索 #openclaw 前 100 条标记,总结一下内容

    我使用这个,他的操作是打开了我的小红书,但是的确尝试了一会说
    discover 的可访问性树基本拿不到内容,像是内嵌 WebView 。改用截图和坐标驱动:先看当前主界面,再定位搜索框和结果页。
    当前截图里没拿到应用内容,说明窗口虽然存在,但不在当前可见层或被全透明渲染。先把它强制前置并读窗口属性,再截窗口区域。
    桌面端应用本身不暴露可抓取的 UI 内容,系统截图也拿不到实际视图。我先转到更稳的取数路径:复用你现有的小红书登录态,直接拉 #openclaw 的前 100 条结果,再做聚类总结

    用 playwright 取网页结果,原因很直接:桌面端 discover 是受保护渲染层,UI 自动化和截图都拿不到可用内容。先验证你当前网页登录态,再决定是走页面抓取还是直接用本地 SDK/API 。

    出现这些问题,然后也是转去干爬虫了

    我让他去微信的话,能够进行点击开始总结,但是的确很慢,要强调不要走爬虫

    我和 @yeekal 理解差不多,毕竟是大模型,大模型里是比较好的,还得看后续发展
    HomeZane
        6
    HomeZane  
    OP
       3 月 11 日
    @Dream4U 感谢大佬我学习下,感觉这个是 ios 原生的客户端,那会不会类似豆包手机这类的(因为不是 ios 手机,所以得回去才能看看)
    zhangsimon
        7
    zhangsimon  
       3 月 11 日
    @HomeZane 感谢大佬~ 你安装 openclaw 了不,那在 openclaw 里使用 GPT 5.4 模型,能感受到对电脑操作的提升不,直观感受上的更牛了?
    Dream4U
        8
    Dream4U  
       3 月 11 日
    @HomeZane #6
    不是,这是 Codex 电脑端的远程控制,用手机控制电脑上的 Codex
    HomeZane
        9
    HomeZane  
    OP
       3 月 11 日
    @Dream4U #2 感谢感谢
    HomeZane
        10
    HomeZane  
    OP
       3 月 11 日
    @zhangsimon #7 我直接用 codex 操作电脑了,openclaw 已经卸载了让我(有点烧钱)
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   938 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 22:52 · PVG 06:52 · LAX 15:52 · JFK 18:52
    ♥ Do have faith in what you're doing.