明明系统提示词有约束但是就跟健忘症一样往死里分点,每行信息量低的要命,看一下回复滚轮都滑累了。 2 个帖子 - 2 位参与者 阅读完整话题
我真的看到了 什么底盘 什么摸 一半熟悉一半陌生了已经 Chatbox里面我现在已经完全不想用4.7了,完全用4.6 cc切换到4.6就会提示已下线 怎么也用不了 还有问问题环节 似乎越是到了代码阶段,他越是开始趋近于GPT 2 个帖子 - 2 位参与者 阅读完整话题
用 dokploy 部署任何项目真的很轻松,什么GitHub docker dockerfile Compose等等,全都可以搞。我自己部署了中转,CDK卡密,导航站,sora去水印好几个项目都在里面。服务器搞的是RN的6G内存美区服务器,带宽好像是万兆的。宝塔和dokploy比较,现在我喜欢dokploy这工具。不懂怎么配置,一步一步截图问codex,轻轻松松搞起来。 12 个帖子 - 7 位参与者 阅读完整话题
a÷真的是非常狗屎啊,4.7opus拉了这么一坨大的,什么时候他才能意识到这一点,然后赶快降价或者出新版本。 16 个帖子 - 10 位参与者 阅读完整话题
旧闻了 iPhone 用户现在也可以在手机上运行 Google 新发布的 Gemma 4 模型了——是真的在手机上运行,断网也能用的那种。 App Store 直接搜 “Google AI Edge Gallery”。打开 APP 后可以选择下载 E2B 或者 E4B。官方显然推荐大家用 E2B 这个更小也更快的版本。 除了文本对话,还有图片识别、语音对话等,甚至还支持 Skills。但是实测知识是 2025 年 1 月以前的。 推理框架用了 iPhone 的 GPU,运行还是相当流畅的。 大家可以试试,日常处理文本翻译之类的应该绰绰有余。 8 个帖子 - 5 位参与者 阅读完整话题
世界真的是太丰富了,我没有想到其实点个外卖都有层层外包的,昨天市监开出了有史以来最大食品安全罚单35.97个亿!7家外卖平台覆盖了我们手机里面所有你点外卖,拼多多一家就罚了15.22个亿。 这一切的导火索,居然只是一份普通的生日蛋糕的投诉,有人花200多块钱买的高档奶油蛋糕,背后是藏着一条完整的黑色产业链。 一些蛋糕店网上宣传真是光鲜亮丽,全国几百家连锁月销过万单精美实拍图,证件照齐全,但是执法人员一查全是假的,没有实体店,没有合规后厨,没有正规资质,甚至连营业执照都是P的,工商地址对不上,店面的图片全是盗的,就是臭名昭著的 幽灵外卖 。 这些幽灵店铺自己根本不做蛋糕,他们接到订单之后直接往一个叫做转单宝的平台上一挂,让真正做蛋糕的商家来竞拍,谁出价低就给谁做。这些低价竞拍到的蛋糕店其实就是藏在居民楼里,陈真厝的小作坊里的黑窝点,鲜花直接插蛋糕,劣质奶油乱堆卫生条件,你看吃坏你肚子都是轻的。 我给大家算笔账,一份250块钱的蛋糕,电商平台抽走20%,也就是50块钱,幽灵店铺自己是不做蛋糕的,他们要抽成把订单以80块钱的价格挂出去拍卖空手套白狼,赚了120块钱。 那真正做蛋糕的商家80块钱接单转单平台还要再抽4%,转手就剩下76块8,这还不算快递费,一个6寸的蛋糕用好材料成本就得60块。人家几乎不赚钱图什么? 就这一套流程操作下来,7家平台加起来查出了6.7万多家的幽灵店铺,累计违规转单超过360万单肯定有我们的,可是最让寒心的不是黑作坊,是我们每天都在用的平台。 平时一个个的自己把牛吹上天,什么AI智能审核、大数据风控、全流程食品安全监督。我们闭着眼睛都能把这个话说出来,算法吹的神乎其神,怎么就没有算到这些幽灵外卖的证件是假的呢?是平台没有审核识别能力吗?还是睁一只眼闭一只眼睛?我不知道,留给你们去了解。 你看2025年外卖大战数据,阿里为了抢夺外卖市场烧了900多亿,换来85%的经营利润下滑,美团直接净亏234亿,京东含外卖的新业务亏损也扩大了466个亿,这些烧钱图什么?抢市场、抢用户、抢单量。 在这种激烈的竞争下,平台对商家入驻的审核标准就是一降再降的,只要能带来订单带来流水的,你证件是假的是真的,你厨房有没有实体店重要吗?反正出事的也是商家的事情,平台顶多就把你店铺下架了,说白了就不是平台做不到,严格审核是不想做,严格了店铺的数量就减少了,交易额就下来了,资本市场的故事就讲不下去了。 他们睁一只眼闭一只眼,就是你我这样子的普通人花着高档蛋糕的钱吃着,却是不知道从哪个居民楼里面跑出来,没有任何食品安全保障的东西。 这一次的市监局的重锤出击,不但对平台开出了35.97亿的罚单,连7家平台的法人跟食品安全总监个人也被罚了将近2000万。其实就是在释放一信号,食品安全没有小事,平台是不能只赚钱是不负责的,黑产更不能逍遥法外,一个文明健康的社会不能再放任任何劣币驱逐良币。 20 个帖子 - 16 位参与者 阅读完整话题
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下全是我自己手搓,没有ai味(我用最真实、最不绕、最直接的方式跟你讲 hhhhh),放心品尝 很多人以为 Skill 迭代最难的是"怎么改"。 但我越来越强烈地觉得,真正难的其实不是改,而是: 你改完之后,根本不知道它到底有没有真的变好。 补描述、调 prompt、加例子、补边界、改结构。 Skill 看起来越来越完整,文档越来越像样,语气越来越专业。 但问题是: 看起来更完整,不等于真的更强。 skill的实际行为未必更稳定,边界未必更清晰,失败处理也未必更好。 所以很多 Skill 维护最别扭的地方,其实不是"不会写",而是你明明已经改了很多轮,却还是说不清: 上一次改动,到底有没有真正产生作用。 我后来专门跑了 100 个高下载 Skill,发现问题并不是"不能用" (是的,烧我自己的token)结果最有意思的地方,不是烂 Skill 特别多。恰恰相反,大多数 skill 其实都能用: 70 个通过 29 个在 caution 区间 1 个 fail 平均分 73.8 真正的问题不是:大多数 Skill 完全不能用。 而是 很多 Skill 停在一个很尴尬的状态:能用,但不容易被继续有效优化。 你一旦想认真往上修,就会发现问题不少,但很难判断到底该先修哪一块。 也就是说,难点不是"没法写",而是 没有诊断,所以不知道怎么有效地继续改。 更关键的是,这种"不对劲"还不是随机的。 我看到的弱点主要集中在几个地方: Trigger quality 平均 6.2 Functional quality 平均 6.6 大约 80% 缺少 not_for 边界 大约 60% 的 D4 弱项 Skill 缺少像样的 error recovery guidance 还有接近 40% 更像"写给人看的说明书",而不是"写给模型执行的操作说明" 这里翻译成人话就是: 很多 Skill 不是坏在"完全不能用",而是坏在几个特别重复的地方:不会划边界,不会处理失败,也没有把行为写得足够可执行。 所以我后来做了 SkillCompass 我想解决的,不是"怎么把 Skill 写得更长、更完整",而是另一件更关键的事: 在你动手优化之前,先看清问题到底在哪;在你改完之后,再验证这次修改有没有真的产生提升。 所以对我来说,SkillCompass 不是一个"给 Skill 打个分"的工具而已。 它更像一个给 Skill 迭代提供方向感的东西: 现在最弱的是哪一维 下一步该先修哪里 这轮修改有没有真的带来提升 有没有把别的地方一起改坏 【这里插一句compass 这个名字,指南针🧭,其实也是这个意思。不是替你做决定,而是先帮你定位方向。 】 所以它背后的设计原则也很简单: 本地优先 :所有数据都留在本机,除非你明确要求,否则不会主动发起网络请求 默认只读 :评估和报告默认不改文件,improve、merge、rollback 这类写入操作都要明确开启 被动追踪,主动决策 :Hooks 会收集使用数据,但系统只给建议,不会自动替你执行 双通道交互 :既支持键盘选择,也支持自然语言查询,两种方式始终都可用 同时我把评估分成了6个维度;把判定标准分成3档 它不是在帮你"多改一点",而是在帮你把迭代变成一个可验证的流程 与其盲目地"再多写一点",不如把 Skill 迭代拆成一个更清晰的 workflow。下面拿agile-product-owner作为一个例子展开讲讲: 1)先诊断 不要一上来就改。先看清楚最弱的是哪一维。 很多时候你以为问题在 wording,实际可能卡在 trigger、边界、失败处理,或者执行指令根本不够可操作。 先把最弱项找出来,后面的修改才不是瞎试。 接着它出一个初步的报告,包含维度1-3,后面会有一个完整的全方位维度1-6的测评报告(看下图): 2)再看单项到底在说什么 我觉得这一步特别重要。 因为很多人一看到分数,会下意识觉得"哦,这项低,那我去多写一点"。 但 SkillCompass 真正有价值的地方,不是只给分,而是会把某个维度为什么高、为什么不满分、它到底在判断什么,说得更清楚。 比如拿 D6 = Uniqueness(独特性 / 不容易被替代) 来说,它看的不是"你这段话写得顺不顺",而是在看: 这个 skill 是不是真的有独立价值 有没有明显重复品 跟相似 skill 重合度高不高 是不是一句普通 prompt 就能替代 它是不是很快就会过时 这里个skill的这一维最后给到 8 分,不是说它不好,而是说:它已经有明确领域专属性,也不太容易被普通 prompt 替代,但还没有强到"极其不可替代"的程度。 3)定点修复,而不是整份 Skill 重写 找到弱项之后,不是整份 skill 重写一遍。 而是只修最该修的那一块。所以我们把弱项加强,不好的修正,但不污染上下文 **这里要敲重点!!!**它做了那段分数解释,并且新版分更高的同时也没有把别的地方改坏,因为修改目标清楚,而且不会为了补一个问题,把别的地方一起搅乱。 此时,SkillCompass 已经完成这轮评估/优化结果的写入(提升了 D5),没有出现回归,然后把新的评估记录和最新扫描时间写进本地文件。 4)改完再验证,千万不要靠感觉收工 改完不能靠"看起来更完整了"就结束。要重新验证这次修改到底有没有带来真实提升。 分数有没有上去,解释有没有更扎实,别的维度有没有被改坏,这些都得重新看。 (((兄弟们,有效的优化才叫"迭代",不然就是屎上雕花。))) 5)再找下一个瓶颈 一个问题修完,不代表 skill 就完成了。 通常是这个瓶颈被拿掉之后,下一个瓶颈才会浮出来。 所以真正有效的迭代,不是一次性改到完美,而是持续地: 诊断问题 → 定向修复 → 验证提升 → 找到下一个瓶颈 这也是我现在更认同的一种 Skill 迭代方式:不是凭感觉打磨,而是把迭代变成一个更可验证的 workflow。 适合什么人,不适合什么人 适合: 任何在维护 agent skills,并且希望质量能够被量化的人 想要有明确改进方向的开发者—不是靠猜,而是清楚知道下一步该修哪个维度 需要质量门槛的团队—任何会改动 skill 的工具,都可以在改动后自动接受评估 安装了很多 skills、想看清哪些真的在用、哪些已经陈旧、哪些存在风险的用户 不适合: 通用代码审查或运行时调试 从零创建新 skill(这个更适合用 skill-creator) 评估非 skill 类型的文件 项目在这里: github.com GitHub - Evol-ai/SkillCompass: Evaluate agent skill quality. Find the weakest… 有兴趣的佬欢迎去 GitHub 点个 star 支持一下。 如果你手上也有自己的 SKILL.md,欢迎直接贴出来,我这边也可以顺手用 SkillCompass 帮你跑一遍测评。 有问题也欢迎一起聊,也可以 fork 回去自己改着玩 2 个帖子 - 2 位参与者 阅读完整话题
怎么判断模型是不是真的opus4.7,有没有被路由掺水呢 6 个帖子 - 3 位参与者 阅读完整话题
这么高缓存命中,太原生了,真是一点没掺水啊。有缓存真的价格低了好多 39 个帖子 - 25 位参与者 阅读完整话题
这个是真的,感觉收割情怀主机玩家了,不过真的有人会去买么? 各位大佬可以来个投票: 支持必须买 狗都不买 纯路过 点击以查看投票。 from: 「NEOGEO AES+」主机2026年11月12日上市 1 个帖子 - 1 位参与者 阅读完整话题
仅限insider,真的超值的 9 个帖子 - 8 位参与者 阅读完整话题
刚转运维那会儿有个挺明显的习惯,到现在偶尔还会犯:服务一出问题,第一反应就是是不是代码又写崩了。可能跟之前做测试有关系,那时候基本所有问题最后都能落到代码上,久了就会下意识这么想。 但干久一点之后发现,有些问题你把代码翻几遍其实没什么用。 之前遇到过一个事还挺典型的。有个服务发完版之后开始偶尔超时,不是一直挂,就是那种隔一阵来一下的,很烦。当时第一反应肯定是代码问题,刚发版嘛,然后就很自然去看改动、怀疑某段逻辑,甚至都准备回滚了。结果回滚完还是会偶尔出现,当时就有点懵。 更离谱的是日志也没啥明显异常,就那种你感觉不对,但又说不上哪不对。那段时间其实来回看代码好几遍,也没什么新发现,有点钻牛角尖了。 后面也是没办法了,才开始往别的方向看,去看机器、连接数、一些运行时状态。最后才发现是连接数在某些时间段被打满了,新请求卡在建连上,看起来就像接口超时。这种东西你要是一开始就死盯代码,其实很难想到。 后来类似的情况也遇到过几次,慢慢就有点感觉了:有些问题不是“写的时候就错了”,而是“跑着跑着出问题”。比如配置稍微有点偏、资源顶到边上、网络偶尔抖一下,或者 k8s 调度有点歪,单看都还行,但叠在一起就开始出事。 现在再看问题会稍微控制一下自己,别一上来就扎进代码里,不然很容易越看越觉得就是代码问题,然后一路跑偏(虽然有时候最后还真是代码 )。 这两年也试过用 AI 帮忙看日志,有时候确实能帮你收敛一下范围,但也有那种越看越不对劲的情况,尤其这种不是单一原因的问题,它给的结论有时候挺自信的,但不一定对,所以现在基本当参考用。 也没啥总结,就是最近又遇到一个类似的,有点感慨。有人也遇到过这种吗,一开始死盯代码,最后发现完全不是那回事的那种。 2 个帖子 - 2 位参与者 阅读完整话题
首先,感谢上个帖子佬友的一些意见,真的非常感谢: https://linux.do/t/topic/1990161/34 。 然后大家看看行程有没有要改进的地方,我觉得这个行程不算太“特种兵”吧。另外,有哪些商业街之类的可以去逛逛。。或者有哪些好吃的。谢谢大家 17 个帖子 - 14 位参与者 阅读完整话题
如题,grok是真的好用啊,平时用来搜索最新的前沿信息,搜索一些解决反感啥的都很好用,个人感觉下来比claude和gpt的信息准确率和时效性要高很多,关键是速度还快,普通账号的额度也非常多,马斯克真是大善人 14 个帖子 - 13 位参与者 阅读完整话题
claude真的越来越难用了,最近换回了ChatGPT,搭配上pro的codex,真的不比claude差了我感觉 另外附上ChatGPT生图:感觉没灰度到 10 个帖子 - 8 位参与者 阅读完整话题
1 个帖子 - 1 位参与者 阅读完整话题
这种还要手动触发一下,真的是 9 个帖子 - 8 位参与者 阅读完整话题
看起来官网Sonnet 4.6也喜欢补刀…… 2 个帖子 - 2 位参与者 阅读完整话题
不是真的假的为什么半个小时没掉额度啊不应该,没停过。难道是要到期了,忽悠我续费吗 9 个帖子 - 4 位参与者 阅读完整话题
各位佬友,在下有个疑问小模型的能力真的比大模型差吗?现在模型参数都大的离谱,但是实际激活参数应该只有一部分,有哪位佬友懂得可以解释一下或者有相关文章吗 18 个帖子 - 17 位参与者 阅读完整话题