专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题

专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题

MR-Ben 团队投稿 量子位公众号 QbitAI 大模型测试能拿高分,实际场景中却表现不佳的问题有解了。 贾佳亚团队联合多家知名高校提出了一种全新的测评方法,让一些模型立马现出了原型。 这下不用担心大模型“刷题”太多,测试集无法体现真实水平了。 这个新的测评数据集叫做 MR-Ben,利用的是 GS
阅读全文
只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软

只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软

克雷西发自凹非寺 量子位公众号 QbitAI 只需激活 60% 的参数,就能实现与全激活稠密模型相当的性能。 微软亚洲研究院的一项新研究,实现了模型的完全稀疏激活,让推理成本大幅下降。 而且适用范围广泛,无论是从头训练、继续训练还是微调,都能提供有效支持。 该方法名为Q-Sparse,在神经元级别上
阅读全文
OpenAI“最后一篇”超级对齐论文:大小模型博弈,输出可读性up

OpenAI“最后一篇”超级对齐论文:大小模型博弈,输出可读性up

克雷西发自凹非寺 量子位公众号 QbitAI 让大小模型相互博弈,就能实现生成内容可读性的提升! 这是来自 OpenAI 的正经研究,目标就是在保证准确率的同时,让模型输出更容易被人理解。 用这种方法训练之后,人类对模型输出的判断准确率明显增长,速度也变得更快了。 这项研究出自 OpenAI 已解散
阅读全文
AI版“今日头条”,宿华投了

AI版“今日头条”,宿华投了

7 月 19 日周五,微软系统发生了全球大宕机事故,市场陷入混乱,多家企业的运营出现问题,全球供应链也受打击,在欧亚和北美的全球最大航空货运枢纽,数千架航班停飞或延误,航空运输可能需要几周时间才能恢复正常。事件背后的“罪魁祸首”CrowdStrike 因此成为了焦点。 据媒体报道,昨天全球范围内的计
阅读全文
赛车手雷军,能漂过下个弯吗?

赛车手雷军,能漂过下个弯吗?

出品虎嗅科技组 作者丸都山 编辑苗正卿 头图虎嗅拍摄 与王健林一样,雷军也有一个小目标:成为国内车企老板里开车最好的之一。 7 月 19 日,小米举办了雷军的第五次个人年度演讲,这位小米掌舵人花费 20 分钟,讲述自己如何一步步考取赛车执照、学会漂移的故事。 期间,雷军还分享了一则自己在吐鲁番试车的
阅读全文
字节跳动科学家组团演讲,揭秘AI视频生成大招!

字节跳动科学家组团演讲,揭秘AI视频生成大招!

智东西 作者程茜 编辑心缘 智东西 7 月 19 日报道,今日下午,在字节跳动 AI 技术菁英论坛上,字节跳动豆包大模型视觉基础研究团队负责人冯佳时主持,多位视觉大模型研究的关键人物集中演讲,详细解读字节跳动在视频生成和 3D 图像生成模型的一系列创新技术。 作为国内短视频王者,字节跳动是国内最受关
阅读全文
特斯拉生产线因“蓝屏事件”部分停工 马斯克:全系统清除肇事软件

特斯拉生产线因“蓝屏事件”部分停工 马斯克:全系统清除肇事软件

财联社 7 月 20 日讯(编辑史正丞)从美国当地时间周五凌晨开始,由于美国信息安全巨头 CrowdStrike 推送的软件更新存在严重错误,全球使用他们软件的 Windows 电脑集体陷入 “蓝屏的海洋”。不少机场、商场、酒店,以及办公室、工厂和证券交易所都因此瘫痪。 (来源:社交媒体) 根据最新
阅读全文
Windows炸了!全球大量PC同时崩溃,多个行业瘫痪!

Windows炸了!全球大量PC同时崩溃,多个行业瘫痪!

炸了,这次是真炸了! “微软蓝屏”的话题突然登上微博热榜第一,一开始我以为只是突如其来的一次网友集体吐槽,没想到却见证了本世纪最严重的系统安全事故之一。 图源:微博 据不完全统计,此次系统安全事故已经波及新西兰、澳大利亚、日本、印度、美国、中国香港等多个国家和地区,大量公共场所的 PC 系统出现了大
阅读全文
微软蓝屏事件波及全球,遭知名厂商CrowdStrike“背刺”?

微软蓝屏事件波及全球,遭知名厂商CrowdStrike“背刺”?

7 月 19 日下午,全球多地的 Windows 系统用户遭遇了电脑崩溃的问题,一时间“微软蓝屏”的话题登上微博热搜榜首,热度居高不下。 点进相关话题下,有大量网友晒出自己的电脑呈现蓝屏画面,其中不少出现了“csagent.sys”错误。还有网友戏称:“提前过上周末了。” 有安全专家表示,此次全球蓝
阅读全文
GitHub 改进代码推送逻辑,可靠性得到大幅提升

GitHub 改进代码推送逻辑,可靠性得到大幅提升

GitHub 针对开发者在其平台上频繁执行的代码推送操作推出了一系列技术革新,旨在提升操作的稳定性与效率。这些升级措施不仅解决了潜在的技术问题,还为定期向 GitHub 推送代码的用户提供更流畅的体验。 GitHub 的一位软件工程师 William Haltom 详细阐述了这次技术升级的背景。Ha
阅读全文
追觅科技扫地机稳居高端市场首位,领导高端化智能清洁新风向

追觅科技扫地机稳居高端市场首位,领导高端化智能清洁新风向

近日据公开数据,作为全球智能清洁行业的领军企业,追觅科技扫地机器人在 2023 年全球销量已突破 240 万台,实现了 300% 的同比增长。在高端市场,追觅科技的扫地机器人在 5000 元以上价位段的市场份额稳居首位。此外,其机械臂家族的全球累计销量也已超过 100 万台,进一步巩固了其在全球高端
阅读全文
小米首辆赛车SU7 Ultra发布,零百加速破2秒!但最好看的是雷军漂移

小米首辆赛车SU7 Ultra发布,零百加速破2秒!但最好看的是雷军漂移

发布会常有,但像雷军这么能讲的企业家不常有。 从 2020 年至今,雷军的年度演讲已经连讲四年。 我们可以从每场发布会上,看到雷军在心态上发生的微妙变化——最初选择「为小米汽车而战」时的《我的梦想,我的选择》,到「穿越人生低谷」时《永远相信美好的事物即将发生》,再到小米 SU7 博得万千关注时的《成
阅读全文
这个夏天,抖音游戏还是把厂商抬上了内容促活这条快车道

这个夏天,抖音游戏还是把厂商抬上了内容促活这条快车道

GameLook 报道/暑期档新游多到让人眼花缭乱,前两个月的“前哨战”,已经刷掉不少“钉子户”,头部榜单迎来多轮易主。但 7 月三十余款新作齐飞,预示着这场大战才刚刚开始。 庞然大物虎踞头部,实力新作多方围堵……7 月刚过半,一款接一款上线的新游戏,已经让抢夺用户心智这件事变得愈发困难。曾经的经验
阅读全文
狗能读懂人类情绪

狗能读懂人类情绪

狗能感受到人类的痛苦可能是天生的。一项社区科学研究表明,这是几个世纪以来狗与人类共同进化的结果。该研究比较了狗和宠物猪对人类哭泣和哼哼声的反应,研究结果近日发表于《动物行为》。 人类会在生活中关注动物的感受,而这种关注似乎也是相互的。研究人员发现,相比于人类的笑声,马更愿意停下来倾听人类的咆哮声。此
阅读全文
又一全新恶意软件曝光,曾滥用微软驱动程序签名系统

又一全新恶意软件曝光,曾滥用微软驱动程序签名系统

近日,研究人员发现了一种名为 HotPage.exe 的新型恶意软件。 这种恶意软件最初是在 2023 年底被检测到的,起初它伪装成了一个安装程序,表面上可以通过阻止广告和恶意网站来改善网页浏览。 但它实际上是将代码注入远程进程并拦截浏览器流量。正如 ESET 在今天早些时候发布的一份公告中所描述的
阅读全文
通义千问技术骨干周畅将离职创业

通义千问技术骨干周畅将离职创业

知情人士向时代周报记者核实,阿里通义大模型团队技术骨干周畅拟于近日离职创业。有接近阿里云的人士透露,其属于正常离职。通义大模型的研发和开源工作正在继续向前推进。目前,阿里通义实验室负责人为周靖人。 公开资料显示,周畅花名钟煌,本科就读于复旦大学计算机科学与技术系,2012 年进入北京大学,2017
阅读全文
Meta 未来的多模 AI 模型将不提供给欧盟客户

Meta 未来的多模 AI 模型将不提供给欧盟客户

鉴于欧洲监管环境的不可预测性,Meta 未来的多模 AI 模型将不提供给欧盟客户。Meta 计划将新的多模模型集成到智能手机和 Meta Ray-Ban 智能眼镜等产品中,AI 模型将能对视频、音频、图像和文本进行推理。 Meta 表示,这一决定还将意味着欧洲公司无法使用这些多模模型,尽管模型是在开
阅读全文
调查显示 84% 的 PC 用户不愿意为 AI 硬件支付溢价

调查显示 84% 的 PC 用户不愿意为 AI 硬件支付溢价

TechPowerUp 的一项调查显示绝大多数 PC 用户不愿意为 AI 硬件支付溢价。有逾 2.6 万人参与了调查,84% 的人表示不会支付溢价,7% 表示会,9% 对此不确定。微软正在推广它的 Copilot+ PC 概念,PC 厂商也在转向集成 AI 功能的 PC 产品,但大部分人目前对其价值
阅读全文