栏目分类

热点资讯

联系我们

APP开发资讯谷歌DeepMind被曝抄袭开源遵循，论文还中了顶流会议

发布日期：2024-07-19 09:59 点击次数：86

鱼羊西风发自凹非寺

量子位 | 公众号 QbitAI

大模子圈再曝抄袭大瓜，这回，“被告”如故大名鼎鼎的谷歌DeepMind。

“原告”径直怒喷：他们就是把咱们的工夫阐明注解洗了一遍！

具体是这样个事儿：

谷歌DeepMind一篇中了顶流重生代会议CoLM 2024的论文被挂了，瓜主直指其抄袭了一年前就挂在arXiv上的一项磋磨。开源的那种。

两篇论文接洽的王人是一种措施模子文本生成结构的步地。

app

持马的是，谷歌DeepMind这篇论文中确乎后堂堂写着援用了“原告”的论文。

然鹅，即就是表明了援用，“原告”的两位论文作家Brandon T. Willard（布兰登）和R´emi Louf（雷米）如故坚称谷歌抄袭，并以为：

谷歌对两者各异性的表述“确凿纵情”。

而不少网友看过论文后也缓缓打出一个问号：CoLM是奈何审的稿？

独一区别是换了主张？

马上瞅一眼论文对比……

两篇论文的比较

先浅看一眼两篇论文的选录对比。

谷歌DeepMind的论文说的是，tokenization给拘谨谈话模子输出带来了转折，他们引入自动机表面来措置这些问题，中枢是幸免在每个解码要道遍历通盘逻辑值（logits）。

该步地只需要拜访每个token的解码逻辑值，狡计与谈话模子的大小无关，高效且易用于险些通盘谈话模子架构。

而“原告”的说法约莫是：

提倡了一个高效框架，通过在谈话模子的词汇表上构建索引，来大幅提高拘谨文本生成的遵循。浅显来说，就是通过索引幸免对统统逻辑值的遍历。

一样“不依赖于具体模子”。

方进取确乎大差不差，咱们如故接着来望望更多精明本色。

咱们用谷歌Gemini 1.5 Pro诀别回来了两篇论文的主要本色，并接着让Gemini来比较两者的异同。

关于“被告”谷歌这篇论文，Gemini回来其步地是将detokenization从头界说为有限景色调养器（FST）操作。

将此FST与示意野心体式谈话的自动机组合，这种自动机不错用正则抒发式或语法来示意。

通过以上攀附，生成一个基于token的自动机，用于在解码流程中拘谨谈话模子，确保其输出的文本顺应预设的体式谈话措施。

此外，谷歌论文中还进行了一系列正则抒发式彭胀，这些彭胀通过使用相称定名的拿获组来编写，显贵提高了系统处理文本时的遵循和抒发才气。

而关于“原告”论文，Gemini回来其步地的中枢是将文本生成问题从头界说为有限景色机（FSM）之间的调养。

“原告”的具体步地是：

愚弄正则抒发式或高下文无关文法构建FSM，并将其用于指挥文本生成流程。通过构建词汇表索引，高效地笃定每个要道中的有用词，幸免遍历统统词汇表。

Gemini列出了两篇论文的共同点。

至于两者的区别，有点像前头那位网友说的，浅显回来就是：谷歌将词汇表界说为了一个FST。

前边也说到了，谷歌在“Related work”中将原告论文列为“最关连”的一项责任：

最关连的磋磨是Outlines（Willard&Louf, 2023），该磋磨一样选择有限景色自动机（FSA）和下推自动机（PDA）行动拘谨妙技——咱们的步地是在2023岁首孤苦开采的。

谷歌以为两者的各异在于，Outlines的步地基于一种特制的“索引”操作，需要手动彭胀到新的应用场景。比较之下，谷歌使用自动机表面绝对从头界说了统统流程，使得应用FSA和泛化到PDA变得愈加容易。

另一个区别是，企业app开发的公司谷歌界说了彭胀以复古通配符匹配，并提高了可用性。

谷歌紧接着在先容底下的两项关连责任中，也王人提到了Outlines。

一项是Yin等东谈主（2024年）通过增多“压缩”文本段到预填充的功能，彭胀了Outlines。

另一项是Ugare等东谈主（2024年）近期提倡的一个系统，名为SynCode。它也愚弄FSA，但选择LALR和LR默契器而非PDA处理语法。

与Outlines雷同，该步地依赖于定制算法。

但吃瓜环球们昭着不是很买账：

CoLM的评审们应该在意。我不以为这看上去是各自孤苦的“同时责任”。

网友：这事儿不荒漠…

这件事一发酵，不少网友王人怒了，抄袭可耻，更何况“科技巨头剽窃小团队的责任遵循不是第一次了”。

趁机一提，布兰登和雷米发布原告论文的时间王人在给Normal Computing而已责任，这家AI Infra公司修复于2022年。

哦对了，Normal Computing的首创团队有一部分就来自Google Brain……

另外，布兰登和雷米现时搭伙出来创业了，新公司名叫.txt，官网信息败露，其野心是提供快速可靠的信息提真金不怕火模子。而况官网挂出的GitHub主页，就是Outlines仓库。

说回到网友这边，更让众人伙儿不悦的是，“这种情况仍是变得大王人”。

一位来自荷兰代尔夫特理工大学的博士后共享了我方的遭逢：

昨年10月咱们完成了一项责任，最近有篇已被禁受的论文华纳了疏导的念念路和主张，但以至莫得援用咱们的论文。

还有一位好意思国东北大学的老哥更惨，这种情况他遭逢过两次，下手的还王人是吞并个组。而况对面那位第一作家还给他的GitHub加过星标……

不外，也有网友抒发了不同的意见：

如若说发个博客著述或未经评估的预印本论文就算占坑了，那东谈主东谈主王人会占坑，不是吗？

对此，雷米怒怼：

好家伙，发布预印本论文并开源代码 = 占坑；

写篇数学论文，以至不需要任何伪代码 = 好责任？？？

布兰登老哥也示意yue了：

开源代码并撰写关连论文是“占坑”，复制别东谈主的责任却说“我更早有了这个办法”且投稿了会议反而不是啦？真恶心。

瓜就先吃到这里，对此你有什么办法？不妨在驳倒区不竭盘考~

两篇论文戳这里：

二、百位分析：上期开出号码2，前10次号码2出现之后下期分别开出号码：7598486744，其中号码大小比为7：3，小号表现较冷；奇偶比为4：6，基本持平；012路比为2：5：3，2路号码走温。本期参考号码：2。

谷歌DeepMind论文：https://arxiv.org/abs/2407.08103v1

原告论文：https://arxiv.org/abs/2307.09702

参考连合：

[1]https://x.com/remilouf/status/1812164616362832287?s=46

[2]https://x.com/karan4d/status/1812172329268699467?s=46

[3]https://x.com/brandontwillard/status/1812163165767053772?s=46

— 完 —

量子位 QbitAI · 头条号签约APP开发资讯

上一篇：企业app开发的公司网站新版本上线
下一篇：APP开发资讯邱彪挖角新疆男篮，两位助教负责到位，北控顶薪来山东男篮试训！

APP开发资讯 谷歌DeepMind被曝抄袭开源遵循，论文还中了顶流会议

APP开发资讯谷歌DeepMind被曝抄袭开源遵循，论文还中了顶流会议