炼数成金 门户 商业智能 人工智能 查看内容

NIPS2017大统计:谷歌、CMU、分列总数、第一作者

2017-12-7 11:15| 发布者: 炼数成金_小数| 查看: 9526| 评论: 0|原作者: Robbie Allen|来自: 雷克世界
摘要: 众所周知,第三十一届神经信息处理系统年会(NIPS)本周在加州长滩举行。NIPS可以说是最有声望的AI相关学术会议。同时还是出席人数规模最大的会议。而在过去的几年里,出席率急剧上升。参会人数AI指数不仅出席人数增 ...
工具 机器学习 数据挖掘 商业智能 学术
众所周知,第三十一届神经信息处理系统年会(NIPS)本周在加州长滩举行。NIPS可以说是最有声望的AI相关学术会议。同时还是出席人数规模较大的会议。而在过去的几年里,出席率急剧上升。
 

参会人数AI指数
 
不仅出席人数增加,与此相关的,提交审查的论文数量也在增长。2016年,共提交论文2406篇,其中568篇论文(https://nips.cc/Conferences/2016/Schedule?type=Poster)被接受录用,录取率为24%。而今年,共接收3240篇论文,其中有679篇(https://nips.cc/Conferences/2017/Schedule?type=Poster)被接受录用,录取率为21%。
 
我之所以决定与Lawrence Carin合作,而不是像以往那样单打独斗,只身就职于Automated Insights,主要原因是他组织了一个机器学习队。Lawrence是机器学习学术领域的重要人物,NIPS就是一个很好的例子。Lawrence所领导的小组今年占了NIPS中的十篇论文。往往两篇论文被接手录用就是一个重大的成就了,所以十篇是一个很大的数字。这使我想要对这被接受的679篇论文背后的人员和机构做一些分析。这就是我接下来将要介绍的内容。
 
NIPS并不是唾手可及的
除了了解哪些研究人员(如Lawrence)的论文被NIPS获接受之外,我很想知道哪些机构是最多产的。就像Andrej Karpathy为ICML所做的那样(https://medium.com/@karpathy/icml-accepted-papers-institution-stats-bad8d2943f5d),我认为这是一个简单的数据挖掘任务,特别是在NIPS与ICML所使用的是相同的网站情况下。
 
在十月份,当我查看接受的论文的初始列表(可以在Wayback Machine(https://web.archive.org/web/20170914060103/nips.cc/Conferences/2017/AcceptedPapersInitial)上找到)时,格式就是如下所示:
 
VAE Learning via Stein Variational GradientDescent
Yuchen Pu (Duke University) · zhe Gan(duke) · Ricardo Henao (Duke University) · Chunyuan Li (Duke University) ·Shaobo Han (Duke University) · Lawrence Carin (Duke University)
 
Efficient Use of Limited-Memory Resourcesto Accelerate Linear Learning
Celestine Dünner (IBM Research) · ThomasParnell (IBM Research) · Martin Jaggi (EPFL)
 
Temporal Coherency based Criteria forPredicting Video Frames using Deep Multi-stage Generative Adversarial Networks
Prateep Bhattacharjee (Indian Institute ofTechnology Madras) · Sukhendu Das (IIT Madras)
 
这是一种非常可行的方法。它有我所需要的所有信息,即论文、作者名单和他们的所在机构。编写一个脚本来解析并生成我正在查找的统计信息是很简单的。不过,这是我第一次介绍各种机构使用的名字,所以难免有些不足。有10种不同的方式可以用于表示“Google”,而有11种不同的“IBM”版本,因此需要一些手动处理。
 
更大的问题来了,当我想获得更新的统计信息(用于这篇文章)。在最终被接受的论文列表中,已经有了良好的格式化的样式。我发现有两个地方可以得到的列表:这里(https://nips.cc/Conferences/2017/Schedule?type=Poster)以及该处(https://papers.nips.cc/book/advances-in-neural-information-processing-systems-30-2017)。只有一个问题:这两个列表里面都没有涉及作者所在机构介绍!我做了一些搜索,但找不到其他来源。我本可以试着把这些机构从论文中拉出来,但是在看了几篇文章之后,发现没有一个作者排列的标准化格式,因此,这看起来像是一个艰巨的任务,而它本来该是可以快速完成的任务。
 

NIPS2017接受论文摘要
 
那么,现在我的选择是希望自9月份初稿发表以来没有多少变化。我可以将9月份版本中的机构用到12月的版本中。这使得数据解析任务变得更加复杂,因为现在我需要从两个单独的列表中对数据进行配对,并将所有差异考虑在内。此外,这意味着对于那些没有出现在9月份数据中的任何新作者,我将不能够提供其所在机构。
 
最终,我正在寻找的只是大概的数字,而不是较精确的统计数据,因此,我将继续挖掘。
 
9月和12月之间数据的变化
9月到12月的论文数量没有变化(总共679篇),但是有不少文章标题被修改了,或者完全改了标题(这使得匹配难以进行)。在这两份清单之间,我能够找到679篇论文中560篇的较精确匹配。
 
我能够根据一些简单的规则来匹配98篇。例如,通过查看标题的前20、15或10个字符,或者查看标题的最后20、15或10个字符,从而在列表之间寻找单个匹配的论文。
 
在12月份的名单中,有21篇文章在9月份的名单上没有合理的匹配(只看标题)。
 
就作者而言,我能够在2035个中找到1886个匹配者。我把其余的149位作者标记为“未分组”,但总的来说,这意味着我能够为93%的作者找到机构。虽然这并不完美,但就我的目标而言还是挺满足的。
 
好的发现
对于谁会向像NIPS这样的会议发表论文,我有一些问题,但主要围绕的事谁是最多产的。对于那些在90年代末和21世纪初左右的人来说,发表论文与10 - 20年前的专利军备竞赛很类似。幸运的是(也是我喜欢AI复兴的一部分原因),论文不能像专利那样推断知识产权。
 
作者统计
正如我前面提到的,杜克大学的Lawrence Carin小组发表了10篇NIPS论文。他占据了榜首,而且还没有与其相接近的对手。这并不意味着Lawrence是十篇论文的主要作者,但他监督并对10篇论文所涉及的研究做出了贡献。它展示了包括文本分析、图像合成和大脑动态局部场电位分析在内的多个主题领域的突破性进展,而这是令人印象深刻的。
 
Total papers:
1. lawrence carin (duke university): 10
2. alexander schwing (university ofillinois at urbana-champaign): 6
3. nicolas heess (deepmind): 5
3. michael jordan (university ofcalifornia, berkeley): 5
3. andreas krause (eth zurich): 5
3. razvan pascanu (deepmind): 5
3. le song (georgia institute oftechnology): 5
8. 22 tied with 4
 
通常情况下,论文的最后一位作者是研究小组的负责人,或是监督各种项目的负责人。因而,在这里看到Lawrence和像 Bengio这样的名人在一起并不奇怪。
 
Last-author:
1.lawrence carin (duke university): 7
2. davidblei (columbia university): 4
2.volkan cevher (epfl): 4
2.yoshua bengio (université de montréal): 4
5. 31tied with 3
 
另一方面,列在论文上的第一作者往往是做了很多繁重的工作从而被认为是值得赞扬的。有三个人以第一作者的身份向NIPS发表了三篇论文,这是一个重大成就。
 
First-author:
1. aryamazumdar (university of massachusetts amherst): 3
1. ericbalkanski (harvard university): 3
1. simondu (carnegie mellon university): 3
23 tiedwith 2
 
机构统计
现在对于在NIPS中发表论文最多的的前50名机构,为了显示Google所占据的主导地位,我把Google和DeepMind分开了。
 
卡耐基梅隆大学、麻省理工学院、斯坦福大学和伯克利大学轻而易举地成为前四所大学。谷歌、微软和IBM在营利性公司中占有领先地位。
 
这些数字在与ICML很是相似。
Totalpapers:
1.google: 60 (8.8%)
2.carnegie mellon university: 48 (7.1%)
3.massachusetts institute of technology: 43 (6.3%)
4.microsoft: 40 (5.9%)
5.stanford university: 39 (5.7%)
6.university of california, berkeley: 35 (5.2%)
7.deepmind: 31 (4.6%)
8.university of oxford: 22 (3.2%)
9.university of illinois at urbana-champaign: 20 (2.9%)
10.georgia institute of technology: 18 (2.7%)
11.princeton: 17 (2.5%)
11. ethzurich: 17 (2.5%)
13. ibm:16 (2.4%)
14.inria: 15 (2.2%)
14.harvard university: 15 (2.2%)
15.cornell university: 15 (2.2%)
17. dukeuniversity: 14 (2.1%)
17.columbia university: 14 (2.1%)
17.university of cambridge: 14 (2.1%)
17.epfl: 14 (2.1%)
21.university of michigan: 13 (1.9%)
22.university of toronto: 12 (1.8%)
22.university of southern california: 12 (1.8%)
22.tsinghua university: 12 (1.8%)
25.facebook: 11 (1.6%)
25.riken: 11 (1.6%)
27.university of washington: 10 (1.5%)
27.university of california, los angeles: 10 (1.5%)
27.university of texas at austin: 10 (1.5%)
30. newyork university: 10 (1.5%)
30.university college london: 10 (1.5%)
32.université de montréal: 9 (1.3%)
32.tencent ai lab: 9 (1.3%)
34.openai: 8 (1.2%)
34.adobe: 8 (1.2%)
34.university of california, san diego: 8 (1.2%)
37.university of tokyo: 7 (1.0%)
37.university of pittsburgh: 7 (1.0%)
37.peking university: 7 (1.0%)
37.university of minnesota: 7 (1.0%)
41.university of california, davis: 6 (0.9%)
41.technion: 6 (0.9%)
41.university of pennsylvania: 6 (0.9%)
41.nanjing university: 6 (0.9%)
41.johns hopkins university: 6 (0.9%)
41.university of wisconsin-madison: 6 (0.9%)
47.australian national university: 5 (0.7%)
47. telaviv university: 5 (0.7%)
47. ohiostate university: 5 (0.7%)
57.national university of singapore: 5 (0.7%)
 
接下来,我想看看有多少机构被列入首位,因为这是谁领导或发起这项研究的一个重要指标。这表明,虽然谷歌位居大量的论文榜单之中,但他们参与的更多而不是主导,因为他们在这份名单中排名仅排名第四。
 
Totalfirst-author papers:
1.carnegie mellon university: 36
2.massachusetts institute of technology: 30
3.stanford university: 25
4.google: 24
5.university of california, berkeley: 21
6. dukeuniversity: 14
7.deepmind: 14
8. ethzurich: 13
9.microsoft: 12
10.harvard university: 11
 
最后,我想看看每个机构有多少作者。这再次表明这些机构有多少人参与了前沿研究。 CMU在这方面有很大的优势。
 
Totalinstitution authors:
1.carnegie mellon university: 89
2.google: 78
3.massachusetts institute of technology: 69
4.deepmind: 68
5.stanford university: 66
6.university of california, berkeley: 60
7.microsoft: 59
8. ethzurich: 31
9.university of oxford: 29
10. dukeuniversity: 28
11.princeton: 28
 
总结
•Google在研究的广泛度上显然是遥遥领先的。他们具有最多的论文,如果你将DeepMind包含在内的话,他们的作者(截至目前)是最多的。
 
•CMU是领先的学术机构,就在NIPS发表的论文而言。他们拥有最多的第一作者论文,还有更多的人对论文的发表做出了贡献,除了从Google / DeepMind以外,超过了任何机构。
 
•杜克大学的LawrenceCarin是NIPS研究人员中最具生产力的一个团队。他参与的论文数比其他任何人都要多,这是不小的成就。
 
•杜克大学是大学论文总数、第一作者论文和总作者全项排名中的前10位。
 
关于机构名称的说明
公司、大学和研究机构也可能想要开始思考如何在论文中引用它们。鉴于目前我们在发表的论文上的价值,像我在这篇文章中所做的统计数据的编译将会越来越普遍。大堆名称的变化将会使得创建准确的统计数据变得愈加困难。
 
下面是一个小片段,展示了我是如何突破几个较大的挑战的。我敢打赌,你不知道有11种拼写“IBM”的方法。
 
'googlebrain resident': 'google',
'googlebrain': 'google',
'googleinc': 'google',
'googleinc.':'google',
'googleresearch nyc': 'google',
'googleresearch': 'google',
'google,inc.': 'google’,
'deepmind@ google': 'deepmind',
'deepmindtechnologies': 'deepmind',
'googledeepmind': 'deepmind’,
 
'ibmresearch - china':'ibm',
'ibmresearch':'ibm',
'ibmresearch, ny':'ibm',
'ibmresearch, usa':'ibm',
'ibm t.j. watson research center':'ibm',
'ibm t.j. watson research':'ibm',
'ibm t.jwatson research center':'ibm',
'ibmt.j. watson research center':'ibm',
'ibmt.j.watson research center':'ibm',
'ibmthomas j. watson research center':'ibm',
'ibm tjwatson research center':'ibm',
 
'microsoftresearch cambridge':'microsoft',
'microsoftresearch india':'microsoft',
'microsoftresearch maluuba':'microsoft',
'microsoftresearch new england':'microsoft',
'microsoftresearch':'microsoft',
'microsoftresearch, redmond, w':'microsoft',
'microsoftresearch, redmond, wa':'microsoft',
'miicrosoftresearch':'microsoft',
 
'universityof wisconsin - madison': 'university of wisconsin-madison',
'universityof wisconsin madison': 'university of wisconsin-madison',
'universityof wisconsin': 'university of wisconsin-madison',
'universityof wisconsin, madison': 'university of wisconsin-madison',
'universityof wisconsion-madison': 'university of wisconsin-madison',
'uw-madison':'university of wisconsion-madison’,

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

  GMT+8, 2017-12-17 19:41 , Processed in 0.139692 second(s), 26 queries .