我今天分享的是“双创”画像和热点分析,之所以做这个工作也有很多的契机。我刚才有说我带过学生去参加互联网+这样的比赛,我们的团队也在近三年拿了国赛两金两银的成绩。在这个过程当中,我深刻地体会到一个专业老师从科研的角度去做“双创”的难度。
因为我们可能知道,以前的学科竞赛,比如说数学竞赛、英语竞赛、ACM竞赛,实际上对于老师学科背景要求不是非常复杂。而创新创业竞赛实际上对学生的要求就很高了,不只是说你会一个什么东西,可能对你科研本身有要求,还要对比赛赛制以及对创新创业的理解有要求。
我在带的过程当中,我经常跟我的学生说参加创新创业竞赛可不是去开一个公司,如果是开一个公司,咱们在淘宝上注册一个店就开公司去了,如果你抱着一个开公司的理念去参加创新创业竞赛,我觉得一定是错误的。跟他们的沟通交流当中,我想基于创新的创业应该是深刻铭记在脑子里面,所以创新是它的一个起点,创业只是后面的一个副产品。而且我带的这个团队里面,其实开公司成功的只有一家,四个团队只有一家是开公司还可以,另外三家都是最后变成越来越喜欢去做科研,去发论文了,所以也是非常好玩的一件事情。
为什么要做双创竞赛数据分析?
今天我想谈一下我为什么要选题做“双创”竞赛数据的分析,其实我在前面是陆老师带着我去参加的高校竞赛排行榜的工作,在今年的白皮书里面我做了竞赛生态的分析,在这个分析过程中,我发现学科竞赛的分析做它的生态可能能做一个什么样的工作?能做一个对比的工作,比如说我分析了浙大参加了多少竞赛,取得了多少奖项,我又分析了交大参加了多少竞赛,取得多少奖项,在各个维度上进行拆分和解构,最后得出在竞赛生态上有没有相似性?浙大相似的是杭州电子科技大学,这是我们分析得到的一个结果。
我在做这个工作当中,我发现做学科竞赛其实它的维度定下来之后,创造性就很小了。这个课题里面,如果各位老师参加过或者了解过创新创业比赛就知道,有几个区别于传统上的像数学、英语这样的学科竞赛的特质。它的特质在于主观性强,参赛的意愿很明确,学生参赛的时候很多学生就是抱着做创新创业这件事情的,他不一定是为了保研,为了拿一个学分。
第二个,就是主题非常明确,就是他的选题,你可以从他的题目看出他到底要干什么,这一点是普通学科竞赛没有的。我去参加数学竞赛的时候,我拿了2019年的数学竞赛特等奖和2018年的特等奖没有可比性,我都不知道题目是什么,很难。
还有一个是社会性,因为是一个创新创业竞赛,里面也要求一些商业的特质,不仅考虑技术上的突破,还有商业上的壁垒,数据上的壁垒,加上技术壁垒,所以是一个综合性很强,又是对学生要求非常高的一个比赛。这是我想从这个入口来进行分析的一个主要原因。基于这样的一个工作,这样的一个理解,我从今年开始参与到这项工作当中来。
双创大数据分析的三个阶段
我把这项工作分成三个阶段,第一个阶段,既然你要做“双创”大数据的分析,数据是一定要用的。
第二个,在数据的基础上,我们要构建不同于前面简单式的非结构化数据的理解,我们要构建一个结构化数据,在这里我们是想做一个知识图谱,并构建相关的画像。
最后基于这个数据库以及画像,我们来做一些衍生性的服务。
我们要做这件事,如果说按照刚才的三个步骤来,一定要发现自己到底在这一块有哪些优点?第一个,我们在数据上有得天独厚的优点,我们在参加竞赛排行榜当中,我们获得非常多真实的有效的数据,我们也拿到相关的作品,同时我们也对它进行比较好的整理和分析。在这个过程当中我们利用到一些技术,但这些技术我觉得还是比较简单的,我们把现有的数据进行分析整理之后获得“双创”大数据。
双创数据分析需构建知识图谱
今天听到有老师在做全国大学生竞赛年会,我们现在主要是各种创意赛,还有互联网+、创青春,以及相关的一些大家并没有很多了解的竞赛,通过一些渠道,这些数据更新我们可以实时更新我们的数据库。当然也得到一些有意思的结论,比如说“双创”竞赛主要体现在技能,还有工科,在医药、化学和艺术设计这一块可能相对较少,可能也符合大家直观的认识。
当然我们也做了一些其他属性的分析,包括你可以发现本科以上学历参与的要比专科以上学历参与的要多一些。从2002年到2008年,几乎是每年逐增的趋势,这也和我们直观的印象非常相似。我们也进行了一些关键词索引,构建了很多对现有数据库当中一些重新的分类,具体就不去介绍。
第二块,做“双创”比赛如果说仅仅从竞赛这个角度去分析一定是有缺失性的问题,因为既然你要做创新创业,你对社会不了解,对产业界了解,你分析的结果一定没有多少指导意义,所以我们第二块的工作是从产业的角度来分析我们现有的一些数据。我们通过分析最新的《财富中国》里面对产业的分类,大概有28个分类,对每个分类进行了详细的数据挖掘,包括细分市场的数据、内容的数据以及核心技术数据,可以看到短视频行业最近非常火,在数据呈现上也有非常鲜明的特色,它的细分市场,从以前的短视频仅仅是记录一下自己的开心时刻,到现在逐渐地走向娱乐、社交甚至于电商,慢慢慢慢出现了各种形式的变化,这个我们是从细分市场上进行了一个分析。
同时,由于这种变化也引发它内容上的变化,比如说它面向职场的,有的在抖音上可能就是想展现一下自己才艺的,还有生活的,还有科普的。同时还有核心技术的变化,包括近期短视频有一键换脸的做法,还有一键生成短视频的,我们今年获得互联网+国赛银奖的作品,还有很多很多在内容、技术和市场上进行变化。我们要做的工作就是怎么样把是市场的维度、产业的维度和竞赛的维度进行一次匹配,所以就有了一个近期也算是我们的一个核心工作,我们定义成叫作品的知识图谱,这个知识图谱考量了竞赛本身的数据,也考量了社会、环境、市场的数据。从两方面进行了一次对比,我们把细分市场具体内容和核心技术面向社会的参考量和竞赛本身的三参考量,叫领域、功能和方法进行了匹配式关联。
老师们如果带过比赛就知道,或者我们在写论文的时候,我们说一个优秀的论文名,或者一个让人容易记住的论文名,你能够了解三方面的信息,第一个它面向什么样的用户,第二个它面向什么样的功能或者解决什么样的问题,第三个有什么先进的方法?在计算机我们大部分的论文就是基于什么什么的研究。
创新创业也一样,一个好的创新创业选题的名字应该在领域、功能和方法上有所体现,如果不能在这三方面进行体现,别人通过你的名字很难了解它大概的功能,如果有一个好的名字能够让他一下子有所理解,就是很好的。这也是为我们通过名称来分析一个作品奠定了理论上的一些基础。
同时,我们利用机器学习和数据挖掘的方法,以2018—2019年人工智能相关创业竞赛为类,我们进行词云分析,构建了知识图谱,深度学习是最重要的一个关键词,还有人工智能,还有很多相关的东西。随着我们不断地加入比赛,内容上不断丰富,这个词云就会越来越具有参考意义和价值。
同时我们也对市场上,也就是我刚才说的目前的一些典型代表性的领域市场进行分析,你会发现在领域这一块已经有了非常非常多的特色,比如说在2018—2019年,交通类非常多,还有就是医疗类,其实你可以看一下今年互联网+获奖的,我不知道各位老师有没有看一下都是类似大国重器医疗名称的产品,就是获奖金奖的产品。
我们也对获得奖项,右边是多少获奖的作品,我们会构建一个获奖的金字塔。从这个金字塔上你可以发现并不是说你选热门的领域获奖的概率就高,也并不是。这里我就不再去详述了。
构建知识图谱的作用
我们要做的事情,第一个,我们如果构建了这样一个知识图谱能干什么?我们第一件事情要构建一个高校的画像,能够为每个学校建立一个对标的体系,以后为他的发展提供一个参考,就会对这个高校的发展有很好的帮助。
我们这里以浙大为例,分析了三个属性,自身属性、获奖人员和获奖作品,实际上早上北大老师提的三个问题,你是谁,你从哪里来,你要干什么,我们把三个属性进行了一些细化,我们可以总结出浙大的特色叫高热度、跨学科和高增长。如果相关的高校想从这三方面入手,可以参考一下浙大的一些发展的模式,包括在参加竞赛的时候一些选题,相关的一些界限。
第二个要服务的就是为竞赛的组织方,我是一个竞赛组织方,我要了解一下我这个竞赛到底适合哪些学校,或者说哪些学校适合参加我们这样的一个比赛,我可以通过相关的一些热图分布做一些了解。
当然我们最后一个服务的对象是参赛本人,也就是说学生在选题的时候他到底怎么去考量。我们从领域、功能和技术,实际上就是我们在论文题目命名上进行了一些划分,从2012—2018年,大家可以看得到在领域方面出现非常大的变化,但是2019年会发现和2012年比较相似,所以历史就是在不断地转来转去。从功能上,2012年关爱老人、民生,2015—2018是人工智能、大数据,2019年又回去了。我们配以市场、内容、技术相关的热点,就能够对学生或者相关参赛者提供一个非常好的精确的选题的评估。因为很多时候我们是通过题目就能判断你值不值去做,就像大家在选科研方向一样,一个方向可以通过论文的名字或者研究的名字来判断你值不值得研究。
回到前面,紧扣一下我们做这件事的目的,我们想通过这样一个数据库的收集以及画像的构建,和我们对参赛的学校,参赛组织方以及参赛者服务的角度来讲,我们想做从整体上的一种研究的思路为他们提供一些实证的结果,从而给他们一些参考。