TNC layouts are often more efficient.
why for RNN?
TNC layouts are often more efficient.
why for RNN?
Parsing and performing another pre-processing such as augmentation may be expensive. If performance is critical, we can implement a data iterator in C++. Refer to src/io for examples.
practice; do customize iterator in C++
it's only capable of mindless broadcasting.
note for fanout exchange
ETL
Extract, Transform, Load
OLAP
Online Analytic processing
Pyramid
count featurization
Towards
put additional constraints on ML models ot make sure perturbation after attacks make sense for classifier.
SecureML
secret share: digits truncation decimal -> integer
Is Interaction Necessary for Distributed Private Learning?
local private learning differential privacy
Advantages of Hadoop Hadoop framework allows the user to quickly write and test distributed systems. It is efficient, and it automatic distributes the data and work across the machines and in turn, utilizes the underlying parallelism of the CPU cores. Hadoop does not rely on hardware to provide fault-tolerance and high availability (FTHA), rather Hadoop library itself has been designed to detect and handle failures at the application layer. Servers can be added or removed from the cluster dynamically and Hadoop continues to operate without interruption. Another big advantage of Hadoop is that apart from being open source, it is compatible on all the platforms since it is Java based.
Hadoop的优势
注:由于信工所发展迅速,人员流动频繁,且以下内容不能保证实时更新,故本文的一些内容可能过时甚至有所误导,请大家自己注意辨别,有问题请向信工所在读学生了解。 导师列表:http://www.iie.cas.cn/yjsjy_101173/dsyd/ 中国科学院大学导师主页:http://www.ucas.ac.cn/site/77 信工所有三个园区,香山园区(北京市海淀区闵庄路丙87号、甲89号、91号)、益园园区(北京市海淀区四季青镇杏石口路中部80号益园文创基地C1)和肖家河园区(毗邻圆明园,面积是软件所软件园区的4倍,未启用),香山园区是最早的园区,香山园区和益园园区都是租住的。信工所的学生研一住在中国科学院大学雁栖湖校区,研二住在玉泉路校区,也有部分学生住在中关村校区。 信工所硕士招生名额为210(增加中),博士招生名额为150(增加中)。 中国科学院信息工程研究所,简称信工所,英文全称Institute of Information Engineering,Chinese Academy of Sciences,英文缩写IIECAS,是2011年批准成立的中国科学院直属科研机构。信工所受到国家大力支持,包括信工所前任所长田静研究员调任国家保密局局长,中国工程院院士方滨兴为信工所兼职博导、二室首席科学家等,因此信工所得到了国家保密局和工信部的支持,另外北京邮电大学、北京交通大学、上海交通大学等很多高校的信息安全领域重要学者都成为了信工所的客座博导,因此信工所的六个研究室都出身不凡。2014年中科院提出”率先行动“计划,成立以信息工程研究所为主体的信息工程创新研究院,根据新的改革发展需要,调整内部结构,凝练科研目标,优化科研布局,进一步整合相关优势科研力量,充实和加强科研队伍,涉及声学研究所、计算机网络信息中心、计算技术研究所、高能物理研究所、半导体研究所等5个研究所近100名科研骨干。 信工所承担了中国科学院大学网络空间安全学院的建设。中国科学院大学网络空间安全学院主办了全国高校网安联赛(http://xnuca.erangelab.com)。 信工所2012年第一年招硕士研究生,博士招生名额也十分充裕。因为信工所的实验室还在扩建和完善,所以这几年的招生比预期多,等到信工所的实验室建制稳定后,就不会再接受考研调剂学生了。信工所建立不久,各个实验室都在引进人才,有些研究室如五室、六室也很年轻。客座导师中有部分是亲自指导学生的,也有一部分客座老师不带学生,他们的招生名额主要是为其他没有招生资格的老师提供名额。另外,由于信工所仍处于创业阶段并且短期内不会脱离这一阶段,信工所在很多方面管理都没有形成规范,另外各组组里助研的水平参差不齐,这都是起步阶段的正常现象,主要看考生在意与否。 所里工程压力和强度最大的研究室是二室和四室,一室、三室工程组、五室和六室的工作压力根据课题组的不同而不同,最自由的、可以有时间做自己的项目和事情的研究室是三室理论组。信息安全国家重点实验室中的一室和三室在密码学与安全协议领域实力强劲,适合数学类专业考生;二室和六室是纯计算机学科研究室;除二室和六室外,其他研究室都有适合电子通信类专业考生报考的研究团队;考生无论本科是什么专业,如果具有较强的动手能力,会受到所有研究室的欢迎。 信工所的学生待遇由三部分组成,分别是RA+所补贴+国家补贴,其中RA(助研津贴)分等级,根据表现确定,不过有些实验室和课题组是所有学生都一个标准;所补贴是由课题组发放;国家补贴是固定的,标准是硕士生每月600元,博士生每月900元。本科实习生初入组是1000元起,外加餐补400元。学生待遇根据不同课题组和导师而不同,不过不管是哪个研究室的理论组,待遇肯定是研究室里最低的,因为不做工程项目。四室的情况有所不同,虽然四室整个研究室都是做工程的,但是其整体待遇类似其他研究室的理论组。一般来说,参与到工程部建设的科研团队拥有充足的科研经费和更好的待遇,是直接受益者。信工所实行研究室主任负责制,所有研究团队,无论是做理论还是工程研究,都是有业务需求的。 下面介绍一下各个研究室: 第一研究室: 第一研究室科研队伍主要来自于信息安全国家重点实验室(http://sklois.iie.ac.cn),位于香山园区,地址是北京市海淀区闵庄路甲89号B2栋。该实验室筹建于1989年,1991年通过国家验收并正式对外开放,是我国信息安全领域创建最早的研究机构之一。实验室原由中国科学院主管,原依托于中国科学院研究生院、软件研究所,2012年起依托于中国科学院信息工程研究所。 第一研究室的强项是密码算法与数学理论(代数密码、非对称密码、安全协议、视觉密码、密码数学理论等)、信息对抗(信息隐藏、密码工程学、侧信道与能量分析攻击)、安卓安全和恶意代码分析、图像与视频理解(图像与视频检索、加密、敏感信息检测、深度学习)。来自软件所的信息安全国家重点实验室,在国内相关领域的排名,一直都是第一,是很多学生报考软件所之后的选择方向。第一研究室的理论水平是所里最高,博士毕业要求普遍较高。一室对考勤管理比较严格,另外部分组研一学生需要每周从怀柔雁栖湖校区回到信工所参加组会。 一室包含如下团队: 林东岱研究员(http://sklois.iie.cas.cn/rcdw/yjy/201501/t20150107_275226.html)是信息安全国家重点实验室主任、一室主任,很有亲和力,没有架子,主动与学生交流,并且尊重学生的个人选择,不会过度限制学生。研究方向主要包括格密码、计算复杂性、密码分析、算法数论、序列密码、零知识证明、信息安全战略研究、视觉密码等,老师普遍不错,并且都是学术大牛。 刘峰研究员(http://www.fengliu.net.cn)的研究方向是网络空间安全战略研究(主要是写政策、报告等)、视觉安全与隐私保护、虚拟现实及网络空间安全理论,网络空间安全战略研究是此团队以后的重点发展方向。邓燚研究员和陈宇副研究员在一组,研究方向是理论密码学、零知识证明、概率证明系统,特别是协议的轮、通信、计算复杂性问题,团队在这一领域很有造诣。邓燚老师提出了一系列新的实例依赖的密码学工具,构造性的证明了零知识证明及论证系统中一个由B. Barak、O. Goldreich、S. Goldwasser和Y. Lindell提出的有关随机数重复使用的猜测,于2009年在理论计算机科学最顶级会议之一FOCS上发表了这一成果,并收到了领域内顶级期刊SIAM Journal on Computing邀请投稿,此外还在EUROCRYPT 2007和ASIACRYPT 2011上发表了2篇论文,并获得过中国密码学会首届优秀青年奖和首届密码创新奖一等奖。张文涛副研究员(http://sklois.iie.cas.cn/yjdw/fyjy/201406/t20140624_242295.html)的研究方向是密码分析与算法设计,与华为公司有很多合作项目,人品非常好,经常组织学生出去参加团建活动。孙瑶副研究员和黄震宇副研究员是林东岱研究员课题组的成员,主要研究方向是密码分析和代数攻击,具体研究内容分别是Groebner基算法和特征列算法,这两个算法是代数攻击的最主要两个算法,两位老师的研究成果都达到了国际先进水平。两位老师都毕业于中国科学院数学与系统科学研究院,其中黄震宇老师毕业于中国科学技术大学大学少年班,都具有扎实的理论功底。两位老师博士阶段的研究方向都是符号计算,在符号计算顶级会议ISSAC和期刊JSC上发表过多篇论文,工作后重点从事代数攻击方面的研究,和多个涉密部门有深入的项目合作。刘美成副研究员是林东岱研究员课题组的成员,硕士师从广州大学裴定一教授,博士师从林东岱研究员。博士期间重点研究布尔函数代数免疫度,博士毕业前已发表多篇高水平论文(包括IEEE Transactions on Information Theory、ASIACRYPT),并获得中科院优秀博士毕业生的称号。刘美成老师2016年在新加坡国立大学访问时,与国防科技大学孙兵老师合作在密码学领域顶级会议EUROCRYPT上发表了一篇论文。罗晓广研究员来自国防科学技术大学、61786部队。 薛锐研究员是一室副主任,研究方向是安全协议、形式化方法、计算复杂性、数理逻辑,对学生的专业背景和其他方面都没有特别的限制,只要有很强的求知欲就可以,他的学生可以根据自己的兴趣选择做理论或者是做工程方向,并且在经济上给予学生实质性的帮助。 陈驰正研级高级工程师团队的研究内容是数据安全、云计算安全、密文检索、生物密码,主持参与了大量国家级重大工程项目,2016年在IEEE TPDS顶级期刊上发表了论文。陈恺研究员(http://www.kaichen.org)团队是一室工程组中学术方面最强的,是学术大牛,研究方向是软件安全(包括恶意代码分析、漏洞检测)、智能终端安全(包括安卓、iOS安全等)、安全测评、隐私保护、CTF竞赛与对抗。陈老师学术实力很强,2015年与国外团队合作发表了中国大陆第2篇、中科院内第一篇USENIX Security顶会,还合作发表了ACM CCS和IEEE S&P顶会(中国大陆第7篇)文章,在信息安全领域公认的“四大”国际顶级安全会议(IEEE S&P、USENIX Security、ACM CCS、NDSS)中发表论文数在国内名列前茅,部分成果还发表在BlackHat等工业界的顶级会议中,另外还在ICSE、ASE等顶级会议上合作发表了论文。陈恺老师与学生关系非常融洽,几乎每天都会到工位上与学生讨论,在指导学生方面很有一套,而且他是80后研究员,与学生有很多共同语言。他对学生要求较高,对待学术的态度非常的严谨,提供的待遇也能使学生没有经济压力,组里的压力也较为适中。此外,团队与国内外多所高校都有合作,包括伊利诺伊大学香槟分校(UIUC)、宾州州立大学(PSU)、印第安纳大学(IUB)、南洋理工大学、新加坡管理大学、香港中文大学等,国内包括清华大学、 北京大学等。团队在工业界与Google、微软、苹果、亚马逊、Palo Alto Networks、FireEye、百度、阿里巴巴、腾讯、360、安天等均有紧密联系。陈老师的学生除了由他亲自指导外,也有去国外联合培养的机会,学生就业也非常好,多数都拿到公司的Special Offer,指导的学生所在的CTF战队已在国际大赛中获得世界第4、国内第1的成绩。吴槟高级工程师(http://sklois.iie.cas.cn/rcdw/fg/201501/t20150107_275238.html)团队的研究内容是网络攻防与安全事件检测分析,包括网络异常行为检测、隐蔽通信及其检测、实用网络安全通信协议及密码算法设计与分析、网络与通信系统安全性测评,主持或参与了多个重要科研项目。 密码工程组: 张锐研究员的研究方向是密码工程学(密码算法的软硬件快速实现、侧信道密码分析学)、应用密码学与安全协议、数据安全与隐私保护技术,要求较高,压力较大,但是亲自指导学生,实力很强,在IEEE TDSC、IEEE TIFS、IEEE TPDS等CCF-A类和B类期刊和会议上发表了很多篇论文。张锐老师本科毕业于清华大学,硕士和博士毕业于日本东京大学,是百人计划研究员。张锐老师和周永彬老师共同指导组内学生。王明生研究员的研究方向是计算代数、轻量密码学、大数据密码、密码相关的困难问题,组内还有李永强副研究员。王明生老师的理论功底很强,成果包括解决在多维系统论中关于多变量矩阵分解方面,20世纪80年代以来全球未解决的公开问题。周永彬研究员是第二工程部主任,团队的研究内容是密码工程学(侧信道分析和能量分析攻击、安全密码芯片设计与分析)、应用密码学、云计算安全与智能终端系统安全性分析测评,曾在DPA国际学术大赛夺得全球第一(http://www.iie.ac.cn/xwdt_101144/kydt/201403/t20140312_4050399.html)。周老师本人非常勤奋,另外他看起来严肃,实际上和蔼。 赵险峰研究员团队的研究内容是信息隐藏与隐蔽通信及其检测、安全异常行为与内容取证、大数据安全分析以及相关技术在信息内容保护和网络空间安全等中的应用,具体包括多媒体隐写术与隐写分析、编码和模式识别、基于数字水印的多媒体安全防护、多媒体篡改盲取证,以及相关的图像、音视频处理、GPU并行加速、隐写分析技术在网络流处理中的应用,团队在信息隐藏领域最好的会议ACM IH & MMSec上发表了多篇论文。组内老师包括曹纭高级工程师、关晴骁、易小伟。曹纭老师在ACM IH & MMSec、ICME等领域相关的高水平国际期刊和会议上发表了多篇论文,研发了视频隐写对抗平台、轻量级多媒体内容加密算法等成果;关晴骁老师主要做图像视频编解码、加密、隐写术,是组内的顶梁柱。赵老师组里的气氛非常融洽,因为赵老师崇尚君子之交,而且他经常主动到学生工位与学生们讨论具体的科研问题,看到学生有经济压力还会给予实质性的帮助。在学生就业方面,组内硕士毕业生的就业去向主要是创业公司。 刘偲副研究员(http://liusi-group.com)领衔S-LAB团队,研究方向是深度学习在图像视频处理中的应用、人工智能理论与应用系统、模式识别,曾经获得ACM MM最佳论文奖和最佳技术展示奖,截止到2016年已在CCF-A类和B类顶级期刊和会议上发表论文50余篇。刘老师曾在新加坡国立大学(NUS)跟随颜水成老师(现360首席科学家)团队学习、工作长达5年时间,与美国伊利诺伊大学香槟分校 (UIUC)、新加坡国立大学(NUS)、微软亚洲研究院(MSRA)、Adobe研究院(San Jose, California)、360研究院以及多家创业公司等都有合作,团队还经常邀请国际国内一线学者和企业技术大神来组里作报告。刘老师为人非常和蔼,认真负责,时刻关心学生的学习科研情况并进行详细指导,会与学生一起调试代码,并且对学生的编程能力(C、C++、MATLAB、Python等)要求较高。刘老师组论文阅读量很大,紧跟学术步伐。在学生培养方面,学生入组后第一年就能在CCF-A类期刊和会议上发表论文,出成果很快。2016年,3名大四实习生(2013级本科生)在进入课题组学习2个月之后,参加了中国计算机学会主办的CCF大数据与计算智能大赛,击败了来自国内知名高校和企业的全部团队,最终夺得大赛终极奖项CCF综合特等奖,赛事成果同时获得新华网、光明日报、凤凰网等多家主流媒体的报道。刘老师注重团建,定期组织大家吃饭,爬山,桌游,K歌等,团队内部氛围非常融洽。在学生就业方面,刘老师会帮助组内学生推荐工作,组内毕业生实力也很强,能获得包括“BAT”在内等多家企业的offers。郭晓杰副研究员(http://cs.tju.edu.cn/orgs/vision/~xguo/homepage.htm)的研究方向是稀疏表示在计算机视觉、模式识别、多媒体内容理解与安全中的应用,具体包括可视数据恢复、视频监控智能处理、机器学习算法设计和数学基础,每年都在领域内CCF-A类和B类顶级会议和期刊上发表论文10余篇,科研实力很强,研究成果具有很强的实用性,外表也非常英俊,人品也很好。 于海波正研级高级工程师是第一工程部主任,主持或作为骨干参与了大量国家级重大工程项目,研究方向是网络空间信息对抗技术,具体是利用入侵检测、访问控制、密码学等工程技术手段应对各类安全威胁,以实现信息保障。第一工程部导师还包括刘长军高级工程师,主要从事信息安全工程技术研究和产品开发。第一工程部的部分学生在赵险峰老师组培养。操晓春研究员团队包括王蕊副研究员、许倩倩副研究员等老师。侯锐研究员是处理器安全体系结构团队的负责人。侯锐在2016年以前是中科院计算所先进计算机系统研究中心CPU实验室的负责人,2017年加入信息工程研究所,曾工作于IBM中国研究院。侯锐老师在HPCA等国际顶级会议上发表文章多篇,领导团队做出过ARMv8、Power等系列高性能处理器芯片,他是国际自然科学基金优秀青年获得者。该团队致力于研究和解决处理器芯片相关的安全问题,着重关注安全体系结构、CPU设计与实现、侧信道攻击与预防、云计算和大数据的安全计算与隐私保护,以及CPU安全性评价等方面。团队以“做一流工作,育一流人才”为目标,面向国家战略需求,积极开展前瞻性探索,注重工程落地和成果转化。 研究方向 密码理论与技术、安全协议与体系、网络与系统安全、信息对抗和物联网安全等。 第二研究室: 第二研究室科研队伍主要来自于信息内容安全技术国家工程实验室(http://nelist.iie.cas.cn),该实验室成立于2008年底,是国家发展和改革委员会首批批准建设的100个工程实验室之一,原依托于中国科学院计算技术研究所,2012年起依托单位更改为中国科学院信息工程研究所。硕士研二起每月的待遇在3000-3600之间,与三室工程组硕士待遇不相上下,甚至有个别组的学生因为参与一些重要项目而每月超过10000元,博士生待遇比硕士生每月至少高600。这个实验室的工程研发能力在信工所排第一,实验室以工程为导向(如实验室名称所示),所以基本上以工程为主,做研究的时间和精力比较少,硕士从事研究工作的参与度和比例都较低,但博士生的论文都较为不错,经常发表A类论文,另外研究室的工程压力普遍比较大,是所里压力最大的研究室之一,不过仅有个别组需要考勤打卡,另外研一学生不需要每周回所,部分团队可能会布置一些研一学生可以做的工作,让他们在怀柔完成。一般来说,老师给学生布置任务,就会给学生发RA,学生不参与任务就只能领取基本的补助。二室的主要研究方向是大规模信息内容处理、并行与分布式计算,本质上是数据分析、机器学习、分布式系统之类的研究,也就是大数据。 二室分布在香山园区(地址是北京市海淀区闵庄路91号A3楼)、国家互联网应急中心(CNCERT/CC)、益园园区以及华严北里。 二室硕博连读的学生不多,因为二室的研究方向与工业界结合很紧密,硕士就业非常好,另外研究室的工程压力较大,所以大部分学生读完硕士就选择直接就业,而每年的博士招生计划主要通过招收直博生和普博生(即统考博士)来完成。 这个实验室考分要求很高,以前在计算所的时候,分数要求基本370+,搬到信工所以后也是复试竞争最激烈的实验室,很喜欢把一志愿和调剂生混在一起复试,而且只喜欢能力强的学生,刷人也是最厉害的,拟录取结果也是最晚公布。二室在考研复试中有机试,机试成绩低于30分(百分制)会被慎重考虑是否录取。 郭莉老师的学生在二室培养;谭建龙老师是二室主任,研究方向是云内容安全、密码破解超级计算机、海量正则表达式匹配,老师本人也非常勤奋。孟丹老师的很多学生也分配到了二室。 二室包含如下团队: 刘燕兵老师是内容计算组(http://www.escience.cn/people/liuyanbing/index.html)组长,研究内容涉及了软硬件多个层次,导师还包括马伟、曹亚男(http://nelist.iie.cas.cn/yjspy/sssds/201607/t20160705_341584.html)。王斌老师(http://nelist.iie.cas.cn/yjdw/zgry/201407/t20140721_246792.html)是信息检索研究组组长,研究方向是信息检索及数据挖掘。作为信息检索领域的知名学者,他独立或合作翻译了多本信息检索、数据挖掘、自然语言处理、机器学习相关的学术型和实战型书籍,这些书籍在学术界和业界具有较高知名度。他曾经在国科大计算机与控制学院开设现代信息检索课程,2016年度起在国科大网络空间安全学院开设信息检索导论课程,讲课很受学生欢迎,亲自指导自己的研究生。他的学生出路也都不错,他培养出来的学生都活跃于“BAT”等国内外互联网企业(还有很多毕业生之后跳槽到了Google、Facebook等互联网公司)和创业市场,还会帮助学生推荐工作,并且为申请出国的学生推荐导师。王老师不要求学生必须发表顶会文章,但要求所做的科研工作一定要有价值,在这种情况下,团队也已经在信息检索领域最顶级会议SIGIR以及其他顶级会议(包括CIKM、IJCAI、ACL、EMNLP等)上发表了多篇长文。他更看重学生的综合素质和人品,希望学生性格开朗易沟通,对计算机有浓厚的兴趣,并且具有很强的计算机算法基础、动手能力以及中英文文字表达能力。信息检索研究组下设三个课题组: 社会计算课题组:由沙灜副研究员(http://nelist.iie.cas.cn/yjdw/fgry/201405/t20140513_232647.html)和李锐博士负责,主要研究社交网络的获取及人物、社区和事件的建模;Web挖掘课题组:由李鹏博士负责,主要研究Web挖掘和搜索中的表示、匹配和性能优化等问题;知识挖掘课题组:由王泉副研究员(http://nelist.iie.cas.cn/yjdw/fgry/201606/t20160621_339338.html)负责,研究知识的自动获取、表示和推理等关键技术及其在文本处理领域中的应用。 研究组还包括毛震东、齐保元、邱泳钦、周美林、梁棋、余姚霖、郝炜等工作人员,整个研究组气氛很和谐,师生互相尊重理解,教学相长,很多人毕业多年后还会想起在组里既开心和谐又共同奋斗的生活。王斌老师爱好广泛,尤其喜欢体育,曾经获得全科学院京区乒乓球男单第五名。胡玥老师负责整个第二研究室的学生工作以及前瞻研究组的管理工作,非常和蔼,对学生很好。前瞻研究组包括:戴琼、谢洪涛、周晓飞(http://nelist.iie.cas.cn/yjdw/fgry/201405/t20140513_232673.html)、周川(http://nelist.iie.cas.cn/yjspy/sssds/201607/t20160705_341585.html)、张闯等老师的小团队,各团队之间都是完全独立的。戴琼老师的团队是前瞻组中最大的团队,成员还包括谢洪涛。韩毅老师是科技处副处长,学生在周川老师组里培养,研究方向是社交网络分析。熊刚老师(http://nelist.iie.cas.cn/yjdw/zgry/201507/t20150709_299374.html)是信息对抗组(网络信息对抗课题组)组长,第三工程部副主任,研究方向是网络测量和行为分析、信息对抗、网络取证、海量数据分析等,包括隐蔽式网络攻击检测、网络痕迹留存和取证,具体实践内容例如SQL注入如何在网络层面检测出来等。团队工程实力很强,与国家多个部门及国家电网有合作,同时也在不断加强科研方面,建立更多定期学术交流渠道,论文在质量和数量上更佳。组内学生参加竞赛和培训的机会较多。组内还有李真真、苟高鹏、徐菲、曹自刚、康翠翠等老师,徐菲是数字取证领域专家,跨信息安全和法律两界,承担了360公司的流量异常检测的课题,与国内外此领域的强校也有合作。团队周末一般不加班,每周按工作日工作,只有每周一晚上的讨论班学生一定要参加。熊刚老师对团队有绝对的控制力。牛温佳老师的学生在信息对抗组培养。陈小军老师是保密防护组组长,研究方向是数据隐私保护、网络空间安全。时金桥老师是第一工程部副主任,研究团队挂靠在保密防护组,研究方向是数据泄露检测防护与隐私保护领域的工程研究,他的思维能力和写作能力都很强,团队的工程实力很强,导师还包括柳厅文。郝志宇老师是网络安全组组长,研究方向是网络虚拟化技术。王树鹏老师团队的研究方向是大数据管理与处理,导师还包括吴广君、张晓宇等。李波老师是数据管理组负责人,研究方向是大数据存储和管理、数据库检索。数据管理组主要位于益园园区。刘庆云老师是处理架构组(http://www.mesalab.cn)组长,研究方向是网络内容分析与检测、高性能处理架构,导师还包括孙永、杨嵘、周舟、张鹏,工程实力很强。团队位于华严北里。张永铮老师是第三工程部主任,方向是网络安全态势感知,导师还包括肖军、臧天宁、李书豪等,团队位于CNCERT/CC。张永铮老师的研究团队挂靠在网络安全组。韩冀中老师是第五工程部(网络空间技术实验室)负责人,主要做的是分布式计算与系统,工程实力很强,压力比较适中,老师也很好,在信工所的多个园区都有工位,大部分位于香山园区。导师还包括周宇、刘万涛。韩冀中老师的研究团队挂靠在数据管理组。岳银亮老师是二部成员,负责科技处王伟平处长的团队,研究方向是大数据存储和管理、数据库检索,团队位于益园园区。导师还包括马灿。团队工程任务量很大,项目开发中采用的技术也是非常新颖的,而且对学生编程开发的效率和速度要求都很高,开组会的频率也很高。岳银亮老师的研究团队挂靠在数据管理组。 研究方向 信息内容识别理解,数据挖掘深度学习,信息检索舆情计算,网络安全信息对抗,融合安全检测防护,网络安全态势感知,数据存储管理,信息处理架构。 第三研究室: 第三研究室科研队伍主要来自于中国科学院数据与通信保护研究教育中心(以下简称DCS中心,http://dacas.iie.cas.cn、http://dacas.cn),强项是密码与安全协议、电子认证技术、信息对抗(密码分析、密码工程学)、安卓安全、可穿戴设备安全,项目主要是手机加密、FPGA、GPU开发、智能家居、虚拟桌面等方面的内容,位于香山园区,地址是北京市海淀区闵庄路丙87号信工所4号楼。DCS中心是信息安全国家重点实验室的创建者和重要组成部分,前身是1980年以曾肯成教授为学术带头人的电子密钥研制小组(EKOS)。1985年,中国科学技术大学正式批准成立数据与通信保护研究教育中心,2012年起依托单位更改为中国科学院信息工程研究所。第四工程部的工作由三室负责。DCS中心已经主导或参与研发了包括ZUC(祖冲之算法集)、SM2、SM3、SM4、SM9在内的多种国家商用密码算法。荆继武老师是DCS中心主任,同时也是信工所副所长、工程组总负责人。 这个实验室的工程组的工程研发能力在信工所内仅次于第二研究室,而理论组做的理论都很高深,无论是工程组还是理论组,科研实力都很强。三室理论组在密码学领域的顶级期刊和会议上多年来都可以不断发表论文,而工程组厚积薄发,也持续不断发表顶级论文。三室工程组的老师们在各自的领域都造诣很深,实力也都非常强劲,各个团队的学术水平也在不断提高。表面上看理论组的老师比工程组多,但实际上工程组的规模远远大于理论组。 三室不需要考勤打卡,但即使这样,学风也很好,另外研一学生不需要回所,而是可以通过远程会议参加组会。三室待遇很好,能让学生安心全力投入科研而全无经济压力,而且学生也能参与中心的项目利润分红,待遇在所内排在前列,另外出国访问交流机会也非常多。工程组博士生博一开始的待遇至少有3500,硕士生研二起待遇跟二室差不多,博士生待遇比硕士生更高些,理论组会根据不同组而不同,大部分组比工程组低。 三室工程组所有学生基本可以说是不分导师,因为大家都在一起干活,相当于是有一个领导层。三室博士生比例较高,大部分人都会读博,如果不读博,一般只能拿到专硕名额,而且这个事情要事先与老师谈好,否则硕士会读四年才能毕业。三室的研究方向比较高深,只读硕士很难做出好的成果,需要读博才能做出比较好的成果。工程组博导除了荆继武老师,还包括朱文涛、高能、向继、林璟锵。叶顶锋老师的学生可能分配到理论组或工程组。三室的微信公众号是DACAS_Camp。 三室工程组包含: 安全测评研究部:研究方向是网络协议与密码应用系统安全、移动终端应用运行监测与保护。高能老师的研究方向是网络安全、密码工程、云计算安全、身份认证授权技术、社交网络分析等,工程能力很强;王跃武老师的研究方向是安卓安全,团队发表过ACM CCS顶会文章;刘丽敏、雷灵光等老师在这一团队中。安全芯片研究部:研究方向是嵌入式硬件系统安全、硬件高速加解密系统、可穿戴智能设备安全。刘宗斌老师的研究方向是安全密码运算芯片、硬件密钥保护技术、不可克隆函数技术,工程能力很强;马存庆等老师在这一团队中。服务安全研究部:研究方向是高速签名验签、跨多公共云的安全分布存储、非受控环境移动终端保护、支付安全、Web安全。朱文涛老师(http://if.ustc.edu.cn/~wtzhu/)的研究方向是物联网安全,学术水平很高;王平建老师是全栈工程师,工程能力很强;潘无穷老师主要做密码机,水平很高;王琼霄等老师在这一团队中。服务安全部与终端安全部在研究方向和业务上有很多交叉,合作很密切。终端安全研究部:研究方向是云计算、云存储、系统安全、随机数、嵌入式(IC卡)、恶意代码防护、安全隔离。林璟锵老师(http://www.escience.cn/people/linjingqiang/index.html)的研究方向是网络安全、密码工程、容错技术、分布式系统安全,2015年团队在IEEE Symposium on Security and Privacy(简称S&P或Oakland)上发表了一篇正式论文,是中国大陆第5篇IEEE S&P,主要介绍了一种基于cache的密钥保护技术,团队还在信息安全领域的其他顶级期刊和会议中发表了很多论文。团队中还有夏鲁宁、马原等老师。马原老师在随机数研究领域很有造诣,发表过很多论文。 三室理论组包含: 安全协议研究部:李红达、杨理、姚刚、姬东耀、徐海霞、周展飞、黄桂芳、顾小卓。研究方向是零知识证明协议、外包计算(云计算)、格上的复杂性、SSL协议的安全性分析、理性秘密分享、量子密码和量子计算。理论密码学研究部:李宝、王鲲鹏、王丽萍、吕克伟、路献辉。研究方向包括可证明安全公钥密码学、椭圆曲线密码学、格密码。其他老师还包括刘亚敏、景文盼、贾仃仃等。密码算法研究部:胡磊、王鹏、孙思维。研究方向是密码算法设计与分析、密码攻防技术。胡磊老师每年都不断产出顶级论文,组内学生待遇与工程组差不多,是学生在信工所做理论研究的首选之一。 第四工程部:向继老师是第四工程部主任,工程技术能力非常强,是全栈工程师,四部导师还包括查达仁、王雷老师。 研究方向 网络与系统安全、数据安全与密码工程、密码学、安全协议等。 第四研究室: 第四研究室科研队伍主要来自中共中央办公厅国家保密技术研究所保密技术攻防重点实验室,位于益园园区,地址是北京市海淀区四季青桥西杏石口路益园文创基地C1栋中段。保密技术攻防重点实验室是一个专门为中央保密工作提供技术支持的机构,与国家保密局、国家保密技术测评中心等机构保持持续稳定业务合作关系。四室也是物联网信息安全技术北京市重点实验室的依托部门。 这个实验室的实力也就不再过多介绍。现在四室的工作压力已经超越二室了,整个研究室的工作时间基本上都是996(朝九晚九,一周六天),压力较大,而且对考勤管理很严格,不过研一学生不需要每周回所。 研究室共分五个组: 电磁安全组,学科带头人是黄伟庆老师,是四室第一大组,研究方向是声光泄漏、电磁泄漏、涉密物品管控、嵌入式设备、云计算安全、虚拟机逃逸等来自863、核高基、保密局等方面的国家级项目。无线攻防组,学科带头人是朱大立老师,研究组主要承担国家先导项目、安卓安全等项目,具体项目是海云手机、海云平板电脑等。朱大立老师的学生完全由自己负责,对学生也不错。网络攻防组,学科带头人是黄伟庆老师,主要承担网络工程相关项目,比如涉密网建设、木马检测、电子取证等。王竹老师团队挂靠在此组,王竹老师对学生很负责,团队的科研能力也较强。专用通信技术组,学科带头人是汪永明老师,汪永明老师是百人计划研究员,曾为西门子公司副总裁,主要做4G信号干扰器、运动感知等项目。汪老师偏好努力的学生,对学生也很认真负责,会为学生实现理想提供实质性的全面帮助而不顾自己的难处。物联网组,学科带头人是孙利民老师,研究方向是物联网安全、图像与视频理解、车联网,博导包括孙利民、石志强两位老师,硕导包括葛仕明、朱红松、芦翔,正在争取成为独立的研究室,实力很强,物联网这个研究方向本身难度也很大。孙老师拉到什么项目,团队就做什么项目,做的工程项目很杂,不局限于物联网相关的项目。葛仕明老师组比较独立。 研究方向 网络安全保密防护技术、移动通信无线网络安全保密技术、TEMPEST电磁安全保密技术、安全保密风险评估与测试技术专网通信安全技术、场所声光信息泄漏检测评估与电磁综合防护技术、网络渗透测试与检查取证技术等。 第五研究室: 第五研究室成立于2013年,是信息安全国家重点实验室的重要组成部分,是互联网智能设备安全北京市工程实验室的依托部门。在2014年10月进行了重组(现与第一研究室、第三研究室共同组成信息安全国家重点实验室),重组后的队伍主要来自信息安全国家重点实验室(网络与系统安全大组、中国科技网研发一部、声学所高性能网络实验室等)和计算所相关团队。五室主要研究方向是网络与系统安全(计算机体系结构安全、可信计算、工业控制安全、认证授权、智能信息设备安全、移动互联网安全、隐私保护等)、互联网架构与应用、网络数据与云计算等,位于益园园区和香山园区,益园园区的地址是北京市海淀区四季青桥西杏石口路益园文创基地C1栋东段,香山园区的地址是北京市海淀区闵庄路91号A3楼。五室整体的工程压力都普遍较大,部分组的工程压力可以比肩二室,不过也要具体问题具体分析,因为五室有信工所压力最大的组,也有全所最轻松的组之一。 五室包含如下团队: 徐震老师负责的网络与系统安全大组的项目非常多,主要是智能电视、智能电网、智能手机等方面的项目,老师也都很不错。王雅哲老师主要研究移动互联网安全、智能设备安全、身份认证授权技术,王利明老师主要研究可信网络、云计算安全、下一代互联网、入侵检测,于爱民老师主要研究可信计算、安卓安全、智能电网终端安全,张妍老师主要研究安卓安全、访问控制,马多贺老师主要研究Web应用安全。葛敬国老师负责的中国科技网网络中心研发一部来自中科院计算机网络信息中心,研究内容是计算机网络体系结构与安全防护、网络测量与行为分析,承接华为公司的项目,项目和经费都非常充足。导师还包括韩春静、鄂跃鹏、李佟、吕红蕾、弭伟、游军玲、张潇丹等。团队与虎嵩林老师团队有密切合作,经常参与到第五工程部的项目中。高性能网络实验室来自声学所,原由慈松老师领导,研究方向是移动网络体系结构与安全防护,适合通信专业学生,导师包括谭红艳、唐鼎、林涛、刘延伟、张棪、张宇、胡亚辉、李宏佳、李杨等。团队的研究方向包含移动内容分发网络、移动互联网、无线宽带移动通信、传感网与物联网、多媒体传输与编解码技术、分布式与P2P网络技术等。虎嵩林老师(网络数据科学组)的研究方向是分布式系统、数据库、中间件与服务计算、智能电网大数据处理,是第五工程部(网络空间技术实验室)的主要科研人员,亲自带学生,他是一个很有学术追求的人,可以说是厚积薄发,团队从2014年开始不断产出顶级会议和期刊论文,而且研究方向适合就业,学生就业都很不错,因为团队以工程为主,工程能力很强。组内导师还包括刘万涛老师(二室)。团队位于香山园区。李凤华老师是可信计算与系统安全方面的大牛,信工所副总工、中国科学院特聘研究员、百人计划终期考核优秀、国务院学位委员会网络空间安全学科评议组成员。研究方向主要是网络与信息安全、访问控制、信息保护、密码学等,项目主要是国家重点研发计划、国家重大专项、863计划主题项目、核高基等,是多项国家重要项目的负责人或首席专家。同时注重科研与理论基础。组里实行超996工作制,工程任务量大,工作强度高,需要学生有较强的实力和抗压能力。殷丽华老师团队于2016年从二室转入李凤华老师团队,研究方向是访问控制、网络安全态势感知、可信计算,导师还包括郭云川,从2014年开始产出多篇CCF-A、B类论文。组内的学生主要由殷丽华老师等成员进行实际指导,所以相比团队初期,师生沟通会更有效。安全计算机体系结构方面的研究团队主要来自计算所,涂碧波老师的研究方向是硬件协助下的操作系统安全,导师还包括文雨;史岗老师的研究方向是嵌入式系统、处理器安全,导师还包括朱子元。史岗老师的学生经常需要去计算所无线通信技术研究中心帮忙。信工所所长孟丹老师也是五室的博导,他的部分学生分配到安全计算机体系结构相关团队中,是团队的总负责人。 研究方向 计算机系统与安全(安全计算机体系结构、系统芯片SOC与嵌入式系统、操作系统安全、可信计算等)、云计算与网络安全、智能设备与移动互联网安全、网络安全防护与管控、网络体系结构、互联网架构与应用、网络空间数据科学等。 第六研究室: 第六研究室成立于2014年,是中国科学院网络测评技术重点实验室的依托部门,重点围绕网络空间安全评测(Cyberspace Risk Assessment)领域开展工作,位于益园园区,具体地址是北京市海淀区四季青桥西杏石口路益园文创基地C1栋中段。六室重点研究方向是漏洞挖掘、逆向工程、Web安全、恶意代码分析、虚拟机安全、高级威胁检测、溯源取证、态势感知等网络安全技术,实力不错,要求较高。六室在考研复试中有机试和笔试。六室需要考勤打卡,另外部分组研一学生需要每周从怀柔雁栖湖校区回到信工所参加组会。 邹维研究员主要研究网络与软件安全、攻防对抗理论与技术(包括整数溢出漏洞挖掘、模糊测试中穿透校验和检查、后门消减等),重点研究基于云计算、大数据技术的安全脆弱性分析与检测、Web与移动互联网、嵌入式软件的安全评估技术等,原北京大学计算机科学技术研究所副所长,现任信工所副所长,负责实验室的整体发展规划,具体工作由实验室成员共同完成。他团队中的学生在IEEE Symposium on Security and Privacy(简称S&P或Oakland)上发表了多篇论文,这个会议是计算机安全领域顶会中最好之一,另外他的团队曾经成功发现10多个零日漏洞。他的学生在学术界和工业界认可度都不低。 刘宝旭研究员是六室主任、网络安全防护技术北京市重点实验室主任。研究方向是网络攻防技术、网络安全评测技术、软件与系统安全、安全态势感知等,来自高能所计算中心。作为课题负责人承担并完成国家科技支撑计划、863、国家信息安全专项、部委重点专项等四十多个网络安全课题项目的研究,获省部级科技进步一等奖、二等奖各两项。已培养硕士/博士研究生30余人,大都在从事网络安全相关工作并成为技术骨干。 六室包含如下团队: 霍玮副研究员的研究方向是软件安全分析及支撑系统,主要关注软件漏洞挖掘、基于大数据的软件安全分析、智能终端系统及应用安全分析等,来自计算所计算机体系结构国家重点实验室。团队包含4个小组,工程与科研有比较好的结合。组里的刘剑副研究员的研究方向是程序分析与验证,来自中科院软件所。团队与计算所武成岗老师组有合作。龚晓锐高级工程师的研究方向是网络安全对抗、逆向工程、样本分析等,来自北大。他带领的NeSE(Never Stop Exploiting)积极参加XCTF联赛和各类国际CTF比赛,是一支国内一流的CTF战队,2016年队员获信息安全与对抗技术竞赛个人挑战赛全国赛区冠军。杨泽明副研究员的研究方向是是高级威胁检测与溯源,承担中科院先导、国家863计划、部委重点项目的研究开发与实施,研究组开发建设了恶意代码自动化分析技术研究实验平台,并基于该平台从事高级威胁检测发现、攻击追踪溯源、威胁情报共享利用等方面的技术研究。卢志刚高级工程师的研究方向是态势感知,包括安全数据融合挖掘、可视化分析、数据统一存储、威胁情报等关键技术,负责建设威胁情报库,为安全事件的挖掘、追踪溯源和主动防御等工作提供情报支援,成果已在多个国家部委的重大工程/项目中有落地应用。崔翔研究员是六室副主任,研究方向是Web安全、网络攻防与漏洞挖掘、僵尸网络、蜜罐技术等,侧重Web主机和应用,对软件或恶意应用的行为进行分析,来自中科院计算所,团队中还有刘奇旭副研究员,研究方向是Web安全、网络空间安全评测,来自国科大计算机与控制学院,团队实力很强劲,组内老师均在ACM CCS上发表了多篇poster。团队还研究渗透测试技术、APT。另外,组内的氛围好,大家也都很努力,培养出来的学生也都实力很强,这些学生不是只会纸上谈兵的信息技术从业者,并且能够获得一些较难获得的奖项。中国科学院大学网络空间安全学院主办的全国高校网安联赛(http://xnuca.erangelab.com)由此团队负责,有利于提高学生的网络空间安全技术水平。贾晓启研究员的主要研究方向是虚拟化安全、云计算安全、操作系统安全、攻防技术,来自于信息安全国家重点实验室。他是80后研究员,科研组非常年轻有活力,科研氛围浓厚,工程实力强,承担了多项国家重点部门的工程项目,在这个组里不仅能学到前沿知识,而且有充足的动手实践机会。组里毕业生就业情况普遍不错,今年的两个毕业生分别去了阿里和因特尔。贾晓启老师还是中央国家机关青联委员,中国科学院青联委员。 研究方向 软件脆弱性分析、移动及Web安全检测、pentest(渗透测试)技术。 第一工程部 第二工程部 第三工程部 第四工程部 第五工程部(网络空间技术实验室) 各个工程部中的导师均在各自所属的研究室中招生。工程一、四、五部位于香山园区,二部位于益园园区,三部位于华严北里,在CNCERT也有部分办公点。一部对口国家保密局,二部对口公安部,三部对口工信部,四部对口国家安全部,五部对口中共中央网络安全和信息化领导小组办公室(中央网信办,国家互联网信息办公室)。 信息安全共性技术国家工程研究中心: 中科信息安全共性技术国家工程研究中心有限公司位于益园园区,是信息工程研究所的系统集成部门,对口重点行业部门,面向国家重大科技需求和重点任务开展工作,代表研究所承担和配合重点行业部门的工作和任务,根据所内各个研究室的研究方向和特点,进行任务分解和分派,参与和督促相关科研工作,负责整体任务的集成和交付,并根据所内研究室的研发成果与应用功能特点,进行集成或包装,形成适合行业应用的产品、工具、系统和平台,指导和参与企业的推广应用工作。中心主要由四室负责。益园园区也是公安部中国科学院网络空间安全应用研究中心的依托基地。
第一种是long running cluster形式,比如Yahoo,不要小看这个好像已经没什么存在感的公司,Yahoo可是Hadoop的元老之一。这种就是建立一个Data Center,然后有几个上千Node的Hadoop Cluster一直在运行。比较早期进入Big Data领域的公司一般都在使用或者使用过这种方式。 另一种是只使用MapReduce类型。毕竟现在是Cloud时代,比如AWS的Elastic MapReduce。这种是把数据存在别的更便宜的地方,比如s3,自己的data center, sql database等等,需要分析数据的时候开启一个Hadoop Cluster,Hive/Pig/Spark/Presto/Java分析完了就关掉。不用自己做Admin的工作,方便简洁。
使用hadoop的两种方式
( KEYS | VALUES | ENTRIES | FULL )
create index on maps
AND country = 'FR' ALLOW FILTERING;
Cassandra的principle在于要保障predictable performance,如果filtering未建立index的columns上,DB可能需要扫描全表,这样performance无法保障,在不加ALLOW FILTERING的情况下, query will be rejected.
posted_at >= '2012-01-01' AND posted_at < '2012-01-31'
由于此处的relation定义的是非连续的rows,所以不被允许。
It is composed of relations on the columns that are part of the PRIMARY KEY and/or have a secondary index defined on them.
WHERE 所允许的关系只能是定义在PRIMARY KEY 或者 建立了secondary index的columns上。这或许是出于对query效率的考虑,和SQL存在本质的差异。
Note that a table always has a partition key, and that if the table has no clustering columns, then every partition of that table is only comprised of a single row (since the primary key uniquely identifies rows and the primary key is equal to the partition key if there is no clustering columns).
如果没有定义clustering columns, 那么partition key = primary key. 每一行即是一个partition。如果定义了的话,一个partition (primary key)可以包含多个rows,这些rows按照clustering columns来进行排列。
Bloom Filter
Recall always 100%, means if a query is negative (not in set), then it is definitely negative. Vice not versa.
Other words, false positive exists, false negative not exists.
The underlying infratructure is composed of large number (hundreds or thousands) of cheap, commoditized, unreliable machines connected through a network.
多+cheap+unreliable
Key value store Run on large number of commodity machines Data are partitioned and replicated among these machines Relax the data consistency requirement. (because the CAP theorem proves that you cannot get Consistency, Availability and Partitioning at the the same time)
NOSQL的一些共通特点
Platform Layer
Not quite clear to me what this layer is?
I've found that many heavily optimized Cassandra applications are a challenge to cleanly add caching to if/when the database's caching strategy can't be applied to your access patterns, as the datamodel is generally inconsistent between the Cassandra and your cache
something to pay attention if using cassandra
This pattern is used in Search engines like Yahoo, Google to handle user's keyword search request
kinda of similar as a proxy, aggregating responses and dispatch'em.
There are quite a few open source queues like RabbitMQ, ActiveMQ, BeanstalkD, but some also use services like Zookeeper, or even data stores like Redis.
Choice of Message queue to implement asnychronisation
HAProxy
load balancer choice, but only for HTTP/TCP
Squid and Varnish
Choices for proxy
collapsed forwarding.
this is helpful, but how to determine when to collapse? this may introduce latency if some request needs to wait for other requests for collapse?
caches, proxies, indexes and load balancers.
generally how you can scale your data access
shards
horizontal partitions of databases, instead of by columns (vertical partition)
database writes will almost always be slower than reads. (Pole Position, an open source tool for DB benchmarking, http://polepos.org/ and results http://polepos.sourceforge.net/results/PolePositionClientServer.pdf.).
interesting to read on.
Service-Oriented Architecture
maybe worth a read?
RabbitMQ is one of many systems which help to implement async processing.
pretty good choice for this messaging system.
#2 - Cached Objects
基本上来讲,cache objects要比cache一组数据来的更logical和容易维护,同时支持异步assemble?
With Redis and a clever key’ing there may be a chance that you even can get completly rid of a database. But if you just need to cache, take Memcached, because it scales like a charm.
一点cache的建议
With “cache” I always mean in-memory caches like Memcached or Redis. Please never do file-based caching, it makes cloning and auto-scaling of your servers just a pain.
一些可以借鉴的cache方法