中国数据中心公司排名10强,上海财经大学中央财经大学对外经贸大学西南财经大学和中南财经政法大学间的优劣是什么?
财经类高校一直是高考的热门,选择录取分数线也是居高不下,放眼全国的高等院校中,一直都有”两财一贸“的说法,指的就是中央财经大学、上海财经大学和对外经济贸易大学。当然回到全国财经类的高校中,又有一种叫法是“四财一贸”,指的就是在“两财一贸”的基础上分别要加上中南财经政法大学和西南财经大学。
可以说这五所财经类的高校,在中国的财经行业之内是处于领头羊地位,而且这几所高校都是211工程的院校,由于金融学科方面的强大实力,导致他们的录取分数会超过部分985高校,尤其是它的特色和优势专业。
中央财经大学:被誉为中国财经管理专家的摇篮,是教育部直属教育部财政部,北京市共建的国家双一流、211工程大学。拥有应用经济学和会计学两项国家重点学科。
上海财经大学:教育部直属,由教育部,财政部和上海市人民政府共建的211工程重点高校,学校的会计学财政学经济思想史,3个国家级的重点学科。
对外经济贸易大学:教育部直属的全国重点211工程大学,正如学校的名字这是一所国际经济与贸易,国际经济法,商务外语等为优势专业学科的特色性财经外语类大学,国际化就是这所大学的标签。
西南财经大学:坐落于天府之国的学校,号称中国金融人才库,虽然名头没有两财一贸的响亮,但是也是一所以经济学和管理学为主体,在西南地区首屈一指的财经大学。
中南财经大学:学校坐落于武汉,也是教育部直属的211高校,学校历史底蕴深厚,是一所以经济学,法学,管理学为主干的高等院校。
五所财经类大学的区别这几所大学作为国内最为优秀的财经类高校,虽然在专业特色上各有特点,但是基本上专业上的实力其实也是不相伯仲的,非要说举一所高校中孰优孰劣,确实还不好比较,但是我们换一个从这几所财经类院校的毕业生的去向的角度,也可以看得出各所学校的区别,或者说在哪一个方面更加有优势。
中央财经大学:学校的毕业生基本上都去了国内的各大银行,建行、工行、中行、人行等等,有一种戏称叫做世界500强银行的专属人才培养基地。
上海财经大学:这所坐落于“魔都”上海的高校,得天独厚的金融中心的区位优势,让学校的毕业生在就业方面实力相当抢眼,大部分都去了金融、会计事务所等高新行业。
对外经济贸易大学:笑如其名,在对外经济贸易领域一枝独秀,毕业生遍布全国各地的外贸、金融、会计以及中国驻外商务机构,还有不少学生进入了外交部与商务部,可以说在外贸领域及外贸外语方面,学校有着得天独厚的优势。
西南财经大学:有人说学校是中国金融人才库,西财的学子也算是签约500强的专业户,学生毕业之后绝大部分融入了金融业,当然在互联网行业和信息传输业方面也有相当不错的就业率,在签约500强企业中的比例,本科生更是高达百分之四十几,硕士生更是达到了55%以上。
中南财经大学:学校的毕业生主要就业的方向是华为,中行,建行,招行以及普华永道等知名的企业。中南以及华东地区是毕业生主要的就业区域,行业集中在金融业、It业、租赁和商务服务业。
五所高校的王牌专业通过以上毕业生的去向,我们基本上也能了解这几类财经高校的特色,或者是从某一方面反映出其优劣,但是不管怎么说,作为财经类第一梯队的这几所大学,都是非常有特色的和自身的王牌专业。
中央财经大学:最好的专业莫过于金融学院的金融,金融工程,国际金融。
上海财经大学:最好的就是会计学院,金融学院,商学院,经济学院,国际工商管理学院。其中会计学院是第一大王牌学院。
对外经济贸易大学:国际贸易专业全国第一,其他的国际法学,金融也是其王牌专业。
西南财经大学:口碑和实力和他几所高校还有一定的差距,但是其统计学和会计学也是非常不错的。
中南财经大学:会计和金融是这所学校的特色。国内很多知名的证券公司基本上中南财大的毕业生很多。
你所知道的最牛逼的黑客有多厉害?
我厂内部有一支专注于黑客角色扮演的内部攻击队伍,简称“攻击自己系统的队伍”。(自行联想)
他们的使命是在合规流程下,以黑客视角持续渗透公司资产,协助提升业务系统安全性,完善安全系统能力。
这个故事要从一个叫Lake的男人说起......
某个安静的午后,一个男人在LS(腾讯技术工程事业群总裁)办公室门口徘徊,形迹可疑。
终于,他出手了。
只见他飞快拿出一张卡片,嘀的一声,总裁办公室的门,就……就开了
这个敢破老板办公室门禁的男人,叫Lake。用来破门的工具,是他在一小时前研制出来的。
原来,当天上午LS和Lake打了个赌,看Lake能不能黑掉他的门禁。显然,lake赢了。
“想不到吧,哈哈哈,我复制了你秘书的工卡。”见到LS,Lake笑得很猖狂
“看来,我要在办公室门口加一个摄像头了。”LS故作淡定回答
“赌赢了,我可以提前下班了吧。”说完,Lake帅气地背起书包,关门扬长而去。
当然,Lake发现的门禁易被复制问题马上同步给了公司行政部。很快,公司门禁系统进行了一次升级和修复。
在停车场“练习抬杠”
这个敢对老板痛下狠手的男人,来自腾讯TEG安全平台部,这是一支专注于黑客角色扮演的内部攻击队伍。
他们的使命是在合规流程下,以黑客视角持续渗透公司资产,协助提升业务系统安全性,完善安全系统能力。
在业内,这样自己打自己的人被称为“蓝军”。就像军事演习中的红蓝军对抗,网络安全中,红蓝军对抗则是一方扮演黑客【蓝军】,一方扮演防御者【红军】。
在腾讯内部,类似的“蓝军”团队有不少。大家日常使用的腾讯APP和服务,在内部可能已经被他们善意地“攻破”过n次了。
就连腾讯大厦的停车场他们都未曾放过——让没有登记过的陌生车辆自由进入仅供内部使用的腾大停车场!
(心疼保安哥哥10秒)
这种对自家大楼进行的模拟攻击场景,其实是家常便饭。就像港片里入侵者破解系统,把自己数据加入进去,成为合法进入者一样。
但每一次“入侵”完毕,蓝军们都会将发现的问题提交给负责团队,避免出现同样问题,甚至催生出产品。
比如停车场的漏洞报告,除了推动腾讯大厦设备供应商进行修复,还催生了可以对外输出的智能楼宇/智能设备安全的标准和能力。
活好话少,专注“打自己”
门禁、停车场还是业余活动,他们最常做的还是“进攻”腾讯自家产品和服务,也就是真正的“自己打自己”。
截至目前,腾讯各个蓝军团队已经联动各个产品业务进行过数百场红蓝军对抗演习。
如大家现在天天使用的微信小程序,在正式上线之前就接受过蓝军的多轮模拟攻击检测。
“我们消失了10多天,就是去广州微信团队驻场,搞特训营,吃喝拉撒都在一起,跟着业务红军做对抗测试。”小五回忆当时的场景。
为期10天的持续对抗,最终确保了小程序上线前修复已有的安全漏洞,立了一功。
“一部手机游云南”也进行过红蓝测试,同样是在产品发布前及时发现和解决了安全风险。
还有腾讯云、QQ、微信、微信支付、黄金红包、区块链电子发票等等业务,在上线前也没少被“蓝军”们折腾。
每一个被折腾完的业务都觉得:wow,自己打自己,好爽
这种“自打神功”墙内开花,墙外也香。
2018公安部组织的贵阳大数据及网络安全攻防演练中, 腾讯TEG安全平台部与腾讯云安全、腾讯安全科恩实验室、腾讯企业IT部、数字广东组成的联合安全团队获得技术创新一等奖。
“黑客思维”的年轻人
“防的人要懂得攻。我们会尝试从黑客的角度去思考,他们会从哪里下手。大部分的漏洞都是人导致的,人性就是最大的安全漏洞。”年轻却资深的工程师小五如此说道。
“现实生活,他们活好话少非常低调,虚拟世界里,那叫一个狂野,像不突破不死心的斗士。”经常跟他们打交道的juju调侃道。
这群极客般的工程师对技术攻防乐此不疲,就连团建也不忘敲代码——
读书也要读《反欺骗的艺术》——
谋划作战的时候一定是谋定而后动——
“红蓝较量”无终止
腾讯的业务很多,流量很大,安全挑战也很大,腾讯各蓝军团队担子一点儿也不轻。
不过,“和业务团队、安全红军一起守护这么大体量的用户安全,是很有使命感和自豪感的”。小五说起这个美滋滋的。
毕竟,他们一方面可以通过合规授权的方式进行攻击演练,很刺激;帮被攻击业务团队发现问题得到感谢,又很满足。
他们就是这样,躲在你常用的腾讯产品背后以攻为守,保护业务也是保护用户的安全。
在腾讯,这种自己打自己的“红蓝较量”不会休止。
来源:腾讯公众号《腾讯有个技术军团,“疯起来”连自己都打》
我国手机芯片最好的是什么公司?
感谢阅读。非常高兴能够回答你提出的这个问题。
最近美国对华为公司等中国实体企业的打压越演欲烈,台积电断供、华为芯片库存不足持续引发热议,手机芯片再一次走近普通老百姓的视野。今天借着题主的问题我们来聊一聊我国手机芯片的那些事。
手机芯片是什么?首先科普一下,手机芯片又叫Soc芯片,是由一个一个晶体管组成的。从制造上来看,制程越小,代表芯片制造工艺越先进。同样面积的芯片内,晶体管数量越多,性能就越强。像大家熟知的14nm、7nm、5nm代表的就是芯片制程工艺,越小代表单位面积内晶体管越多,性能也就越强。从设计上来看,主要包含应用处理器AP和基带芯片BP两部分,应用处理器主要用来处理手机操作系统、用户界面、应用程序,BP主要用来负责和周围的基站进行通信联系。手机芯片是一个高精尖的产品,更新换代速度很快,就全球范围来看目前能够设计制造出一流的手机芯片厂商并不多。为什么?因为太难了,制造芯片的关键技术掌握在极少数公司手中。
具体到手机芯片领域的厂商,分为设计和制造两大类。设计研发相对容易,能够自主设计研发芯片的公司相对较多。大家熟知的高通骁龙X系列、8系列,苹果A系列,华为麒麟990等等,都是上述公司设计研发出来的。芯片设计中要考虑包括CPU、GPU的布局、规模大小,ISP(图像信号)和DSP(数字信号)的集成研发以及通信基带芯片的适配等问题,其中最难的就是基带芯片,因为涉及到太多的通信领域专利权,只有像深耕通信领域的大公司才有技术储备或者雄厚的资金去投入比如说华为,为什么华为海思半导体能够后来居上,就是因为华为是靠通信起家的,通信专利沉淀量大且有雄厚的资金投入。再回到题主的问答中,目前全球能够自主研发手机芯片的厂商包括高通、苹果、三星、华为、联发科、紫光等等。在芯片设计领域,我国一流的企业包括华为海思半导体、联发科、紫光展锐。芯片设计技术最高的当属华为海思,华为麒麟990的5G芯片甚至已经超越了高通865,在安卓领域无人能及。但是华为的麒麟芯片只供自家高端旗舰机使用,出货量并不算大。我国台湾地区的联发科曾经是全球第二大的芯片制造商,近年来市场份额被海思超越,受制于中低端的品牌地位、缺乏持续创新的工艺以及研发投入不足,联发科的芯片已逐渐沦为山寨机和低端机搭载的“标配”,不过近来在小米、OPPO等公司的支持和配合下,联发科发布了天玑系列芯片,值得期待。
再来看芯片制造也就是代加工的厂商情况。目前全球范围内能代工高端手机芯片的只有台积电、三星、中芯国际等企业,实力最为雄厚的当属台积电。一个代加工厂台积电突然断供为何会左右华为这个巨无霸,原因很简单,核心技术别家没有,只此一家。台积电掌握的芯片制程工艺是全球最先进的,目前已经可以量产5nm的芯片,可见手机芯片的命门并不是设计研发(当然也很重要),但是掌握高端芯片制造技术的企业才是真正的“高手”。中国大陆的企业为何出现不了像台积电这样的代工厂,最主要就是芯片制造最核心的技术光刻机是有荷兰ASML公司垄断的,西方势力出于对大陆的歧视性技术保护政策,不对大陆地区出口这项技术。再回到题主的问答中,中国最好的芯片制造厂商毋庸置疑是台积电,大陆地区最好的是中芯国际,目前可以生产14nm的芯片,离世界一流还有很长的路要走。
不显山不露水的光刻机居然能成为左右华为终端的命门,真的是让我感慨万千。这个时候,作为中国人必须无条件支持华为,美国越是疯狂打击压制,我们越要坚定支持!因为华为不仅仅是一家科技公司,它是中国向高科技领域进军的旗帜,它不能倒!美国现在公布的新冠疫情数据?
关于美国新冠疫情的感染和死亡数据,谁在说谎?
原创 被遗忘的房子 LFVISAS 今天
标签:美国疾控中心 美国新冠疫情 约翰斯霍普金斯大学
被遗忘的房子 移民资讯:
受新冠病毒在美国的疫情影响,2020年3月20日美国移民局做出回应,自2020年3月18日起,美国公民入籍和移民服务局已经暂停了通常的个人服务以延缓新冠疫情的影响,这一情况至少要持续到4月1日。美国移民局的员工工作人员将继续执行职责,不涉及与公众接触。然而,美国入籍与移民服务局将提供有限的情况紧急服务紧急预约请联系与美国入籍与移民服务局联系中心联系。
资深移民行业自媒体人 移民公司创始人 被遗忘的房子 认为:疫情期间移民申请会受到影响,这些影响主要会表现在移民申请处理时间的延。在中国大陆爆发疫情的时候,就有这种迹象,另外美方律师和部分临近移民批准和移民面试的申请人反映出申请进度迟缓的现象。所以出现这种情况也不要着急,保持平和心态,静待疫情状况的好转以及移民局的进一步的公告。
直到2020年5月29日,美国移民局发布信息称:将于2020年6月份开始恢复H-1B签证和适用I-140移民申请表类的移民申请的极速处理服务,或表明移民局正在逐步恢复日常工作。详见博文:【美国移民局】恢复加速处理服务意味着什么?
USCIS Response to the Coronavirus Disease 2019 (COVID-19)ALERT: As of March 18, U.S. Citizenship and Immigration Services has suspended routine in-person services until at least April 1 to help slow the spread of Coronavirus Disease 2019 (COVID-19). USCIS staff will continue to perform duties that do not involve contact with the public. However, USCIS will provide emergency services for limited situations. To schedule an emergency appointment contact the USCIS Contact Center.
Visit CoronaVirus.gov for a complete list of CDC travel health notices.
Learn about the Department of Homeland Security’s response.
美国白宫已发布美国总统特朗普关于新冠病毒的指导公告:
为避免新冠病毒的传播,建议民众居家隔离15天;听从并遵守所在地区的州政府和地区政府的指令;如果感觉自己得病(非感染者),待在家,不要去上班工作,可以联系自己的医疗提供者(家庭医生);如果自己的孩子生病(非感染者),待在家,不要送去上学,可以联系自己的医疗提供者(家庭医生);如果有病毒测试阳性的家庭成员(病毒感染者),保持他们居家隔离。不要去工作或者上学,联系自己的医疗提供者(家庭医生);如果是老年人,居家且远离其他人。如果是一个人伴随有严重的潜在的健康状况,可能将自己置身于增长的风险(例如自身肺功能受损或者心脏功能或者免疫力下降)之中的人,请待在家里远离他人。公告中还号召美国全民为延缓疫情发生履行责任,避免社交群集,避免不必要的履行外出。
关于美国新冠疫情的数据,谁在说谎?
有一点值得大家去注意:美国疾控中心CDC公布的美国国内新冠病毒疫情数据跟国内网络上更新的疫情数据有着巨大的出入。
美国疾控中心2020年6月7日公布的数据来看,美国总计有1,920,904个案例,总死亡人数在109,901人。
详见链接:https://www.cdc.gov/coronavirus/2019-ncov/cases-updates/cases-in-us.html?CDC_AA_refVal=https%3A%2F%2Fwww.cdc.gov%2Fcoronavirus%2F2019-ncov%2Fcases-in-us.html;
而通过腾讯等新闻公布的数据来看,美国的疫情似乎更为严重,目前总计有2,007,449个确认感染者,死亡人数则高达112,469人。
而被遗忘的房子还注意到:即便是央视官方,阿里支付宝上的疫情数据,腾讯的疫情清数据也不尽相同,但值得注意的,国内媒体对于美国疫情的数据的感染数字比美国疾控中心CDC公布的数据要多出8000-10000人左右的感染者。
这里我再公布一个数据来源,即当前大众觉得不见权威的美国约翰斯霍普金斯大学新冠数据全球统计:https://coronavirus.jhu.edu/us-map,
大家思考下这几个问题
中美对于病毒感染确诊的判断依据是否一致?是什么原因造成双方披露数据有这么大的差距?中美双方数据的来源的准确性又从何判断呢?中美关于病毒致死的统计方法有什么样的区别?因此 资深移民行业自媒体人 移民公司创始人 被遗忘的房子 认为:可能不是谁在数据上说谎的问题,而是各方在数据统计上的基础认知和方式方法是不同的导致的数据差异。
大数据主要学习什么内容?
前言
要从事计算机行业的工作,不管是什么工作,开发、测试、还是算法等,都是要有一门自己比较熟练的编程语言,编程语言可以是C语言、Java、C++等,只要是和你后续工作所相关的就可以(后续用到其他语言的话,你有一门语言基础了,学起来就快了)。一般初学者入门语言大多都会选择Java、C语言、C++或者Python,而且现在网上有很多好的视频,可以供初学者学习使用。关于学习视频或者资料的选择,知乎或者百度等都有很多讲解了,也可以跟师兄师姐咨询,这样可以少走很多弯路,当然,有人说,走一些弯路总是有好处的,但是我这里说的弯路不是说不犯错误,不调bug,而是指学习资料以及一些知识点的偏重点,这样可以尽量节约一部分时间,刚开始时,总会有点迷,而且当你真正投入进去学习时,会发现时间总是不够用。
我前面是做的Java后端,后续才转的大数据,所以一些Java开发所需要的东西自己也有学习过,也都是按照正常的路线走的,JavaSE阶段,然后数据库,SSM框架,接着做了一些网上找的项目,之后发现对大数据比较感兴趣,就开始找大数据相关的资料学习,看视频,看博客,敲代码,前期大概花了3-4个月吧(公众号的这些资料就是我当时看过的),也是一步步艰难走过来的,刚刚开始接触大数据相关的东西时,一度怀疑这么多东西自己能否学得完,是不是能用得到,学完又忘了,忘了又回头看,不过还好,坚持过来了,还好没有放弃,工作也还ok,找的大数据开发岗,待遇也还不错吧。
下面就说一下我自己从Java开发到大数据开发的曲折学习之路(狗头保命.jpg)。因为我现在是做大数据相关的工作了,所以Java后端涉及到的一些SSM框架等知识点我就不介绍了,毕竟后续一段时间也没有做了。自己看过的大数据学习相关的视频+资料大概是200G-300G吧,从Linux->Hadoop->。。。->Spark->项目,还有就是一些面试文档,面经等。一些视频看了两遍或者更多,跟着学,跟着敲代码,做项目,准备面试。涉及到需要学习的东西包括:JavaSE,数据结构与算法(计算机行业必备),MySQL,Redis,ES(数据库这些可以看项目,也可以自己熟练一两个),Linux,Shell(这个可以后期补),Hadoop,Zookeeper,Hive,Flume,Kafka,HBase,Scala(Spark是Scala写的,会Scala做相关的项目会更容易入手),Spark,Flink(这个是找工作时有面试官问过几次liao不liao解,所以找完工作才开始接触学习),相关项目。
编程语言阶段学习如果是零基础的话,建议还是从视频开始入门比较好,毕竟一上来就看教材,这样有些代码的来龙去脉可能不是很了解。如果是有一些编程语言基础的话,从视频开始也会更简单,一些for、while循环你都知道了,学起来也会快很多。 JavaSE我是选择的某马刘意的为主,因为刚刚开始学Java看过一本从《Java从入门到精通》,没什么感觉,后续又在看了某课网的Java初级视频,还是没感觉出来啥(当时就有点怀疑自己了。。。),可能有点没进入状态。 还好后续找了某马刘意老师的JavaSE视频(我是看的2015年版本,那时候19版还没出),觉得他讲的真的是很好很详细,每个知识点都会有例子,也都会带你敲代码,做测试,可能前面有C语言基础,然后也看过Java的一些语法,所以学起来还是比较顺利,后面的IO流、多线程等知识点时,也有看书看博客,或者看看其他老师的课程,讲解的可能自己比较容易接受就可以,反正都是多尝试(下面会给出视频链接),尽量懂一些,后续可以回头来复习。JavaSE相关的视频,先看一遍,后续有时间建议再看一遍,而且这些经典的视频,看两遍真的是享受。 如果有一定基础了的,JavaSE前面七八天的视频可以加速看,但是不懂的一定要停下开仔细想想,零基础的还是尽量不要加速吧,慢慢来稳些。后面的视频建议还是跟着视频来,尽量不要加速,代码尽量都敲一敲,第一遍基本上一个月到一个半月可以结束。 JavaSE可以说是很基础也很重要的东西,主要重点包括面向对象、集合(List、Map等),IO流,String/StringBuilder/StringBuffer、反射、多线程,这些最好是都要熟悉一些,面试也是重点。 JavaSE之后,如果你是要走前端或后端开发路线的话,可以跟着一些网上的视频继续学习,这里我就不多做介绍了。
===========分割线,Scala可以后续Spark阶段再接触学习=============
Scala的学习,Scala是一门多范式 (multi-paradigm) 的编程语言,Scala支持面向对象和函数式编程,最主要的是后续Spark的内容需要用到Scala,所以前面学习了JavaSE,到Spark学习之前,再把Scala学习一波,美滋滋,而且Scala可以和Java进行无缝对接,混合使用,更是爽歪歪。后续Spark学习时基本都是用的Scala,也可能是和Java结合使用,所以Spark之前建议还是先学一波Scala,而且Scala用起来真是很舒服(wordcount一行代码搞定),适合迭代式计算,对数据处理有很大帮助,不过Scala看代码很容易看懂,但是学起来还是挺难的,比如样例类(case class)用起来真是nice,但是隐式转换学起来就相对比较难。学习Scala的建议:1. 学习scala 特有的语法,2. 搞清楚scala和java区别,3. 了解如何规范的使用scala。Scala对学习Spark是很重要的(后面Flink也是要用),虽然现在很多公司还是用Java开发比较多,而且Spark是Scala写的,如果要读源码,会Scala还是很重要的(至少要看得懂代码)。 Scala主要重点包括:隐式转换和隐式参数、模式匹配、函数式编程。这里我看的是某硅谷韩老师的Scala视频,韩老师讲的真的很不错,五星推荐,哈哈。 也许有人会觉得Python也是需要的,但是学习阶段,可能用Java还是比较多,面试也基本都是问Java相关的内容,所以Python后续工作会用到的话,再看看Python的内容吧。
大数据框架阶段学习大数据这方面的知识点自己可以说真的是从零开始的,刚刚开始学那会Linux基本都没用过,心里那个虚啊,而且时间也紧迫,想起来都是一把辛酸泪。 刚刚开始学的时候,看了厦门大学林子雨的《 大数据技术原理与应用》课程,可能这个课程是面对上课的,所以看了一些,感觉对自己帮助不是很大(并不是说课程不好,可能不太适合自己,如果是要了解理论知识,很透彻,但是俺时间紧迫啊),所以就继续在网上找视频,然后发现某硅谷的培训视频很多人去参加,而且知识点也很齐全,大数据相关组件都有讲课,还有一些项目比较好,所以就找了它相关的视频,当时看的是2018年的,所以视频不算旧。 来一张推荐系统架构的图,先看看
一般来说,Flume+Kafka对数据进行采集聚合传输,一方面Spark对实时数据进行处理,传输给相应的数据处理模块(比如实时数据处理的算法模块,Spark也有提供常见的机器学习算法的程序库),另一方面采集的数据也可以放入数据库(HBase、MongoDB等)中,后续MapReduce对离线数据进行离线处理,数据处理完毕用于后续的使用,数据采集处理的流程大概就是这样。如果是推荐系统,实时推荐会给用户产生实时的推荐结果,让用户进行查阅选择,比如你在界面浏览了或者看了新的物品,然后刷新下界面,可能给你展示的东西就有一些变成跟你刚刚浏览的相关了。离线推荐的话主要是对离线数据进行处理,为物品或种类做出相似的推荐,如果后续用户搜索相应的物品时,给用户展示相应的产品。
大数据学习路线:Linux -> Hadoop -> Zookeeper -> Hive -> Flume -> Kafka -> HBase -> Scala -> Spark -> 项目 - > Flink( 如果需要学习Storm,在Spark前面学习)
一、Linux(基本操作)一般我们使用的都是虚拟机来进行操作,所以要安装VM( Virtual Machine),我使用的是CentOS,所以VM和CentOS都要跟着安装好,跟着视频操作,一定要动手实践,将一些Linux基本命令熟练掌握,一些VIM编辑器的命令也要会用,做相应的一些配置,使用SecureCRT来做远程登录操作(也可以使用其他的,自己顺手就行)。再强调一遍,基本操作命令尽量熟练一点,如果一下记不住,打印一些常用的,自己看看,多用多实践,慢慢就会用了。还有一些软件包的下载安装卸载等,跟着操作一遍,熟悉下,后续都会使用,Shell编程可以后续补。
二、Hadoop(重点中的重点)Hadoop是一个分布式系统基础框架,用于主要解决海量数据的存储和海量数据的分析计算问题,也可以说Hadoop是后续整个集群环境的基础,很多框架的使用都是会依赖于Hadoop。主要是由HDFS、MapReduce、YARN组成。这个部分安装Hadoop,Hadoop的三个主要组成部分是重点,对他们的概念要理解出来,知道他们是做什么的,搭建集群环境,伪分布式模式和完全分布式模式的搭建,重要的是完全分布式的搭建,这些部分一定要自己动手实践,自己搭建集群,仔细仔细再仔细,Hadoop的NameNode,DataNode,YARN的启动关闭命令一定要知道,以及他们的启动关闭顺序要记住,不要搞混。后续视频会有一些案例操作,跟着写代码,做测试,把基本环境都配置好,后续这个集群(完全分布式需要三台虚拟机)要一直使用。
三、ZookeeperZookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。分布式安装ZK,对ZK有一定的了解就可以了,了解它的应用场景,以及内部原理,跟着做一些操作,基本上有一些了解即可。
四、Hive(重点)Hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive的安装,它的数据类型,以及它的数据定义、数据操作有较好的了解,怎么操作表(创建表、删除表,创建什么类型的表,他们有什么不同),怎么操作数据(加载数据,下载数据,对不同的表进行数据操作),对数据的查询一定要进行实践操作,以及对压缩方式和存储格式要有一些了解,用到时不懂也可以去查,最好是能理解清楚。这部分有什么面试可能会问,所以视频后续的面试讲解可以看看,理解清楚。
五、FlumeFlume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。对于Flume,对它的组成架构,以及对Flume Agent的内部原理要理解清楚,Source、Channel、Sink一定要知道它们的各种类型以及作用,有哪些拓扑结构是常见常用的,例如一对一,单Source、多Channel、多Sink等,它们有什么作用,要理解清楚。还有一个重点,就是对Flume的配置文件一定要了解清楚,不懂的可以上官网查看案例,对于不同的情况,它的配置文件要做相应的修改,才能对数据进行采集处理,视频中的实践案例一定要跟着做。
六、Kafka(重点)Kafka是一个分布式消息队列,用来缓存数据的。比如说实时计算中可以通过Flume+Kafka对数据进行采集处理之后,Spark Streaming再使用Kafka相应的Topic中的数据,用于后续的计算使用。对于Kafka,要理解Kafka的架构,什么是Kafka,为什么需要Kafka,应用场景。基本的命令行操作要掌握,比如怎么创建删除Topic,怎么通过生产者生成数据,消费者怎么消费数据等基本操作,官网也是有一些案例可以查阅的。
七、HBase(重点)HBase是一个分布式的、基于列存储的开源数据库。HBase适合存储PB级别的海量数据,也可以说HBase是很适合大数据的存储的,它是基于列式存储数据的,列族下面可以有非常多的列,列族在创建表的时候就必须指定。所以对HBase的数据结构要有一定的理解,特别是RowKey的设计部分(因为面试被问到过,咳咳,所以点一下),对于它的原理要了解,一些基本操作也要都会,比如创建表,对表的操作,基本的API使用等。
八、Spark(重点中的重点)Spark是快速、易用、通用的大数据分析引擎。一说到Spark,就有一种哪哪都是重点感觉,哈哈。 Spark的组成可以看下图
Spark是基于内存计算的,对于数据的处理速度要比MapReduce快很多很多,而且数据挖掘这些都是要对数据做迭代式计算,MapReduce对数据的处理方式也不适合,而Spark是可以进行迭代式计算,很适合数据挖掘等场景。Spark的Spark SQL能够对结构化数据进行处理,Spark SQL的DataFrame或DataSet可以作为分布式SQL查询引擎的作用,可以直接使用Hive上的表,对数据进行处理。Spark Streaming主要用于对应用场景中的实时流数据进行处理,支持多种数据源,DStream是Spark Streaming的基础抽象,由一系列RDD组成,每个RDD中存放着一定时间段的数据,再对数据进行处理,而且是基于内存计算,速度快,所以很适合实时数据的处理。Spark MLlib提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据 导入等额外的支持功能。对Spark的核心组件、部署模式(主要是Standalone模式和YARN模式)、通讯架构、任务调度要有一定了解(面试问到了可以说一波),Spark Shuffle要好好理解,还有内存管理要知道,对Spark的内核原理一定要好好理解,不仅面试可能要用,以后工作也是有帮助的。
九、Flink(重点中的重点)Flink是一个框架和分布式处理引擎,用于对无界(有开始无结束)和有界(有开始有结束)数据流进行有状态计算。现在主要是阿里系公司使用的比较多,很多公司使用的还是Spark居多,而且Flink基本上都是和Spark很多功能大体上一样的,但是以后Flink和Spark孰强孰弱还有待时间的考验,不过Flink近几年越来越火了这是事实,所以如果有时间有精力的话,可以学一学Flink相关的内容也是很不错的。Spark和Flink主要都是在数据处理方面应用,在数据处理方面的话,离线数据处理:Flink暂时比不上Spark,Spark SQL优点在于可以和Hive进行无缝连接,Spark SQL可以直接使用Hive中的表;Flink暂时做不到这一步,因为官方不支持这一操作,Flink只能将数据读取成自己的表,不能直接使用Hive中的表。对于实时数据的处理:Flink和Spark可以说是平分秋色吧,而且Flink是以事件为驱动对数据进行处理,而Spark是以时间为驱动对数据进行处理,在一些应用场景中,也许Flink的效果比Spark的效果还要好些,因为Flink对数据更加的敏感。比如一秒钟如果触发了成千上万个事件,那么时间驱动型就很难对数据做细致的计算,而事件驱动型可以以事件为单位,一个个事件进行处理,相比而言延迟更低,处理效果更好。现在使用Flink的公司越来越多,有时间学习下,也算是有个准备。
项目阶段其实某硅谷的视频里面有很多大数据相关的项目,而且都是文档配代码的,B站上也有视频,学习期间可以跟着视频做两到三个项目,自己理清思路,把项目理解透彻,还是可以学到很多东西的。 根据自己情况,选择两到三个项目重点跟着做,理解透彻一点
大数据项目实战某硅谷的视频里面有很多大数据相关的项目,而且都是文档配代码的,学习期间可以跟着视频做两到三个项目,自己理清思路,把项目理解透彻,还是可以学到很多东西的。根据自己情况,选择两到三个项目重点跟着做,理解透彻一点。相关项目文档资料我已经放到网盘,GongZhongHao回复相应关键字获取领取方式。 相关项目、涉及技术框架及其B站链接(B站链接主要是为了有些小伙伴网盘速度限制,这样就下载文档资料即可)
书籍书籍部分直接云盘链接保存即可,这里我放两张Java开发和大数据开发我自己的书单(很多,路漫漫,吾将上下而求索~) Java后端书架:
大数据书架:
大概就这些,看完就需要很久了,大部分我也是需要的时候看相应的部分,所以有时间可以好好看下,不然就需要哪一部分看哪一部分,有助于学习即可。
最后大数据开发也是需要编程基础的,并不是学会使用这些框架怎么样就可以了,所以对于编程语言,数据结构与算法,计算机网络这些基础也是要的,这些基础知识也有助于自己以后的发展,如果是应届生校招的话,面试基本上都是JavaSE和数据结构与算法等的知识点,还有大数据组件相关的知识点,以及对项目的理解,这些都是要自己面试前准备好的,多看面经,多找面试题看,面几次,心里有谱了,后续面试就好了。 不管是从事什么样的计算机相关的岗位,编程都是很重要的,数据结构与算法特别重要,还有就是leetcode等编程网站刷题,提升自己的编程思维,后续笔试面试都要要的。 要将一行行代码看做一叠叠rmb,但是一行行代码能不能转换成一叠叠rmb,自己就一定要:坚持,多敲代码;多敲代码,坚持;坚持。