芯原股份芯片专家访谈

admin2023-03-20 03:00:01113

芯片专家访谈XWZ一流镖客

ChatGPT对芯片设计端有什么变化？
ChatGPT对算力要求很大，现在是GPT3.5,训练NLP大模型，训练一次算力3640p,如果用英伟达A100的显卡，需要上万块才能完成。受益最大的是提供算力的AI芯片厂，如英伟达，A100,H100，需求有大规模增长。会促使整个产业链都去做高性能芯片。从设计公司看，谁能抢到这个市场，都是一个机遇。国内做高端芯片的企业不多，寒武纪，昆仑芯。目前看支持ChatGPT训练的肯定要往大算力方向走。从设计端看到两个思路。
一是依靠先进工艺迭代，从16纳米到7纳米，晶体管集成度提高一倍。再从7纳米提高到5纳米，3纳米。英伟达最新的H100已经达到5纳米。这是一个思路，但靠工艺迭代已经有了瓶颈，到2,3纳米以下，以后技术难度要增加很多，而且也接近硅材料的物理极限，再小也做不了。
另外一种思路是先进封装，有比较成熟的解决方案，像2.5D封装，内存上有用3D封装。
目前AI上用的最成熟的是2.5D封装。把高宽带的内存颗粒和芯片封在一个封装上，提高带宽内存访问速度，也提高AI整体性能。算力再强，访问速度慢，计算性能也差。2.5D封装目前就是要解决大算力性能跟宽带的思路。
再以后要提高算力，就走Chiplet路线，把晶粒放一起，通过高速互联接口，把它连起来，算力翻倍。苹果把两个CPU拼在一起，同理也可以通过Chiplet把两个AI处理器拼一起。寒武纪已经实现这种技术。
先进制程和先进封装能延续摩尔定律的思路。现在受限于大算力芯片功率问题，用的2.5D封装，没有直接用3D叠上去做。以后散热问题解决，算力还能提升。
散热有哪家公司在做吗？
整个行业还没有突破这个技术。AI芯片功耗大，尤其大算力芯片，需要散热。做2.5D的还是放在平面，散热好一点。如果叠放，热量出不去。以后可能通过把距离拉宽，或者打孔来实现。目前还没有完全突破。
英特尔在3D封装有积累，台积电，日月光也在布局。如果散热问题解决，芯片集成度还会提升。先进制程解决不了的，通过封装技术来延续。
Chiplet发展到什么阶段？
在这个技术比较早，最开始是AMD在用。但当初封装技术不是特别成熟，也没给AMD带来大的收益。产业链也不是非常认可这个技术。21,22年火了起来。当时中国被限制，所以在积极推动先进封装的技术。
Chiplet概念很简单，叫小芯片，和SOC是对立的概念。原来的手机处理器SOC,叫系统级芯片，把所有东西都装在一个芯片上。CPU,GPU,图形处理器，解码器，都集合在一起。通过台积电的先进工艺一次性做出来。Chiplet是个相反概念。把复杂的SOC分开设计，按不同功能拆解，假设一个手机CPU,把SOC拆成GPU等，在按最适合的生产和工业区生产，每个都按新项目。一片Wafer上有一个CPU,有一个内存，做好之后按不同的工艺做成晶圆。做芯片，把东西全切下来，封在封装里面。零件搭好，切出不同的模块。不用全流程都是5纳米，7纳米，相对便宜些。通过高速互联接口，性能也没差。这就是替代的概念。只用在手机的
只用在手机的SOC芯片吗？
都可以用，在AI芯片里也能做。AI芯片里有AI处理器，内存，CPU,还有高速内存接口。
可以拆解，按不同模块去做，到时候通过芯片封装封在一起。从设计端就要这么建立。有一个优势，有的模块可以采购。比如说，寒武纪把AI处理器模块授权给海思麒麟处理器，相当于把芯片代码给他们，把代码通过SOC集成进去，最后一起流出来。
现在是Chiplet,只做一个模块，直接卖晶圆给海思，直接卖实物。现在的问题是没有统一的标准，各家有自己的接口。去年底成立了UCIE联盟，希望以后按统一的标准来做。
国产的国产的EDA设计软件，有设计软件，有Chiplet设计吗？
原来的EDA软件不用考虑工艺制程。现在Chiplet对设计和验证工具提出了不同的要求。需要堆叠和互联接口，不同的架构不同的接口，原来放在一起做，现在拆开做。前三大EDA厂商，去年年底已经推出第一款，现在正在迭代。
国产的EDA厂商，华大，概伦在模拟芯片这比较成熟。高端制程上还是空白。对于国产厂商来说，EDA是个机遇。开发Chiplet的EDA软件比直接开发SOC的难度要小。以前所有东西都要在一个软件设计，现在可以设计部分的软件。美国的限制也提供了国产软件的机会，需求端爆发，国内有些厂家已经在布局。
寒武纪的AI芯片，和英伟达芯片以及地平线的AI芯片有什么区别？
AI芯片分不同的类别。英伟达出货量最大的是云端产品，应用在数据中心，云服务器这些场景。Chatgpt也是云端产品，属于训练芯片。
下游应用还有边缘端市场，最成熟的是网络摄像头，安防领域，海康，大华。国内有2,30家做边缘端产品。跟云端的差别是算力要求没那么大。10T+就够了。
还有一个应用场景是手机或者智能音箱，算力要求更小。1T可能就够了。
另外一个大的应用是汽车芯片，用在辅助驾驶，比较成熟的是L2辅助驾驶，自动泊车技术等。
地平线就是做汽车用的芯片，以后做算力更大的L4级别芯片。L4要求200t以上的算力。英伟达是云端芯片的巨头，地平线是汽车芯片巨头，边缘芯片是华为海思占比最大。寒武纪是做云端起家，也布局边缘端和汽车芯片。英伟达的Orin是汽车市场最成熟的产品。寒武纪有云端推理和训练的产品。
寒武纪和英伟达的产品区别在哪？
寒武纪的思元290和英伟达A100的上一代V100是同一个级别的训练产品。A100是目前主流的产品，寒武纪的思元590，去年4季度发布的对应A100性能。因为供应问题，还没上市。但已经给客户送样。国内其他家目前还是对应V100的水平。
主要是因为美国制裁导致的没办法大规模出货。
但也要想办法生产，通过其他公司代理去下单生产。
如果之前代码在英伟达生态，现在用寒武纪芯片来训练，代码需改动吗？
代码需要改很多，不同的生态。有一定工作量和移植成本。训练寒武纪的芯片有寒武纪自己的基础软件。
英伟达的云端AI训练生态已经10几年了，客户已经习惯。国内芯片企业去推，遇到的最大瓶颈就是在这。英伟达的生态不支持国内软件，是封闭的生态。寒武纪已经发展5,6年，其他的国产软件在支持上面更是薄弱。这也是英伟达的护城河，软件支持力度很大，占据了90%以上的云端市场。
芯原的IP服务介绍
IP是授权，全球最大的IP授权是ARM.不管苹果还是高通，都用ARM的CPU架构。Arm授权使用CPU,再去开发芯片。芯原也做了很多IP,相当于模块。比如寒武纪做一款GPU,AI处理器是自己设计，高速接口，去找芯原买。CPU找Arm买。IP就是走授权的方式。比如Arm现在最新的CPU发展到A78核，寒武纪就在做SOC集成的时候，
把Arm的代码放进去。合作的模式可谈。有一次性买断。也有分期付，第一批付款，之后提成。
有些小的IP公司，一次性买断可谈。对于设计很重要的概念。IP不需要生产，纯前端服务，Arm就是没有自己的产品。
芯原的核心IP有小算力GPU,也有接口IP.芯原属于寒武纪上游供应商。XWZ一流镖客



其他股票

英伟达力挺！AI应用的“卖铲人”，这家公司MLOps标准助