东莞网站建设求职,郑州企业网站排行,企业 网站建设,深圳建溢公司招聘以下文章来源于“Engineering”#xff0c;仅做学术分享 原文链接#xff1a;https://mp.weixin.qq.com/s/FwVgjBLdJTHoRAG7TGh18w 李静海a,*#xff0c;郭力a,b a中国科学院过程工程研究所#xff0c;介科学与工程全国重点实验室#xff0c;100190#xff0c;北京&…以下文章来源于“Engineering”仅做学术分享原文链接https://mp.weixin.qq.com/s/FwVgjBLdJTHoRAG7TGh18w李静海a,*郭力a,ba中国科学院过程工程研究所介科学与工程全国重点实验室100190北京中国b中国科学院大学化学工程学院101408北京中国本文展望了数据科学的未来发展强调了其对人工智能的重要性。文章首先探讨了数据科学当前所面临的挑战。接着通过阐释与多层次复杂性相关的数据逻辑和原则提出了应对这些挑战的策略。文章最后简要概述了迫切需要采取的行动1. 科学数据系统面临的挑战科学数据系统在科学技术发展中的重要性日益显著受到了学术界和工业界的广泛关注。数据已成为近年人工智能迅猛发展的核心驱动力之一它贯穿于人工智能模型的开发、训练、评估和优化等各个环节数据质量对于构建高效、可靠、适用的人工智能系统至为关键。因此人们愈发期望数据在未来能够充分发挥其基础性作用特别是在能够精准、完整地表达人类对复杂世界的认知方面。事实上由于科学数据主要源自对多层次复杂时空动态过程的长期研究积累而人类对这些复杂时空动态结构本身的认知尚不全面这就导致在数据的积累、建模、应用过程中面临诸多尚未被充分关注的挑战性问题。厘清这些问题对于未来数据科学的健康可持续发展极为关键同时也对所有学科领域的相关科学研究提出了新的要求这亟待我们高度关注并认真对待以目前的图像识别应用为例图像数据本身具有丰富的层次结构自底向上依次是像素、边缘、纹理、部件、整体对象每一层都承载着不同尺度的特征信息这种内在的层次结构为建立图像识别的人工智能模型提供了天然框架。基于卷积神经网络[1]的图像识别正是按照这一顺序从下向上逐层归纳与识别最终得到结果[2]。由此可见科学数据的采集与组织应关注其内在逻辑进一步而言如果科学数据系统的逻辑和架构能够反映研究对象的内在特征、结构、行为和功能关系就有利于构建出具有更高准确性、鲁棒性和可解释性的人工智能模型。反之若用于处理科学数据的模型、软件以及相应硬件资源的逻辑与架构与数据本身不相匹配将不可避免地导致模型预测偏差大、模型泛化能力差、因果关系挖掘困难、建模计算量攀升、训练数据量增多以及模型可解释性减弱等问题。这正是当前人工智能亟待攻克的挑战性难题这一挑战不仅关乎人工智能与数据科学的长远发展也是科学研究中一个易于被忽视的重要方面例如对于同一现象不同研究者所获取的数据经常存在差异,这可能是由于层次划分错误或缺失导致的更为严重的是对于复杂时空结构人们往往倾向于进行平均化处理从而忽视了其中最为关键的实质性的复杂性内涵比如系统、层次、尺度之间的关系是什么数据问题已经成为转变科研范式、应对重大挑战和填补知识体系缺失环节共同面对的实质性难题之一[3]。2. 科学数据收集和处理应遵循的原则近年来我们在复杂性原理的研究上特别是在探索复杂性和多样性中的共性原理方面取得了一些进展提出了介科学的概念和方法[4]并在不同系统中进行了应用。我们认为系统的复杂性通常表现为多层次的复杂结构并且每一层次呈现多尺度单元尺度、介尺度和系统尺度的特征复杂性总是出现在介于单元尺度和系统尺度中间的介尺度的介区域上。复杂系统可能由至少两种控制机制所支配控制机制之间的竞争中的协调CIC是系统复杂性的起源。针对前面提出的数据问题考虑到复杂系统的多层次特征以及每个层次构成了一个既与相邻层次相互作用、又相对独立的多尺度子系统的属性[4]未来的数据收集和系统化处理在满足现有常规数据规范要求的同时还应特别遵循以下原则在收集数据时务必明确其可能具有的多层次特征并精准识别和定义所收集数据的具体层次避免不同层次数据的混淆和错位明确每个层次数据的时空结构特征辨识每一层次内及其与相邻层次间相互作用的关键变量以确保数据的完整性和可靠性对于特定层次考虑到其边界和操作条件的变化包括层次之间的相互作用可能存在着多种操作区域因此需清晰表达这些不同区域之间过渡或突变的临界条件对于那些因当前认知手段限制而暂时无法获取的各层次上的动态结构数据应当加以详细标注预留完善空间并提示用户予以持续关注。上面这些原则只提供了一个大致的框架并非覆盖了数据系统全部内容。另外考虑到不同学科和领域的共性和多样性为实用起见还需要制定一个更为详细的实施指南。在这个框架下人工智能模型的逻辑也应该被重构为多层次结构。以大型语言模型LLM[5,6]为例当前的Transformer架构[7]将文本视为一系列token的时序数据进行处理聚焦于token间的注意力。然而人类可理解的文本数据通常具有自己的内在逻辑和结构以单词作为最基本的单元从下至上构建出句子、段落、章节直至整个文档。文本的结构和叙事逻辑明显呈现出如前所述的多层次特性同一层次的单元之间存在着语义上的时序关系下一层次构成上一层次的单元并且不同层次之间也存在语义的关联。若在构建LLM时集成这些结构和逻辑将能更有效地捕捉更为丰富和深层的语义信息以及文本的内在逻辑这将有助于提升LLM的文本理解、语句生成、逻辑推理等能力。3. 应当充分重视对数据系统逻辑与架构的研究目前的数据收集和处理过程中普遍未将上述因素纳入考量或者考虑不够全面这制约了数据系统乃至人工智能的持续发展。实际上当前人工智能在那些数据架构定义较为清晰的领域取得了相对成功的应用但在层次和结构不够明确的领域尤其在涉及多层次过程的工程领域其成效往往不尽如人意。这从另一个侧面更清晰地突显了数据系统逻辑与架构的重要性。因此对数据系统逻辑与架构的研究应当引起各方面的充分重视未来我们需要在数据系统逻辑与架构方面进行持续的创新和探索待时机成熟时建立一个全球性的分层次结构化的数据标准协议框架并随后发布操作指南以彻底解决这一问题。唯有如此才能对生成和收集数据的科研工作提出明确的要求确保高质量数据生态系统的逐渐形成促进人工智能的健康发展和高效应用。进一步而言将“多层次、多尺度、控制机制之间的竞争中协调导致介尺度复杂性”的原理应用到数据的采集、分析和建模的过程中对数据科学和人工智能的发展均十分必要[8]。综上所述在新范式下的科研活动中对数据的收集、组织和人工智能分析应当特别关注所研究复杂系统的多层次结构严格遵循其行为和功能关系与研究对象使用相同逻辑和架构的原则这对跨学科研究提出了更高的要求。我们不应受限于长期形成的学科分隔的惯性思维而应积极地逐步融入科研范式变革的进程将各学科和领域对数据系统逻辑与架构的共性要求也就是知识体系的逻辑和架构贯穿于整个科研过程和数据产品之中以应对人工智能时代的新挑战。在当代科学中我们不应忽视将不合逻辑的数据错误地纳入科学数据系统的问题这是全球科学共同体应当充分重视并尽快采取行动的方面。参考文献[1] LeCun, Y., Bottou, L., Bengio, Y., Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11): 2278-2324.[2] Zeiler, M.D., Fergus, R. (2014). Visualizing and understanding convolutional networks. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds). Computer Vision – ECCV 2014, Lecture Notes in Computer Science, vol 8689: 818-833. Springer, Cham.[3] Jinghai Li (2016). Exploring the logic and landscape of the knowledge system: multilevel structures, each multiscaled with complexity at the mesoscale. Engineering, 2(3): 276-285.[4] Jinghai Li (2024). The principle of compromise-in-competition: Understanding mesoscale complexity of different levels. Proceedings of the Royal Society A, 480: 20240031.[5] Devlin, J., Chang, M.-W., Lee, K., Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1, 4171-4186.[6] Radford, A., Narasimhan, K., Salimans, T., Sutskever, I. (2018). Improving language understanding by generative pre-training. OpenAI. https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf[7] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998-6008.[8] Li Guo, Jun Wu, Jinghai Li (2019). Complexity at Mesoscales: A Common Challenge in Developing Artificial Intelligence. Engineering, 5(5): 924-929.文章信息The Logic and Architecture of Future Data Systems未来数据系统的逻辑与架构作者李静海*, 郭力引用Jinghai Li, Li Guo, The Logic and Architecture of Future Data Systems, Engineering, 2025, https://doi.org/10.1016/j.eng.2025.02.006.