网站建设公司广告晴天娃娃获取网站访客qq号码程序下载

张

张建站

2026/5/26 12:04:06

10分钟阅读

网站建设公司广告晴天娃娃,获取网站访客qq号码程序下载,做网站建设培训,优酷视频放到网站上怎么做当前#xff0c;多波段、大视场、高深度的大规模巡天正在将天文学推向一个前所未有的数据密集型时代。随着欧几里得空间望远镜、鲁宾天文台及罗曼空间望远镜等新一代设施的相继投入运行#xff0c;宇宙正被以空前的规模与精度进行系统性测绘。这些观测预计将产生数以十亿计的…当前多波段、大视场、高深度的大规模巡天正在将天文学推向一个前所未有的数据密集型时代。随着欧几里得空间望远镜、鲁宾天文台及罗曼空间望远镜等新一代设施的相继投入运行宇宙正被以空前的规模与精度进行系统性测绘。这些观测预计将产生数以十亿计的天体图像与光谱数据其核心科学潜力之一即在于系统性地发现与鉴定其中那些稀有的、具有特殊天体物理价值的天体例如强引力透镜、并合星系、水母星系、边缘取向的原行星盘等。这类稀有天体常被称为「天体物理异常」对于检验星系演化模型、引力理论及宇宙学参数具有关键作用。然而它们的发现长期高度依赖于研究人员的偶然性目视识别或公民科学项目的人工筛选。这类方法不仅主观性强、效率低下也难以适应即将到来的海量数据规模。与此同时传统的有监督机器学习方法则因稀有天体标记样本极其有限、数据类别极端不平衡而面临根本性挑战。为应对这一瓶颈研究前沿已逐步转向无监督或弱监督的异常检测框架。此类方法并不预先定义具体的目标类别而是通过算法学习数据自身的整体结构或分布从而自动识别出与「常态」群体显著偏离的「离群」实例。例如基于隔离森林、局部异常因子等算法的工具或通过自监督学习构建表征空间再进行相似性搜索的技术已在从大规模巡天数据中筛选强引力透镜等任务中验证了其有效性。然而纯粹的无监督方法可能产生大量与天体物理兴趣无关的「噪声」异常。为弥补这一不足欧洲航天局ESA下属欧洲空间天文中心ESAC的研究团队提出并应用了一种名为 AnomalyMatch 的新方法将稀有天体检测任务定义为极端不平衡的半监督二分类问题并与主动学习循环深度融合仅需少于 10 个的极少量已标记异常样本即可启动运行同时借助伪标签、一致性正则化等半监督学习技术充分挖掘并利用海量未标记数据的价值还在整个流程中引入专家验证机制并充分利用未标记数据与专家知识逐步提升检测性能。相关研究成果以「Identifying astrophysical anomalies in 99.6 million source cutouts from the Hubble legacy archive using AnomalyMatch」为题已发表于 Astronomy Astrophysics。研究亮点* 应用 AnomalyMatch 首次对整个哈勃遗产档案约 1 亿图像切图完成了系统性异常天体筛查。* 系统发布了包含大量新发现的天体物理异常星表显著扩充了稀有现象的样本库包括 417 个新星系合并、138 个引力透镜候选体、18 个水母星系及 2 个碰撞环星系。* 成功验证了该方法极高的处理效率与准确性仅需 2 至 3 天即可完成全数据分析展现了其在处理欧几里得望远镜等未来超大规模巡天数据方面的变革性潜力。论文地址https://doi.org/10.1051/0004-6361/202555512关注公众号后台回复「稀有天体」获取完整 PDF更多 AI 前沿论文https://hyper.ai/papers基于约 1 亿张哈勃源切图的标准化数据集构建该研究使用的数据集源自奥赖恩O’Ryan等人生成的源切图source cutouts。这项工作原本致力于从哈勃遗产档案中系统搜寻相互作用星系与并合星系为此几乎处理了档案中所有延展源最终构建了一个大规模、标准化的图像集。为保障数据的一致性与可操作性研究人员仅选取了哈勃空间望远镜高级巡天相机广域通道在 F814W 滤光片下获取的 3 级校准拼接图像也就是已处理至可直接用于科学分析的数据。经此筛选共对应约一万次观测覆盖了惠特莫尔等人基于 SourceExtractor 软件发布的哈勃源星表中的延展源最终形成一个包含约 9,960 万张单源切图的图像库。每个切图尺寸固定为 150×150 像素对应天区约 7.5 角秒见方并采用 Astropy 的线性拉伸与 ZScaleInterval 方法进行增强以灰度 JPEG 格式保存。尽管哈勃源星表本身带有用于去重的 MatchID但为保留相互作用系统或多核并合星系的结构信息奥赖恩等人选择在分类完成后才进行去重。研究人员遵循同一策略确保训练集中不包含同一源的不同切图。此外在某些致密星场如仙女座星系、麦哲伦云或球状星团的深度观测中密集点源可能被软件合并为单个「延展源」从而形成一类特殊的图像伪影。研究人员在后续主动学习中识别出此类情况并通过标注引导模型将其判定为低异常得分对象。为提升数据访问效率全部约 9,960 万张切图分块存储于约一千个 HDF5 文件中。在训练集构建方面研究人员最初以搜寻边缘对齐的原行星盘为目标因此如下图所示起始训练数据仅包含 3 个此类异常样本、128 个已标注的正常样本以及海量的未标注图像。正常样本通过从全库随机抽样并经人工筛查得到涵盖孤立星系、星场及常见伪影。起始训练数据包含的 3 个此类异常样本然而随着主动学习环节的引入模型给出的高置信度候选对象很快扩展到其他形态特殊且具有研究价值的天体。借此研究人员逐步构建并扩展了一个更具泛化性的训练集最终包含 1,400 个已标注图像其中异常样本 375 个正常样本 1,025 个。异常样本主要包括并合星系178 个和引力透镜系统63 个。将 AnomalyMatch 应用于 HLA 最终训练集的 50 个示例尽管训练集的多样性与规模持续增加研究人员未能在 F814W 数据中新发现边缘对齐的原行星盘。这主要有两方面原因一是该类天体在此观测波段本就极为罕见二是随着其他异常类型被陆续纳入训练集已知的少数原行星盘样本逐渐成为训练数据的一部分降低了其被视为「未知」异常而被重新检出的概率。这一过程也体现了本方法从特定目标搜索工具演变为通用异常检测框架的实际路径。AnomalyMatch结合半监督与主动学习的交互式高效异常检测框架AnomalyMatch 是研究人员为应对大规模天文数据中稀有天体检测难题而构建的一个机器学习框架。该方法的核心创新在于它将异常检测明确定义为一个极端不平衡的二分类问题并创造性地将半监督学习与主动学习循环相结合从而能够在仅依赖极少量已知异常样本的情况下高效挖掘出海量未标记数据中潜在的稀有目标。如下图所示该模型的设计基于 FixMatch 等先进的半监督学习范式其 backbone 采用用户数据集中的已标注数据和未标注数据来训练 EfficientNet 架构以平衡计算效率与特征提取能力。整体框架包含两个协同工作的学习组件监督学习部分采用焦点损失focal loss结合动态加权策略并针对稀有异常类别实施智能过采样以有效缓解极端类别不平衡带来的训练偏差无监督部分则通过弱增强图像生成高置信度伪标签并对强增强版本施加一致性正则化约束迫使模型学习数据中稳健的形态学表征而非依赖表面伪影。使用 AnomalyMatch 时的工作流程在训练机制上模型采用分阶段优化策略。初始阶段利用少量标记样本进行有监督预热随后逐步引入未标记数据及其伪标签进行半监督训练。每一轮训练后模型对整个未标记数据集进行推断输出每个样本的「异常得分」 —— 该得分基于模型在异常类别上的预测置信度并通过校准策略增强其排序可靠性。尤为关键的是AnomalyMatch 无缝集成了一个交互式主动学习流程。该流程通过一个专为天文图像检视设计的 Web 界面将模型预测得分最高的候选样本排序呈现给领域专家。专家可进行快速分类、标注或剔除并将验证结果实时反馈至训练循环。新确认的样本不仅扩充了标记集其标注信息也被用于动态调整类别权重及伪标签阈值从而形成「模型推荐-专家确认-模型迭代」的自我增强闭环。针对包含约 1 亿个源切图的哈勃遗产档案模型完成单轮全数据推断仅需约 2.5 天且支持断点续推与增量更新。在实际应用中该框架不仅成功发现了大量新的并合星系、引力透镜、水母星系等已知稀有天体也识别出多个形态独特、尚未被文献记载的「特殊」系统。其高效率与强泛化能力充分证明了此类混合智能框架在处理下一代超大规模巡天数据中的关键价值。在哈勃遗产档案中发现 1339 个异常天体在完成模型训练后该研究将其应用于整个哈勃遗产档案数据集以系统性地搜索并分类异常天体。首先研究人员对模型输出的异常得分最高的 5,000 个候选样本进行了严格的去重处理。具体而言研究人员根据其源 ID 与哈勃源星表进行交叉匹配提取坐标后执行了一个半径为 10 角秒的激进径向匹配。由于两个独立异常天体在如此小的角距离内共现的概率极低该方法能有效剔除因数据「碎片化」导致的重复切图。经过这一步骤如下图所示研究人员得到了 1,339 个独特的异常候选体这本身也直观反映了原始数据集中存在的高重复率问题。每个异常子类中的五个典型实例随后由领域专家依据形态学分析结合 SIMBAD 和 ESASky 等数据库的文献检索对这 1,339 个独特样本逐一进行了细致的子类分类。分类结果显示合并或相互作用星系是发现数量最多的类别共计 629 个独立系统约占总数的 50%。这一方面缘于该类天体本身是相对常见的异常类型另一方面也得益于其强烈的潮汐相互作用特征在形态上非常独特易于被模型捕捉。值得注意的是研究人员的切图视场有限因此部分高度扰动的晚期并合系统在图像中可能仅表现为单个天体其并合属性需通过调整视场或查阅文献进一步确认。AnomalyMatch 算法开发过程中发现的异常分类明细引力透镜及相关现象构成了第二大类异常发现。研究人员共识别出相当数量的强引力透镜候选体其中包含了多个已知透镜系统以及大量新的潜在候选体。此外研究人员还区分出 39 个引力弧它们通常由前景星系团产生其尺度常超出单个切图范围在数据中仅表现为巨大光弧的一个片段。模型同样成功探测到一批高红移星系它们在图像中表现为信噪比低、结构致密且略显紊乱的斑点符合此类天体的观测特征。在其他类别中研究人员发现了 35 个符合严格标准的水母星系jellyfish galaxies均位于星系团环境并显示前缘弓形激波与剥离尾迹11 个团块星系clump classification以及数量相近的重叠星系overlapping galaxy。尤为值得一提的是模型在没有接受任何专门训练的情况下凭借对形态特征的泛化识别能力成功发现了多个类星体透镜lensed quasars表现为典型的「爱因斯坦十字」等结构以及 13 个在光学波段相当罕见的相对论性喷流宿主星系galaxies which host relativistic jets。这证明了 AnomalyMatch 能够迁移已学知识检测训练集中未曾出现过的异常亚型。除了上述明确分类的成员最终发布的星表还包含了三个通用类别「特殊星系」指形态显著不规则但不符合任何现有细分标准的天体「正常星系」代表模型判断有误的假阳性约占 10%主要包括某些结构微扰的孤立星系、致密星场或仪器伪影而「未知星系」则涵盖 43 个目前完全无法依据现有知识进行分类的奇特目标为未来研究留下了开放性的探索空间。AnomalyMatch 给予高异常得分但视觉检查确认为正常星系43 个完全无法分类的天体形态AI 重塑现代天文学面对下一代大型巡天项目带来的数据海啸全球的天文学研究正经历一场深刻的范式变革。在学术界研究的重点之一是如何让机器更智能地理解天文数据中复杂的时序与状态变化。例如来自多伦多大学、帝国理工学院和哈佛-史密森尼天体物理中心的研究团队开发了一种基于连续空间隐马尔可夫模型Continuous-space Hidden Markov Models 的新方法用于自动识别和分离天文源的不同物理状态。简单来说这套方法将恒星的活动建模成一系列隐藏的、连续变化的状态。AI 通过分析望远镜捕捉到的多波段光线变化曲线就能智能地推断出天体在每一时刻究竟处于何种物理状态。研究团队将这套算法应用于一颗名为 EV Lac 的活跃耀星AI 成功地从其 X 射线数据中清晰地区分出了「宁静」与「耀发」等不同状态并精准量化了爆发事件的特性。论文标题Separating states in astronomical sources using hidden Markov models: with a case study of flaring and quiescence on EV Lac论文链接https://doi.org/10.1093/mnras/stae2082与此同时企业界正以前所未有的方式参与到这场天文数据革命中其角色不再是单纯的技术供应商而是成为科学任务的设计者、建造者和运营者。一个典型案例是欧洲领先的太空科技公司 Open Cosmos。2024 年该公司与加泰罗尼亚空间研究所携手正式设计建造其首个专注于天体物理研究的卫星平台「PhotSat」。这颗小巧但功能强大的立方星将携带两台望远镜计划每两天就对整个天空的可见光和紫外波段进行一次扫描持续监测数千万颗最亮恒星的变化。它的科学目标非常明确为寻找系外行星、刻画恒星特性、捕捉超新星爆发等关键研究提供宝贵的数据流。无论是高校实验室开发的、能够洞察数据深层状态的隐马尔可夫模型还是商业航天公司打造的、致力于实现特定科学目标的天体物理卫星其核心驱动力都是应对数据规模与复杂性的指数级增长。可以预见随着以鲁宾天文台、罗曼空间望远镜为代表的新一代设施投入运行这种「智能算法创新平台」的双引擎模式将变得更加普遍推动天文学从假设驱动进一步迈向数据与算法共同驱动的新时代在浩瀚星海中更高效地发现那些稀有而珍贵的宇宙奥秘。参考链接1.https://www.electronicsweekly.com/news/business/open-cosmos-to-develop-astrophysical-satellite-2024-10/