[{"data":1,"prerenderedAt":17},["ShallowReactive",2],{"blog-detail-693":3},{"id":4,"date":5,"title":6,"excerpt":8,"content":9,"featured_image":12,"categories":13,"tags":15,"sort_order":16},693,"2026-03-09T09:59:21",{"rendered":7},"[易学堂] 从预测胚胎潜力到选择最佳胚胎，AI还缺少什么？","\u003Cp>在试管婴儿（IVF）的临床过程中，医生最纠结的时刻莫过于：面对培养皿里好几个看起来都不错的胚胎，到底该先移植哪 … \u003Ca title=\"[易学堂] 从预测胚胎潜力到选择最佳胚胎，AI还缺少什么？\" class=\"read-more\" href=\"https:\u002F\u002Fwp.fertsy.com\u002F2026\u002F03\u002F09\u002F%e6%98%93%e5%ad%a6%e5%a0%82-%e4%bb%8e%e9%a2%84%e6%b5%8b%e8%83%9a%e8%83%8e%e6%bd%9c%e5%8a%9b%e5%88%b0%e9%80%89%e6%8b%a9%e6%9c%80%e4%bd%b3%e8%83%9a%e8%83%8e%ef%bc%8cai%e8%bf%98%e7%bc%ba%e5%b0%91\u002F\" aria-label=\"阅读 [易学堂] 从预测胚胎潜力到选择最佳胚胎，AI还缺少什么？\">阅读更多\u003C\u002Fa>\u003C\u002Fp>\n",{"rendered":10,"protected":11},"\u003Cp>在试管婴儿（IVF）的临床过程中，医生最纠结的时刻莫过于：面对培养皿里好几个看起来都不错的胚胎，到底该先移植哪一个？近年来，人工智能（AI）被寄予厚望，目前，主流的AI选胚胎模型通常被训练来预测单个胚胎活产的概率。在评估这些模型时，目前行业常见的评估指标是AUC（曲线下面积）。然而，本次介绍的论文指出：AUC衡量的是模型对大量胚胎样本的平均区分能力，但在真实临床中，医生面对的是同一患者的一组胚胎，需要从中选出最优的一个。因此，临床真正需要的也许不是单个胚胎的预测概率，而是AI在同一组胚胎中的排序能力。\u003C\u002Fp>\n\n\n\n\u003Cfigure class=\"wp-block-image size-large\">\u003Cimg loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"172\" src=\"https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002F%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20260306185900_38_34-1024x172.png\" alt=\"\" class=\"wp-image-694\" srcset=\"https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002F微信图片_20260306185900_38_34-1024x172.png 1024w, https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002F微信图片_20260306185900_38_34-300x50.png 300w, https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002F微信图片_20260306185900_38_34-768x129.png 768w, https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002F微信图片_20260306185900_38_34.png 1180w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\">\u003C\u002Ffigure>\n\n\n\n\u003Ch2 class=\"wp-block-heading\">研究创新\u003C\u002Fh2>\n\n\n\n\u003Cp>本文首先指出了当前胚胎评估AI研究中的一个重要问题：传统评价指标如AUC主要反映模型对单个胚胎结局的平均预测能力，但在真实临床情境中，医生需要在同一患者的一组胚胎中进行选择，因此单纯依赖AUC难以全面反映AI在胚胎挑选中的实际价值。在此基础上，研究提出从“排序能力”角度重新评估AI模型，并引入“严重失误率”这一指标，用于衡量模型是否会出现明显不合理的排序结果。同时，研究通过训练50个结构相同但随机初始化不同的模型，系统比较其排序结果，从而更接近真实临床决策场景，为评估AI在胚胎选择中的性能提供了新的视角。\u003C\u002Fp>\n\n\n\n\u003Cfigure class=\"wp-block-image size-large\">\u003Cimg loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"738\" src=\"https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002Fnihms-2113089-f0001-1024x738.jpg\" alt=\"\" class=\"wp-image-695\" srcset=\"https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002Fnihms-2113089-f0001-1024x738.jpg 1024w, https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002Fnihms-2113089-f0001-300x216.jpg 300w, https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002Fnihms-2113089-f0001-768x554.jpg 768w, https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002Fnihms-2113089-f0001-1536x1107.jpg 1536w, https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002Fnihms-2113089-f0001-2048x1477.jpg 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\">\u003C\u002Ffigure>\n\n\n\n\u003Ch2 class=\"wp-block-heading\">研究结果\u003C\u002Fh2>\n\n\n\n\u003Cp>从传统指标来看，这些AI模型似乎表现尚可，平均预测性能约为0.60。但当研究者进一步比较不同模型给出的胚胎排序结果时，却发现一致性并不高。50个模型之间的排序协调系数仅约0.35，说明即使AUC几乎相同，不同模型在判断“哪一个胚胎最好”时仍可能给出不同答案。\u003C\u002Fp>\n\n\n\n\u003Cp>研究还发现了一种更值得关注的情况。在约&nbsp;15%&nbsp;的病例中，一些模型会把明显发育潜力较低的胚胎排在第一位，而同一组中其实存在质量更好的囊胚。这类错误在整体统计指标中可能被平均掉，但在真实临床中却可能直接影响移植决策。研究者还通过可解释性分析发现，不同模型在图像中关注的胚胎结构区域也存在明显差异，这提示AI模型可能依赖不同的判断依据，从而做出完全不同的判断。\u003C\u002Fp>\n\n\n\n\u003Ch2 class=\"wp-block-heading\">临床意义\u003C\u002Fh2>\n\n\n\n\u003Cp>这项研究带来的一个重要启示是：在IVF的人工智能评价体系中，排序能力远比单纯的预测能力重要。在IVF临床实践中，医生的任务通常不是判断某个胚胎“是否有潜力”，而是需要在同一患者的多个胚胎之间做出排序选择。即使AI的预测指标表现良好，也未必能够在多胚胎选择场景中提供稳定可靠的排序建议。\u003C\u002Fp>\n\n\n\n\u003Cp>因此，未来在开发IVF人工智能模型时，可能需要进一步思考训练目标与临床任务之间的匹配问题。例如，在模型评估中引入更贴近临床决策的指标，如胚胎排序一致性、优先胚胎选择准确率等，而不仅仅依赖AUC等传统预测指标。只有当AI能够稳定地完成“胚胎排序”这一核心任务时，才更有可能真正成为临床决策的有效辅助工具。\u003C\u002Fp>\n\n\n\n\u003Cfigure class=\"wp-block-image size-large\">\u003Cimg loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"808\" src=\"https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002Fnihms-2113089-f0002_compressed-1024x808.jpg\" alt=\"\" class=\"wp-image-696\" srcset=\"https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002Fnihms-2113089-f0002_compressed-1024x808.jpg 1024w, https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002Fnihms-2113089-f0002_compressed-300x237.jpg 300w, https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002Fnihms-2113089-f0002_compressed-768x606.jpg 768w, https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002Fnihms-2113089-f0002_compressed-1536x1212.jpg 1536w, https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002Fnihms-2113089-f0002_compressed-2048x1616.jpg 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\">\u003C\u002Ffigure>\n\n\n\n\u003Ch2 class=\"wp-block-heading\">研究局限\u003C\u002Fh2>\n\n\n\n\u003Cp>本研究的重点在于分析模型排序结果的一致性，而并未对不同模型结构或训练策略进行系统比较。因此，当前结果更多是在提示现有评估方式可能存在的局限，而不是对所有人工智能方法作出全面结论。另外，本研究训练的AI性能在行业内不算优秀，且没有评估那些已经在临床中使用的AI模型，不能代表目前IVF中AI的最佳表现。\u003C\u002Fp>\n\n\n\n\u003Ch3 class=\"wp-block-heading\">结语\u003C\u002Fh3>\n\n\n\n\u003Cp>在人工智能快速进入医学领域的今天，高性能指标往往容易让人产生乐观预期。但这项研究提醒我们：统计学上的高分，并不一定完全对应临床决策的真实需求。在IVF治疗中，医生面对的并不是“某个胚胎是否有潜力”，而是需要在多个胚胎之间做出选择。因此，仅仅预测单个胚胎的结局概率，可能还不足以解决实际问题。未来IVF人工智能的发展，或许需要从单纯追求预测能力，逐渐转向更贴近临床决策的排序能力。只有当AI能够在同一组胚胎中给出合理且稳定的优先顺序时，它才更有可能真正成为临床医生可靠的辅助工具。\u003C\u002Fp>\n",false,"https:\u002F\u002Fwp.fertsy.com\u002Fwp-content\u002Fuploads\u002F2026\u002F03\u002Fnihms-2113089-f0001.jpg",[14],11,[],0,1775556113476]