top
如何处理制药开发和商业化生产中的生物工艺数据?
2023-07-14

对于工艺开发或制造科学领域的工作者来说,除了负责有效地开发高性能生物工艺、保障工艺放大顺利进行,还需要确保商业生产处于受控状态。统一且可靠的数据管理与分析对药物成功开发和生产起着至关重要的作用。

假如您在生物工艺开发、工艺放大验证或卓越制造领域工作,您将面临的主要挑战有:

  数据在哪里,如何获取

  如何整合数据并使其可用于分析

  如何分析数据

您也可能会有这样的疑问:如何以更少的努力获得完整可靠的工艺数据概述?如何在单个数据库中构建来自不同传感器的大量数据?如何汇总来自小规模和大规模的数据以进行规模化的模型鉴定?进行制药数据分析和生物过程的统计评估,可以使用哪些方法?

柯尔柏的维隆PAS-X Savvy为所有这些挑战提供了解决方案,包括生物工艺数据管理、生物工艺数据可视化,以及用于评估生物过程的统计学技术。

数据管理

作为工艺工程师,您必须处理大量的传感器数据(如pH值、温度和溶解氧)、产品质量数据(如产品浓度、比活性、相对效价)、诸如图像等非数值数据(如扫描的SDS-PAGE数据)等等。对于每种分析目的,您都需要在耗时的过程中手动重新组织来自不同数据源的数据。

您所面临的第一个挑战,也是最关键的挑战,是从统一来源获取数据。通常,数据分布在公司多个位置,比如:不同部门,不同设备和数据存储系统。您可能经常遇到需要用不同方式处理的多种类型数据。

我们把数据分为两大类:

1. 时间序列数据:随时间记录的数据(即每个值都有对应时间戳)

可进一步分类为:

系统在线记录的数据

   ·  通常以高时间分辨率记录

   ·  通常能够以定义的导出格式导出

手动记录的数据

   ·  通常时间分辨率较低

   ·  通常以不同的格式采集

2. 特征数据(F):单点数据(即只有一个值)

可进一步分类为:

标量特征

   ·  完全由其量值描述的物理量

分类特征

·  单元操作分配至特定组或名词范畴

时间序列数据的挑战在于,即使在同一次运行中,它们也往往是由不同系统记录的,并且可能以不同的时间分辨率出现。此外,在相互比较多次运行时,需要将其与特定事件对齐,以使其具有可比性(例如:发酵过程的接种时间或色谱中洗脱的开始时间)。

通过组合所有类型的数据,您可以获得最高的信息量。这就需要您很好地整理数据。如果进行手动操作,将非常耗时,而且在加入新的数据时还需要再次操作。因此,传统的数据分析项目往往包括80%的数据挖掘和对齐,只有20%的实际分析。

对此,一个可能的解决方案是使用现有的次级系统。在发酵过程中,您可以使用SCADA软件进行数据对齐,这类软件通常可以连接第三方系统(如废气分析仪和称重天平)。某些工具甚至可以添加手动记录的数据。当导出数据时,需要确保将时间分辨率调整到同一水平,这样可以在获取相关信息的同时将数据大小保持在可管理的范围内。建议为这类系统的导出制定SOP,这样可以确保变量命名的一致性和数据格式保持不变。

最佳实践数据库有着以下要求:

1)在一个共同的数据库中存储所有生物工艺相关数据的合适数据库模型

2)向时间序列数据添加元信息的可能性(例如:工艺流程和事件的定义)

3)数据预处理工作流的管理

凭借独特的数据模型,PAS-X Savvy将来自MES、ELN、LIMS、DCS、Historian、Data lakes和其他独立设备的所有数据对齐并情境化,并使它们在一个单一平台上可用。数据库过滤设置可以自定义,这将帮助您快速识别相关批次、单元操作和数据类型,并创建自己的数据集。

在将所有数据收集到统一的位置之后,下一个挑战是根据数据类型选择正确的可视化技术。

数据可视化

可视化是检测处理趋势和探究偏差的最基本工具。为了快速实现这些目的,理想情况是直接从一个统一的数据库中创建可视化,而不需要导出数据或在电子表格中手动操作数据——这样易于出现误操作因此不推荐。针对不同数据类型有着不同的可视化技术,例如用于分析处理趋势的多轴叠加图,以及用于关联质量和产品属性的箱形图、直方图等,都非常适合查看数据。

生物工艺常用的可视化工具有:

多轴叠加图

多轴叠加图能够比较多个生产运行和开发运行的时间序列(如:发酵数据、色谱图等)。为了使不同的运行具有可比性,首先需要将时间序列与事件对齐(如:接种时间、洗脱时间点)。下一步,时间序列可以按分类特征进行分组,这样就可以进行简单高效的可视化数据分析。

条形图

在条形图中,每次运行数据都以单独的条状显示。理想情况下,围绕测量值的不确定性可以显示为误差条。通过分类特征对条形图进行分组,可以进行简单的可视化数据分析。

箱形图

箱形图展示变量,它显示最小值、最大值、样本中位数以及第一和第三个四分位数。该图有助于确定数据的分布情况。通过分类特征分组可以实现简单的可视化数据分析。然后,根据分类特征中的级别将显示特征的数据划分为组。这些组被显示为单独的箱形图。

折线图/趋势图

数字特征按连续顺序绘制成折线,应用于例如CPV的趋势分析,以评估过程的稳健性和识别趋势。

常用的统计工具有:

统计学等效性测试:“工艺流程在不同规模上的表现是否相似?”

假设测试为决策提供了统计准则。由此,与决策相关的误差可以被控制或最小化。提出的问题通常是:假设总体参数的值等于、大于或小于定义的阈值是否合理?此类测试可用于比较两个生产基地的平均值或方差。这些测试通常只评估一个结果的统计学意义,而不是实际的相关性。例如:两组平均值的差异可能在统计上具有显著性,但实际上并不相关。等效测试提供了一个简单的解决方案,可以测试假设的实际相关性(由Limentani等人于2005年提出)。例如:使用双单侧t检验可以洞察两个生产基地之间是否存在实际的相关差异。

主成分分析:“工艺流程运行稳定吗?”

这种降维方法可以使多维数据在简单的图表中可视化。生产活动可以基于多个标量特征(例如:工艺参数和质量属性)进行比较。多个二维图能够被创建,它们的区别在于选择的Y轴和X轴。如果选择主成分作为轴(双标图),该图可以显示一组生产活动中的集群。另一个选项是选择得分距离和单个活动到模型的正交距离作为轴。这样可以在多变量空间中识别外围活动。

多变量回归技术:“工艺参数如何影响产品质量?”

PAS-X Savvy通过用户友好的应用程序支持您在产品生命周期中执行统计任务。

用于信息挖掘的软测量

软测量技术最大程度地利用已收集的数据和信号。因此,与其购买越来越多的硬件,不如使用软测量技术助您利用已有的数据来获取系统更多的信息。

总结

一名工艺工程师或工艺开发经理必须回答的最关键问题之一,是如何实现数据管理、可视化和必须的统计。实现这些目的的一种方法是使用电子表格。虽然这听起来像是一个快速解决方案,但从短期和长期来看,您都会遇到严重的困难。首先,您将错过智能方法搜索批次和筛选您真正需要的数据的可能性。这些计算很耗时,而且很少能被另一个科学家或管理层审查时复制。您将花费大量时间尝试使用公式和宏标准化Excel工作表,而最后,它们很可能是不一致的。从长远来看,在电子表格之间复制和粘贴数据会浪费大量时间。

第二种可能性是在中央数据库中管理数据,并将其与统计和可视化软件连接。具有不同数据模型和数据格式的各种数据源必须由数据库来处理。数据模型将非常复杂,因为除了时间序列数据和数字特征外,您还必须存储额外的信息,如:运行名称、工艺阶段等。此外,所有的工具都需要维护,并且您将很快发现自己处于许多不同软件组件的昂贵补丁中,而无直接集成数据库的可能性。

理想的解决方案是使用像PAS-X Savvy这样的集中式解决方案,它将数据管理、可视化、数据分析和报告结合在一起。PAS-X Savvy可用于将上游、下游和高质量数据的生物工艺生命周期的数据管理、可视化和统计分析自动化。作为工艺工程师的合作伙伴,众多世界知名制药和生物技术公司信赖柯尔柏的维隆PAS-X Savvy,至今已完成200余次成功实施,对研发、扩大规模、技术转让、验证和生产等阶段的数据进行管理和分析。

作者介绍:

Daniel Borchert

Daniel现就职于柯尔柏医药科技软件有限公司,目前正在奥地利维也纳技术大学完成博士学位。他拥有超过3年的编程经验,这些经验使他能够将客户需求与软件优势很好地联系起来。

收藏