demo—小车倒立摆 | Lianzhao Blog

ocs2选用的小车倒立摆模型如下，不包含杆末端的质量

设定杆的质量为m，长度为l，选取系统状态

则系统状态变化率为

杆绕与滑块旋转点的转动惯量

代码中角速度变化率和线加速度的方程为

因此

在定义interface的时候，约束条件包括Cost（目标函数/代价函数）、"Penalty"（惩罚项）和"Constraint"（约束），下面基于kimi模型的回答进行介绍：

惩罚项是一种用于处理约束的方法，当优化问题的解违反某些约束或希望决策变量避开某些不希望的区域时，特别是当约束难以直接集成到优化问题中时。通过在代价函数中添加一个额外的项来“惩罚”违反约束的行为，从而间接地强制执行约束。

惩罚项的权重可以调整，较大的权重意味着对违反约束的惩罚更严厉，这可能导致优化算法更倾向于找到满足约束的解。惩罚项通常与约束的违反程度成正比，违反约束越严重，惩罚项的值越大。

程序中，惩罚项可以用augmented::SlacknessSquaredHingePenalty或augmented::ModifiedRelaxedBarrierPenalty 。

SlacknessSquaredHingePenalty 类实现了一种特定的增广拉格朗日惩罚函数，称为 PHR 惩罚。这种惩罚函数将不等式约束转换为等式约束和的形式。增广拉格朗日惩罚函数定义为：

其中，是惩罚项的缩放因子。这个惩罚函数通过 DDP（动态规划）算法最小化，同时通过梯度上升步骤更新拉格朗日乘子以最大化近似对偶函数：

这个类提供了一种机制，通过惩罚约束违规来增强约束优化问题，使得优化算法在寻找最优解时能够考虑约束条件。

ModifiedRelaxedBarrierPenalty 类实现了一种特定的增广拉格朗日惩罚函数，称为平滑-PHR（smooth-PHR）惩罚。这种惩罚函数定义为：

其中，是缩放因子，是一个移位的二次放松对数障碍函数。与放松对数障碍惩罚不同，此函数在的域上定义，因此放松参数的值也必须属于此域。

惩罚函数通过求解器最小化，同时通过以下更新规则最大化近似对偶函数：

其中，是的全导数。

这个类提供了一种机制，通过惩罚约束违规来增强约束优化问题，使得优化算法在寻找最优解时能够考虑约束条件，并通过更新拉格朗日乘子来逼近最优解。