Unity-ML-Agents-Soccer Twos环境(1)-SoccerEnvController.cs

环境链接:

https://github.com/Unity-Technologies/ml-agents/blob/release_19/Project/Assets/ML-Agents/Examples/Soccer/Scripts/SoccerEnvController.cs

目录

1. SoccerEnvController.cs

1.1 导入命名空间

1.2 SoccerEnvController 类

1.2.1 unity中3D object中的Quad是什么意思?

1.2.2 MonoBehaviour ?

1.3  PlayerInfo类

1.3.1 这段代码中[System.Serializable]具体是针对谁的?

1.3.2 这段代码中的[HideInInspector]具体是针对谁的?

扫描二维码关注公众号,回复: 15425025 查看本文章

1.4 XML 注释标签

1.4.1 <summary> 和 </summary>

1.4.2 <returns></returns>

1.4.3 [Tooltip("Max Environment Steps")] public int MaxEnvironmentSteps = 25000

1.5 定义字段

1.6 Start() 方法

1.6.1 m_SoccerSettings = FindObjectOfType()

1.6.2 m_BlueAgentGroup = new SimpleMultiAgentGroup()

1.6.3 item.StartingPos = item.Agent.transform.position

1.6.4 item.StartingRot = item.Agent.transform.rotation

1.6.5 item.Agent.team == Team.Blue

1.6.6 m_BlueAgentGroup.RegisterAgent(item.Agent)

1.6.7 ResetScene()

1.7 FixedUpdate()方法

1.7.1 m_BlueAgentGroup.GroupEpisodeInterrupted()

1.8 ResetBall()方法

1.8.1 var randomPosX = Random.Range(-2.5f, 2.5f)

1.9 GoalTouched()方法

1.9.1 public void GoalTouched(Team scoredTeam)

1.9.2 m_BlueAgentGroup.AddGroupReward(1 - (float)m_ResetTimer / MaxEnvironmentSteps)

1.9.2 m_PurpleAgentGroup.AddGroupReward(-1)

1.9.3 m_PurpleAgentGroup.EndGroupEpisode()

1.10 ResetScene() 方法

1.10.1 item.Agent.initialPos

1.10.2 item.Agent.rotSign

1.10.3 var newRot = Quaternion.Euler(0, rot, 0)

1.10.4 item.Agent.transform.SetPositionAndRotation(newStartPos, newRot)

1.10.5 item.Rb.velocity = Vector3.zero


1. SoccerEnvController.cs

1.1 导入命名空间

using System.Collections.Generic; // 导入泛型集合类所在的命名空间
using Unity.MLAgents; // 导入 Unity Machine Learning Agents 库所在的命名空间
using UnityEngine; // 导入 Unity 引擎核心类所在的命名空间
  • System.Collections.Generic 命名空间包含了 C# 中的泛型集合类,例如 List<T>、Dictionary<TKey, TValue> 等。
  • Unity.MLAgents 命名空间是 Unity Machine Learning Agents 库的命名空间,提供了一些用于机器学习的工具和算法,例如神经网络、智能体(Agents)和 BehaviorParameters 类等。
  • UnityEngine 命名空间包含了 Unity 引擎的核心类,例如 GameObject、Transform、Material 等。

1.2 SoccerEnvController

public class SoccerEnvController : MonoBehaviour
{

}

这是一个名为 SoccerEnvController 的 C# 类继承自 MonoBehaviour 类。该类可以被附加到 Unity 引擎中的游戏对象上,用于控制足球比赛的环境

在这个类中,可以定义一些属性、方法和事件,用于控制足球比赛的流程和逻辑。例如,在这个类中可以定义球场的大小、足球的数量、球员的行为等等。同时,这个类还可以接收来自足球和球员的事件,例如进球事件、球员移动事件等等,然后根据这些事件进行相应的处理。

继承自 MonoBehaviour 类的类可以使用 Unity 引擎的生命周期函数和事件。在 SoccerEnvController 类中,可以重写一些生命周期函数和事件,例如 Start() 方法、Update() 方法等等,用于处理游戏的初始化、更新和绘制等等。

总之,SoccerEnvController 类是一个用于控制足球比赛环境的类,可以定义一些属性、方法和事件,用于实现游戏的逻辑和流程。

1.2.1 unity中3D object中的Quad是什么意思?

在Unity中,Quad是一种用于创建2D平面的3D对象。它实际上是一个只有两个三角形的矩形面片,可以用于创建平面的墙壁、地板、天花板等。Quad的一个重要特点是它只有一个面,因此在渲染时不需要进行背面消隐(Backface Culling)操作,从而提高了性能。在Unity中,Quad可以使用内置的创建菜单轻松地创建,也可以使用代码动态地创建。

1.2.2 MonoBehaviour ?

MonoBehaviour 是 Unity 引擎中所有脚本组件的基类,继承自 UnityEngine.Object 类。它提供了许多用于操作游戏对象的函数和属性,例如 Start()、Update()、OnCollisionEnter() 等等。

通过继承 MonoBehaviour 类,可以在 Unity 引擎中创建脚本组件,并将它们附加到游戏对象上。这些脚本组件可以访问游戏对象的属性和方法,例如 Transform、Renderer、Collider 等等,从而实现对游戏对象的控制和操作。

MonoBehaviour 类中定义了一些生命周期函数,例如 Start()、Update()、FixedUpdate()、LateUpdate() 等等。这些函数会在 Unity 引擎中的特定时间点被调用,用于实现游戏对象的初始化、更新、固定更新和后处理等等。

除了生命周期函数,MonoBehaviour 类中还提供了许多常用的函数和属性,例如 GetComponent()、gameObject、transform、enabled 等等。通过这些函数和属性,可以方便地访问游戏对象的组件和属性,从而实现对游戏对象的控制和操作。

总之,MonoBehaviour 是 Unity 引擎中所有脚本组件的基类,提供了许多用于操作游戏对象的函数和属性。通过继承 MonoBehaviour 类,可以在 Unity 引擎中创建脚本组件,并实现对游戏对象的控制和操作。

1.3  PlayerInfo类

[System.Serializable]
public class PlayerInfo
{
public AgentSoccer Agent; // 代理器,用于控制球员
[HideInInspector]
public Vector3 StartingPos; // 球员的初始位置
[HideInInspector]
public Quaternion StartingRot; // 球员的初始旋转
[HideInInspector]
public Rigidbody Rb; // 球员的刚体组件
}

这是一个名为 PlayerInfo 的 C# 类,使用 [System.Serializable] 标记表示该类可以被序列化,用于在 Unity 编辑器中显示。

PlayerInfo 类中包含了一些属性,用于存储和管理足球比赛中的球员信息。其中:

  • Agent 是一个 AgentSoccer 类型的属性,代表了一个可以控制球员的代理器
  • StartingPos 是一个 Vector3 类型的属性,用于存储球员的初始位置。
  • StartingRot 是一个 Quaternion 类型的属性,用于存储球员的初始旋转。
  • Rb 是一个 Rigidbody 类型的属性,用于存储球员的刚体组件,可以用于模拟球员的物理行为。

使用 [HideInInspector] 标记可以隐藏这些属性,使其在 Unity 编辑器中不可见,但仍可以在代码中使用。通常这些属性需要在代码中进行设置和访问,而不需要在 Unity 编辑器中进行编辑。

总之,PlayerInfo 类是一个用于存储和管理足球比赛中球员信息的类,包含了一些属性,可以用于控制球员的行为和模拟球员的物理行为。使用 [System.Serializable] 标记可以将该类序列化,使其可以在 Unity 编辑器中进行编辑和保存。因此,使用 [HideInInspector] 标记可以简化编辑器界面,避免让用户意外修改这些属性,从而提高代码的可靠性和安全性。需要注意的是,即使使用了 [HideInInspector] 标记,这些属性仍然可以通过代码来设置和访问。

1.3.1 这段代码中[System.Serializable]具体是针对谁的?

这段代码中的 [System.Serializable] 标记是针对 PlayerInfo 类的。

PlayerInfo 类是一个自定义的类,用于存储和管理足球比赛中球员信息的属性。使用 [System.Serializable] 标记可以告诉 Unity 引擎,该类可以被序列化,从而可以在 Unity 编辑器中进行编辑和保存。

在 Unity 编辑器中,如果一个类、结构体或枚举类型被标记为 [System.Serializable],那么在检视器面板中,用户可以编辑该类型的字段和属性。通过序列化机制,Unity 引擎可以将该类型转换成二进制数据,并将其保存到磁盘上,以便在下次启动时重新加载。

总之,[System.Serializable] 标记是针对类、结构体和枚举类型的,用于告诉 Unity 引擎该类型可以被序列化,从而可以在 Unity 编辑器中进行编辑和保存。

1.3.2 这段代码中的[HideInInspector]具体是针对谁的?

这段代码中的 [HideInInspector] 标记是针对 PlayerInfo 类中的三个属性 StartingPos、StartingRot 和 Rb 的。

1.4 XML 注释标签

    /// <summary>
    /// Max Academy steps before this platform resets
    /// </summary>
    /// <returns></returns>
    [Tooltip("Max Environment Steps")] public int MaxEnvironmentSteps = 25000;

    /// <summary>
    /// The area bounds.
    /// </summary>

    /// <summary>
    /// We will be changing the ground material based on success/failue
    /// </summary>

这段代码包含了三个 XML 注释标签:<summary>、<returns> 和 <Tooltip>。

①<summary> 标签用于添加成员的摘要信息,通常用于描述成员的用途、功能或行为等方面。在这段代码中,第一个 <summary> 标签用于描述 MaxEnvironmentSteps 字段表示的含义,即该平台允许的最大学习步骤数量。

②<returns> 标签用于描述方法的返回值。在这段代码中,没有方法,因此该标签没有实际作用,可能是无意的复制粘贴错误。

③<Tooltip> 标签用于添加字段或属性的提示信息,通常用于描述它们的作用、用途或意义。在这段代码中,第三个注释使用 <Tooltip> 标签来描述我们将根据成功或失败来更改地面材质的目的。这个提示信息通常会显示在 Unity 编辑器中该字段或属性的悬停提示文本中。

1.4.1 <summary> 和 </summary>

<summary> 和 </summary> 是一对 XML 注释标签,用于添加成员的摘要信息。 <summary> 标签通常用于描述成员的用途、功能或行为等方面,它可以帮助开发人员更好地理解代码,提高代码的可读性和可维护性。一般情况下,<summary> 标签应该紧接在成员的声明之前,它的内容应该简洁明了、言简意赅。同时,这对标签也可以用于自动生成 API 文档和 IntelliSense。

1.4.2 <returns></returns>

<returns></returns> 是一个 XML 注释标签,用于描述方法的返回值。在一个方法的 XML 注释中,<returns> 标签一般紧跟在 <summary> 标签之后,用于描述方法返回的值、类型和含义等方面。在一些 IDE 或编辑器中,<returns> 标签可以帮助自动生成 API 文档和 IntelliSense,方便开发人员快速了解方法的返回值和用途。在这段代码中,由于没有方法需要描述,因此 <returns></returns> 标签是一个无意义的注释,可能是无意的复制粘贴错误。

1.4.3 [Tooltip("Max Environment Steps")] public int MaxEnvironmentSteps = 25000

[Tooltip("Max Environment Steps")] public int MaxEnvironmentSteps = 25000;

这段代码中的 [Tooltip("Max Environment Steps")] 是一个属性标记,用于在 Unity 编辑器中为 MaxEnvironmentSteps 字段添加一个提示文本。在这里,提示文本是 "Max Environment Steps",表示这个字段代表的是环境允许的最大步数。当你在 Unity 编辑器中悬停在 MaxEnvironmentSteps 字段上时,会显示这个提示文本,方便用户了解该字段的含义和用途。

1.5 定义字段

    public GameObject ball;
    [HideInInspector]
    public Rigidbody ballRb;
    Vector3 m_BallStartingPos;

    //List of Agents On Platform
    public List<PlayerInfo> AgentsList = new List<PlayerInfo>();

    private SoccerSettings m_SoccerSettings;


    private SimpleMultiAgentGroup m_BlueAgentGroup;
    private SimpleMultiAgentGroup m_PurpleAgentGroup;

    private int m_ResetTimer;

这段代码中,

public GameObject ball; 定义了一个公共字段 ball,用于存储一个引用了场景中的一个 GameObject 对象,这个对象通常是一个足球模型。

[HideInInspector] 标记了 ballRb 字段,表示在 Inspector 面板中隐藏该字段。ballRb 是一个公共的 Rigidbody 类型的字段,用于引用足球的 Rigidbody 组件。

m_BallStartingPos 是一个 Vector3 类型的变量,用于存储足球的初始位置。

AgentsList 是一个 List<PlayerInfo> 类型的变量,用于存储场景中所有的智能体的信息。PlayerInfo 是一个自定义的类,包含了代理的信息,包括代理本身(AgentSoccer 类型的),代理的初始位置和旋转信息(StartingPos 和 StartingRot),以及代理的刚体组件(Rb)。

m_SoccerSettings 是一个 SoccerSettings 类型的变量,用于存储足球环境的设置信息。

m_BlueAgentGroup 和 m_PurpleAgentGroup 是两个 SimpleMultiAgentGroup 类型的变量,用于存储代理的分组信息

m_ResetTimer 是一个整型变量,用于记录当前环境已经运行的步数

1.6 Start() 方法

void Start()
{
    // 查找场景中的 SoccerSettings 组件
    m_SoccerSettings = FindObjectOfType<SoccerSettings>();

    // 初始化两个 MultiAgentGroup,分别代表蓝队和紫队
    m_BlueAgentGroup = new SimpleMultiAgentGroup();
    m_PurpleAgentGroup = new SimpleMultiAgentGroup();

    // 获取足球的 Rigidbody 和起始位置
    ballRb = ball.GetComponent<Rigidbody>();
    m_BallStartingPos = new Vector3(ball.transform.position.x, ball.transform.position.y, ball.transform.position.z);

    // 遍历球员列表,对每个球员做以下操作:
    foreach (var item in AgentsList)
    {
        // 存储球员的起始位置、旋转和 Rigidbody
        item.StartingPos = item.Agent.transform.position;
        item.StartingRot = item.Agent.transform.rotation;
        item.Rb = item.Agent.GetComponent<Rigidbody>();

        // 注册球员到对应的 MultiAgentGroup 中,以区分球员所属的队伍
        if (item.Agent.team == Team.Blue)
        {
            m_BlueAgentGroup.RegisterAgent(item.Agent);
        }
        else
        {
            m_PurpleAgentGroup.RegisterAgent(item.Agent);
        }
    }

    // 重置环境,即将球员和足球放回起始位置,重置各种计数器
    ResetScene();
}

这段代码定义了 SoccerEnvController 类的 Start() 方法。当场景中包含 SoccerEnvController 组件的游戏对象被实例化时,该方法将被调用。

Start() 方法中,首先使用 FindObjectOfType 方法查找场景中的 SoccerSettings 组件,并将其赋值给 m_SoccerSettings 变量。接下来,创建两个 SimpleMultiAgentGroup 对象,分别代表蓝队和紫队,并将它们赋值给 m_BlueAgentGroupm_PurpleAgentGroup 变量。

接着,获取足球的 Rigidbody 和起始位置,以备后续使用。然后,遍历球员列表中的每个球员,对每个球员存储其起始位置、旋转和 Rigidbody,并根据球员所属的队伍将其注册到对应的 MultiAgentGroup 中,以便区分球员所属的队伍。

最后,调用 ResetScene() 方法,将球员和足球放回起始位置,并重置各种计数器。

1.6.1 m_SoccerSettings = FindObjectOfType<SoccerSettings>()

m_SoccerSettings = FindObjectOfType<SoccerSettings>();

这行代码通过FindObjectOfType<SoccerSettings>()方法获取场景中的SoccerSettings对象,并将其赋值给m_SoccerSettings变量。FindObjectOfType<T>()是Unity的内置方法,它可以在场景中查找类型为T的对象,并返回第一个找到的对象。在本例中,SoccerSettings是一个自定义的设置类,用于存储一些有关足球环境的参数,例如足球场地的大小和固定时间步数。

1.6.2 m_BlueAgentGroup = new SimpleMultiAgentGroup()

 m_BlueAgentGroup = new SimpleMultiAgentGroup();

这行代码创建了一个新的SimpleMultiAgentGroup对象,并将其赋值给m_BlueAgentGroup变量。SimpleMultiAgentGroup是Unity ML-Agents中的一个类,用于管理多个代理的状态和行为。在SoccerEnvController中,我们使用它来分别管理蓝队和紫队的代理

1.6.3 item.StartingPos = item.Agent.transform.position

item.StartingPos = item.Agent.transform.position;

这行代码的作用是将当前遍历到的 Agent 的初始位置设置为该 Agent 对应的 GameObject 的位置。具体来说,item 代表了列表 AgentsList 中的一个元素,该元素的类型是 PlayerInfo。而 PlayerInfo 中的 Agent 属性是一个 AgentSoccer 类型的对象,该对象对应了场景中一个具体的 Agent 游戏对象。因此,item.Agent.transform.position 可以获取到该游戏对象的位置,而 item.StartingPos 则是 PlayerInfo 中用于保存该 Agent 的初始位置的属性。所以这行代码的意思是将该 Agent 对应的 GameObject 的位置赋值给该 Agent 的初始位置属性。

1.6.4 item.StartingRot = item.Agent.transform.rotation

item.StartingRot = item.Agent.transform.rotation;

StartingRot 是一个 Quaternion 类型的属性。在 Start() 函数中的 foreach 循环中,我们对 AgentsList 中的每个元素 item 都进行了一系列初始化的操作,其中就包括对 itemStartingRot 属性的初始化。Quaternion 类型是用来表示旋转的,它包含一个向量部分和一个标量部分,可以表示绕任意轴的旋转。在这里,item.Agent.transform.rotation 表示获取 item 对应的游戏对象 Agent 相对于世界坐标系的旋转信息,并将该旋转信息赋值给 itemStartingRot 属性。

1.6.5 item.Agent.team == Team.Blue

item.Agent.team == Team.Blue;

这行代码判断当前 item 对应的 AgentSoccer 是否属于蓝队,其依据是 item.Agent 对应的 AgentSoccer 组件的 team 属性是否为 Team.Blue。如果是,则将其注册到 m_BlueAgentGroup 中,否则将其注册到 m_PurpleAgentGroup 中。这两个 SimpleMultiAgentGroup 分别用于管理蓝队和紫队的多个智能体。

1.6.6 m_BlueAgentGroup.RegisterAgent(item.Agent)

m_BlueAgentGroup.RegisterAgent(item.Agent);

这行代码将一个代理添加到蓝队的SimpleMultiAgentGroup中。SimpleMultiAgentGroup是一种用于管理多个智能代理的Unity ML-Agents类。在此场景中,代理被分为两个团队:蓝队和紫队,每个团队都有自己的SimpleMultiAgentGroup。使用RegisterAgent方法将每个代理添加到其相应的团队中,以便在训练期间管理和交互这些代理。

1.6.7 ResetScene()

ResetScene();

ResetScene() 是一个自定义函数,在此代码中用于重置场景状态。重置场景状态的主要目的是为了在训练过程中保持场景的一致性和可重复性,以便Agent可以在相同的环境中进行学习并改进策略。在此代码中,重置场景的具体操作取决于场景的设计和需求,可以涉及到重新设置球的位置和速度、重新设置代理的位置和状态等等。

1.7 FixedUpdate()方法

    void FixedUpdate()
    {
        m_ResetTimer += 1;
        if (m_ResetTimer >= MaxEnvironmentSteps && MaxEnvironmentSteps > 0)
        {
            m_BlueAgentGroup.GroupEpisodeInterrupted();
            m_PurpleAgentGroup.GroupEpisodeInterrupted();
            ResetScene();
        }
    }

这段代码是在 FixedUpdate() 函数中实现的,用于在每一帧检查环境是否需要被重置。首先,每次 FixedUpdate() 函数被调用时,m_ResetTimer 的值都会增加 1。然后,如果 m_ResetTimer 的值超过了 MaxEnvironmentSteps(即最大允许的环境步数),并且 MaxEnvironmentSteps 的值大于 0,那么就会调用 m_BlueAgentGroup.GroupEpisodeInterrupted()m_PurpleAgentGroup.GroupEpisodeInterrupted() 来中断蓝队和紫队的当前回合,并调用 ResetScene() 函数重置整个环境。

1.7.1 m_BlueAgentGroup.GroupEpisodeInterrupted()

m_BlueAgentGroup.GroupEpisodeInterrupted()

m_BlueAgentGroup.GroupEpisodeInterrupted() 是一个方法调用,用于告知代理(agents)它们所在的组(group)当前的episode已被中断。在这个场景中,当 m_ResetTimer 计时器超过了预设的 MaxEnvironmentSteps 步数时,就会调用该方法告知代理。这通常会导致代理进行重新初始化或其他清理操作,以便开始下一个episode。

1.8 ResetBall()方法

    public void ResetBall()
    {
        var randomPosX = Random.Range(-2.5f, 2.5f);
        var randomPosZ = Random.Range(-2.5f, 2.5f);

        ball.transform.position = m_BallStartingPos + new Vector3(randomPosX, 0f, randomPosZ);
        ballRb.velocity = Vector3.zero;
        ballRb.angularVelocity = Vector3.zero;

    }

这段代码定义了一个名为"ResetBall()"的公共方法,该方法用于将足球(ball)的位置和速度重置到其初始状态。在方法内部,使用Random.Range()函数来生成随机的X和Z轴位置,然后将足球的位置设置为初始位置随机偏移量的和。最后将足球的速度和角速度都设置为零,以便将其停止在新的位置。

1.8.1 var randomPosX = Random.Range(-2.5f, 2.5f)

var randomPosX = Random.Range(-2.5f, 2.5f);

这行代码定义了一个float类型的变量randomPosX,并将它初始化为一个随机值,这个随机值的范围是从-2.5到2.5之间。具体实现是使用了Random.Range方法,这个方法会返回一个随机值,该值在min(包含)和max(不包含)之间。

1.9 GoalTouched()方法

public void GoalTouched(Team scoredTeam)
{
    // 判断哪个队进球了,并给相应的队伍和球员分数
    if (scoredTeam == Team.Blue)
    {
        // 蓝队进球,蓝队分数加一,计算分数的方法为当前步数的倒数
        m_BlueAgentGroup.AddGroupReward(1 - (float)m_ResetTimer / MaxEnvironmentSteps);
        // 蓝队进球,紫队分数减一
        m_PurpleAgentGroup.AddGroupReward(-1);
    }
    else
    {
        // 紫队进球,紫队分数加一,计算分数的方法为当前步数的倒数
        m_PurpleAgentGroup.AddGroupReward(1 - (float)m_ResetTimer / MaxEnvironmentSteps);
        // 紫队进球,蓝队分数减一
        m_BlueAgentGroup.AddGroupReward(-1);
    }
    // 结束蓝队和紫队的本回合游戏,并重置场景
    m_PurpleAgentGroup.EndGroupEpisode();
    m_BlueAgentGroup.EndGroupEpisode();
    ResetScene();
}

蓝队进球,蓝队获得正的奖励,紫队获得负的奖励,这是因为在比赛中,一个队伍进球意味着另一个队伍失球。

1.9.1 public void GoalTouched(Team scoredTeam)

GoalTouched 是一个公共方法,它有一个参数 scoredTeam类型为 TeamTeam 是一个枚举类型,表示一个代理所属的团队,可以是蓝队或紫队。在这个方法中,scoredTeam 参数表示得分的团队,也就是射门球进入的目标

1.9.2 m_BlueAgentGroup.AddGroupReward(1 - (float)m_ResetTimer / MaxEnvironmentSteps)

m_BlueAgentGroup.AddGroupReward(1 - (float)m_ResetTimer / MaxEnvironmentSteps);

这行代码是在一个球进了球门后被执行的,它将蓝队的分数加上了一个奖励值。这个奖励值是根据 m_ResetTimerMaxEnvironmentSteps 计算的,目的是让蓝队在越短的时间内将球踢进对方的球门,获得更高的奖励。这里使用了减法和除法,将 m_ResetTimer 转换为一个 0 到 1 之间的值,然后用 1 减去它,得到一个随着时间递减的奖励值。最终,这个奖励值会被加到蓝队的总分数中,影响整个比赛的结果。

1.9.2 m_PurpleAgentGroup.AddGroupReward(-1)

这行代码在紫色队中添加了一个负面奖励,表示紫色队员不应该让球进入他们的球门。在这个环境中,目标是让自己的队伍尽可能多地得分,同时防止对方队伍得分,因此进球对得分方是一个正面奖励,对方是一个负面奖励。

1.9.3 m_PurpleAgentGroup.EndGroupEpisode()

m_PurpleAgentGroup.EndGroupEpisode();

m_PurpleAgentGroup.EndGroupEpisode()是将当前Episode结束并进行评估和学习的方法。在强化学习中,一个Episode是从Agent开始运行到达终止状态的一次完整的行动序列。当Agent达到终止状态时,通常需要对其进行奖励评估和策略更新,以便在下一次运行时能够更好地执行任务。因此,EndGroupEpisode()方法会通知Agent Group当前Episode已结束,并触发奖励评估和学习更新过程。

1.10 ResetScene() 方法

// 重置场景
public void ResetScene()
{
    m_ResetTimer = 0; // 重置计时器
    // 重置智能体
    foreach (var item in AgentsList)
    {
        // 随机生成 x 坐标
        var randomPosX = Random.Range(-5f, 5f);
        // 新的起始位置
        var newStartPos = item.Agent.initialPos + new Vector3(randomPosX, 0f, 0f);
        // 随机生成 y 轴旋转角度
        var rot = item.Agent.rotSign * Random.Range(80.0f, 100.0f);
        // 新的旋转角度
        var newRot = Quaternion.Euler(0, rot, 0);
        // 设置新的位置和旋转角度
        item.Agent.transform.SetPositionAndRotation(newStartPos, newRot);

        // 重置速度和角速度
        item.Rb.velocity = Vector3.zero;
        item.Rb.angularVelocity = Vector3.zero;
    }

    // 重置球
    ResetBall();

}

这段代码定义了一个 ResetScene() 方法,用于重置场景状态。具体来说,该方法会将场上所有球员和足球的位置、朝向、速度和角速度等状态都重置为初始状态,以便开始新的比赛。

其中,通过遍历 AgentsList 列表来重置每个球员的位置和朝向。球员的位置会在其初始位置的基础上随机偏移一定的距离,朝向则随机在一定范围内变化一定的角度。重置后,球员的速度和角速度都被设置为零。

另外,该方法还会调用 ResetBall() 方法来重置足球的位置和速度。

1.10.1 item.Agent.initialPos

item.Agent.initialPos

item.Agent.initialPos代理的起始位置。在这个场景中,代理的起始位置已经被设定好并在代理被创建时保存了下来,因此这里通过访问 item.Agent.initialPos 来获取代理的初始位置,从而在这个初始位置的基础上进行一些随机偏移,来达到每次场景重置时代理位置的随机化。

1.10.2 item.Agent.rotSign

item.Agent.rotSign

在代码中没有给出 Agent 类中的 rotSign 属性的定义,不过一般来说,rotSign 可能是一个取值为正负 1 的整数变量,用于在角度随机生成时确定旋转方向

1.10.3 var newRot = Quaternion.Euler(0, rot, 0)

var newRot = Quaternion.Euler(0, rot, 0);

这一行代码创建了一个新的 Quaternion 对象 newRot,用于设置物体的新旋转Quaternion.Euler 是一个静态方法,它需要三个浮点数作为输入参数,分别代表旋转角度的 x、y 和 z 值。在这里,我们将 x 和 z 的角度设为 0,而将 y 的角度设置为 rot。最终,newRot 就被设置为一个绕 y 轴旋转 rot 度的旋转。

1.10.4 item.Agent.transform.SetPositionAndRotation(newStartPos, newRot)

item.Agent.transform.SetPositionAndRotation(newStartPos, newRot);

这行代码的作用是将游戏对象 item.Agent 的位置和旋转设置为 newStartPosnewRot,即将其移动到一个新的起始位置并旋转到一个新的方向。SetPositionAndRotation()Transform 类的一个方法,用于设置游戏对象的位置和旋转。在这里,它被用于重置每个智能体的位置和方向。

1.10.5 item.Rb.velocity = Vector3.zero

item.Rb.velocity = Vector3.zero;

问:item.Rb.velocity = Vector3.zero; 这里的Rb是指?

在这个代码段中,Rb 指的是一个物体上的 Rigidbody 组件。在这里,item 是一个自定义类,它包含了一个 Agent 和一个 Rigidbody,这两个成员变量都是在 ResetScene() 方法外部初始化并且被传递给了 AgentsList。因此,item.Rb 指的是 item 中的 Rigidbody,而 item.Rb.velocity 就是将该刚体的速度设置为零。

问:item.Rb.velocity = Vector3.zero; 这里的item是指?

在foreach循环中,item是AgentsList列表中的每个元素,元素的类型为AgentItem。因此,item.Rb是AgentItem类型中的一个属性,指代AgentItem对象的刚体组件。

AgentItem对象?

是一种数据结构,包含了一个智能体对象(Agent)和对应的刚体组件(Rigidbody)。在 ResetScene 方法中,使用循环遍历 AgentsList 列表中的每个 AgentItem 对象,重置每个智能体的位置、旋转以及刚体的速度和角速度。

猜你喜欢

转载自blog.csdn.net/aaaccc444/article/details/130393662