image

이 논문은 이족 보행 로봇의 보행제어에 관한 논문인데요

이족 보행 로봇의 보행제어는 이족 보행 로봇이 가지는 높은 자유도, 비선형 동역학, 지면 충격 등이 정확하게 모델링 하기 어렵다는 문제를 가지고 있고

기존의 전통적인 model-based 방법들은 조심스러운 모델링 과정이 필요하고 대부분 환경 변화에 적응하기 힘들다는 문제가 있습니다.

image 1
image 2

이에 대해 저자는 다양한 동작 사이의 전환을 온라인으로 수행할 수 있는 컨트롤러를 생성한다고 하고 있습니다.

이 방법론에서 우리는 보행 파라미터를 가지고 로봇에게 명령을 내립니다. 이 파라미터는 전진 속도, 측면 속도 보행 높이 로 이루어져 있습니다. 이 파라미터들에 대해 이를 만족시키는 일련의 보행 동작들이 Gait Library G 에 속해 있습니다.

각각의 파라미터에 대응하는 보행 동작들은 right stance 와 left stance 로 구성되고 지면에 발이 닿을 때 전환됩니다.

이어서 저자는 각각의 보행 동작은 5차 베지어 곡선을 사용하여 각 구동 관절에 대한 smooth profiles 을 나타내고 이 라아브러리 G 는 HZD 를 통해 최적화 된다고 하는데 이 방법론에 대한 더 자세한 내용은 아래 논문에서 찾아 볼 수 있을 것 같습니다.

여기서 우리가 기억해두어야 할 것은 보행명령이 전진 속도, 측면 속도, 보행 높이로 이루어져 있고 사전에 디자인된 보행동작들이 있다는 것입니다.

여기까지는 결국 로봇에 제어를 이런식으로 한다이고 중요한 RL 부분으로 넘어가면 이들을 PPO 라는 알고리즘을 사용하였습니다.

이 PPO 라는 알고리즘은 카이스트나 서울대에서 발표한 강화학습 로봇 논문에서도 사용한 알고리즘이니 만큼 기억해두면 좋을 것 같습니다.

image 3

Goal 은 RL 에서 학습하는 에이전트가 추구해야할 특정 상태나 조건을 지정하는데 이 goal 을 위해 RL 의 reward 가결정될 것입니다.

image 4
image 5

일반적으로 로봇에 대한 강화학습 적용 과정을 다시 보면 어떤 환경에서 센서 information 과 reward func 을 정의하고 agent 가 이것들을 보고 다음은 어떤 액션을 취할지 environment 에 줍니다. 액션은 모터에 토크가 될 수 있겠죠. 여기서 PPO 는 구조가 크게 달라지지는 않습니다.

먼저 눈에 띄는 달라진 점은 agent 의 구조가 크게 2개의 네트워크 구조로 나뉘는 점입니다.

Actor-critic 구조로서 이 또한 강화학습에서 중요한 개념입니다.

간단하게 설명하면 Actor 는 상태가 주어졌을 때 행동을 결정하고 Critic 은 상태의 가치를 평가합니다.

image 6

조금더 자세히 살펴보면 다음과 같습니다.

이 구조가 그래서 가지는 장점이 무엇인지는 추후 이 PPO 라는 알고리즘에 대한 논문 리뷰를 진행한다면 더 자세히 다루겠습니다.

image 7
image 8
image 9


0 Comments

Leave a Reply