1편 – 논문 리뷰 [1][1] – DreamWaQ, 카이스트 사족 보행 로봇, 강화학습 보행 제어
실제 실험한 결과입니다.
제가 이족 보행 로봇을 연구하고 있기도 하고 다른 영역에서 적용 할 때 더 재미있는 결과를 볼 수 있을 것 같아 환경을 이렇게 구성하였습니다. 이 로봇은 4개 관절에 대한 torque 값을 action 으로 하고 몸체의 위치 속도 각 관절에 대한 정보 그리고 다리가 땅에 닿았는지에 flag 그리고 10개의 lidar 가 observation 에 포함되어있습니다.
기본적으로 전체 알고리즘을 논문과 똑같이 PPO 로 구성하였습니다.
일반 지형에서 중간중간 절벽처럼 reward 가 뚝 떨어지는 현상이 발생하였지만 reward 가 증가하는 것을 볼 수 있습니다. 더불어 로봇이 앞으로 가는 것을 학습한 것을 볼 수 있습니다.
아래와 같은 어려운 지형에서는 학습이 잘 되지 않는 모습을 확인 할 수 있습니다.
먼저 논문에서 나오는 reward 들을 적용해 보았습니다. 각각의 weight 들도 똑같이 적용하였고 튜닝은 전혀 하지 않았습니다. 이전 결과에 비해 안정적인 학습과 더 “보행“ 에 가까운 걷는 모습으로 앞으로 나아가는 것을 확인 할 수 있었습니다. 사람이 걷는 것 처럼 발이 교차하면서 걷지는 않았는데요. 이 리워드들이 결국은 사족 보행 로봇에서 나온 reward 이기 때문인 것으로 보입니다.
저 나름대로 reward 들을 고쳐가며 발을 교차하며 걷게 하려고 하기도 하였는데요. 성공하지는 못했습니다. 이는 추후 future works 로 남겨 놓아야 할 것 같습니다.
다음은 curriculum learning 입니다. 다시 이전 결과를 떠올려 보면 어려운 지형에서만 20000번을 학습하는 동안 결국에 제대로 reward 가 증가하지 않았고 그 결과를 볼 때에도 앞으로 잘 진행하지 못했습니다. 하드코어 지형을 넘어가기 위해 다리를 벌리는 등의 어느정도 학습이 되어가는 모습을 보여주지만 로봇을 어떻게 앞으로 보내는지 걷는 것에 대한 이해가 부족해 보였습니다. 이를 curriculum learning 을 적용하면 아래 보이는 영상과 같이 변하게 됩니다. 동일한 20000번 학습하는 동안 10000번은 일반 지형에서 학습하였고 그 이후 10000번을 어려운 지형에서 학습하였는데요. 이전 어려운 지형 에서만 20000번 학습한 경우보다 더 좋은 모습을 보인 것은 흥미로운 결과라고 생각합니다.
이 연구에서 우리는 4족 로봇이 고유 감각에만 의존하여 구조화되지 않은 지형을 횡단할 수 있도록 하는 강력한 4족 보행 프레임워크인 드림워크를 소개했습니다. 드림워크는 기존 학습 기반 컨트롤러에 비해 향상된 성능을 보였으며, 약 10분 동안 언덕과 비정형 마당을 걷는 유니트리 A1 로봇에서 그 견고성을 입증했다. 드림워크의 한계는 먼저 다리로 장애물을 부딪쳐야 하는 적응 메커니즘에 있습니다. 고층 계단과 같은 보다 복잡한 구조를 다루는 것은 장애물 접촉 전 향상된 보행 계획을 위해 외측 감각을 운동 시스템에 통합해야 할 것으로 보고 있다고 합니다.
마지막으로 로봇에서 다른 ddpg 나 sac 말고 PPO 를 사용하는 이유는 다음과 같다고 합니다.
논문을 쓸떄는 샘플 efficiency 를 중요하게 보는데 로봇에서는 사실 시간이 제일 중요하다고 합니다. 이 때 시간은 world clock 입니다.
오히려 시뮬레이션이기 때문에 sample 은 굉장히 비용이 낮습니다.
sac 같은 알고리즘의 문제는 네트 워크 학습의 frequency 가 잦아서 학습하는게 오래걸린다는 점입니다.
위에 다른 논문들은 replay memory 가 있어서, replay memory 에서 샘플을 가져오는데 시간이 많이 걸리는데 이게 오히려 시뮬레이션 새로 돌리는 것보다 비효율적일 수 있다는 것입니다.
많은 sample efficiency 논문들이 있지만 이 논문들이 오히려 실제 사용할 때는 안좋다라고 하지만 현재까지도 그런 기조를 이어가고 있는지에 대해서는 더 확인을 해보아야 할 것으로 보입니다.
0 Comments