실제 실험한 결과. 다른 영역에서 적용 할 때 더 재미있는 결과를 볼 수 있을 것 같아 환경을 이렇게 구성하였습니다. 더 환경 구성하기 쉬워서. 이 로봇은 4개 관절에 대한 torque 값을 action 으로 하고 몸체의 위치 속도 각 관절에 대한 정보 그리고 다리가 땅에 닿았는지에 flag 그리고 10개의 lidar 가 observation 에 포함되어있다.
중간중간 절벽처럼 reward 가 뚝 떨어지는 현상이 발생하고 아래와 같은 hardcore 지형에서는 학습이 잘 되지 않는 모습을 확인 할 수 있습니다. 기본적으로 전체 알고리즘을 논문과 똑같이 PPO 로 구성하였습니다. 이 때 결과는 다음과 같습니다. Normal 지형에서는 그래도 리워드 증가를 볼 수 있지만 hardcore 지형에서는 매우 불안정한것을 볼 수 있고 실제 시뮬레이션 결과도 그러합니다.
먼저 논문에서 나오는 리워드들을 적용해 보았습니다. 각각의 weight 들도 똑같이 적용하였고 tuning 은 전혀 하지 않았습니다. 이전 결과에 비해 안정적인 학습과 더 “보행“ 에 가까운 걷는 모습으로 앞으로 나아가는 것을 확인 할 수 있었습니다. 사람이 걷는 것 처럼 발이 교차하면서 걷지는 않았는데요. 이 리워드들이 결국은 사족 보행 로봇에서 나온 reward 이기 때문인 것으로 보입니다.
저 나름대로 reward 들을 고쳐가며 발을 교차하며 걷게 하려고 하기도 하였는데요. 성공하지는 못했습니다.
다음은 curriculum learning 입니다. 위에 결과에서 볼 수 있듯이 20000번 동안 hardcore 지형에서만 학습한 경우에서는 하드코어 지형을 넘어가기 위해 다리를 벌리는 등의 어느정도 학습이 되어가는 모습을 보여주지만 로봇을 어떻게 앞으로 보내는지 걷는 것에 대한 이해가 부족해 보입니다. 이를 curriculum learning 을 적용하면 이렇게 됩니다. 20000번 동안 앞에 10000번은 normal 지형에서 학습하였고 그 이후에 hardcore 지형에서 학습하였는데요 물론 객관적으로 학습이 잘 되었다고 말하기는 힘들지만 이전 hardcore 에서만 20000번 학습한 경우보다 더 좋은 모습을 보인 것은 흥미로운 결과라고 생각합니다.
이 연구는 4족 로봇이 고유 감각에만 의존하여 구조화되지 않은 지형을 횡단할 수 있도록 하는 강력한 4족 보행 프레임워크인 DreamWaQ를 소개했다. (DreamWaQ)는 기존 학습 기반 컨트롤러에 비해 향상된 성능을 보였으며, 약 10분 동안 언덕과 비정형 마당을 걷는 유니트리 A1 로봇에서 그 견고성을 입증다. DreamWaQ의 한계는 먼저 다리로 장애물을 부딪쳐야 하는 적응 메커니즘에 있습니다. 고층 계단과 같은 보다 복잡한 구조를 다루는 것은 장애물 접촉 전 향상된 보행 계획을 위해 외측 감각을 운동 시스템에 통합해야 할 것으로 보고있다고 한다.
0 Comments