원래 인터넷엔 코드 보여주고 니가 이해하라~식 강의들이 많아서 그렇습니다
동영상은 이미지를 1초에 30장 보여주는 파일형식일 뿐 어려운게 아닙니다. 그래서 그냥 이미지분류잘하는 모델만 있으면 됩니다
1. 이미지하나를 넣으면 이 이미지는 스쿼트일 확률 90% 이렇게 분류하는 딥러닝 모델을 만들어놓습니다 (전이학습으로 훔쳐옵시다)
2. 동영상의 모든 프레임을 이미지로 변환합니다. 2초분량이라면 60장 이렇게 나오겠네요. (이때 아마 opencv라이브러리 사용할걸요)
3. 60장을 전부 저 모델에 집어넣습니다 그럼 확률이 60개 나오겠죠?
이미지1은 스쿼트80퍼 걷기10퍼
이미지2는 스쿼트90퍼 걷기5퍼 .. 이렇게 쭉 60개나올듯요
4. 그걸 평균냅니다 그럼 뭐 스쿼트일 확률 85퍼 걷기7퍼 이렇게 나오겠죠 그럼 이 영상의 주제는 스쿼트로 판정해주면 됩니다
5. 스피드를원하면 영상의 모든 프레임을 집어넣지말고 몇프레임만 뽑아서 넣어봐도 될듯요?
아마 텐서플로우공식문서에도 비디오 분류 튜토리얼 있을 수도 있습니다
춤영상은 더 어려울 수 있는데 영상을 집어넣으면 레드벨벳빨간맛이다라는걸 알려주고 싶으면 일단 춤영상을 매우 많이 수집해야겠군요
그리고 춤은 연속동작이 중요합니다. A자세에서 B자세로 이동하면 빨간맛이고 A자세에서 C로 이동하면 cheer up이고 이런게 중요하니까 이미지를 cnn에 집어넣고 그 결과들을 차례로 lstm에 집어넣고 최종 확률을 뱉는 모델을 만들면 좋을듯합니다