우리가 문서작업을 하다보면 워드파일 엑셀파일 한글파일 같은게 있을텐데
그 파일들 확장자들 보면 이런 식으로 뒤에 x가 붙는 경우들이 있습니다.

x가 뭘 의미하는지 아는 분들은 상당히 재밌는걸 해볼 수가 있습니다.
- 쓸데없이 큰 피피티 문서의 용량을 절반으로 줄일 수도 있고
- 워드 파일 100만개에 있던 표 내용들을 csv로 빠르게 추출할 수도 있고
- 엑셀 시트에 간단한 암호가 걸려있는 경우에는 강제로 해제도 가능합니다.
이제 그걸 AI 기능이라고 포장해서 팔면 1년 월급 10억씩 벌 수 있지 않을까요.
원리
그런 짓이 가능한 이유는
docx xlsx hwpx 같은 파일 확장자들은 실은 압축파일이랑 똑같습니다.

그래서 .docx 파일을 강제로 .zip 확장자로 바꿔본 다음에 압축을 해제해보면
이상한 xml 파일이랑 폴더들이 여러개 나오게 됩니다.

예를 들어 워드파일 압축을 풀어보면 이렇게 생겼습니다.
document.xml에 실제 글 내용이 들어있습니다.
media 폴더 안에는 사진들이 들어있습니다.
나머지 xml 파일에는 설정이 들어있습니다.

xml은 데이터를 html 느낌 비슷하게 저장할 수 있는 데이터 저장 형식입니다.
그래서 x로 끝나는 문서파일들은 보통 xml로 데이터가 저장되어있다고 보면 되겠습니다.
xml은 코드로 읽기가 굉장히 쉽기 때문에
- 문서를 코드로 조작하기
- 문서를 AI로 조작하기
- 문서를 다른 형식으로 변환하기
이런게 편리해집니다.
응용
그래서 이걸 알면 실생활에서 해볼 수 있는 잡기술도 있는데

1. 문서가 오류가 나서 안열리는 경우에는 확장자를 zip파일로 바꿔보시고
(윈도우는 폴더 메뉴 상단에 '보기' -> '표시' -> '파일 확장명' 눌러야 확장자 변경이 쉽습니다)
그 다음에 document.xml, sheet1.xml 이런 파일을 꺼내가지고
AI한테 붙여넣든가 해서 글만 꺼내달라고 하면 됩니다.
2. 워드, 한글, PPT파일에 박힌 이미지, 동영상들의 원본을 구하고 싶으면
그냥 .zip 파일로 바꿔서 media폴더 들어가보면 원본 그대로 꺼내올 수 있습니다.
3. 문서 용량 다이어트도 가능합니다.
PPT에 이미지와 동영상이 너무 많은 경우에는 media 폴더로가서
파이썬으로 이미지, 동영상 사이즈 축소하는 코드를 짜가지고 돌려본 다음에
다시 zip으로 압축해서 pptx확장자로 바꾸면 끝입니다.
4. 역으로 응용을 하면 비밀 파일도 몰래 media 폴더에 집어넣어가지고 워드파일을 만들 수도 있습니다.
그래서 인터넷에 있던 워드파일 엑셀파일 함부로 열지 말라는게 이런 이유입니다.
ARG 할 때도 쓸 수 있겠군요.

5. 엑셀파일에 있는 간단한 암호도 해제할 수 있습니다.
파일 자체에 걸린 암호들은 어쩔 수가 없는데
시트 단위로 걸린 암호 정도는 해제할 수가 있습니다.
xml 파일에서 protection 어쩌구 부분을 없애버리고 다시 zip으로 묶고 xlsx로 저장하면 됩니다.
자세한건 영상을 참고합시다.
그래서 시트 암호 같은건 그냥 서식고정용이지 보안용이 아닙니다.
6. 비슷한 워드파일이 100만개 있는데 거기 있는 표 데이터 100만개에 있던 내용을 전부 뽑고 싶으면
코드짜서 빠르게 뽑을 수가 있습니다.
왜냐면 서식이 서로 비슷하면 xml 구조도 비슷하니까
"여기있는 모든 워드파일들의 똑같은 위치에 있는 값만 뽑으라" 이렇게 코드짜면 되니까요.
7. 문서 변환기도 만들기 쉽지 않을까요.
인터넷에 있는 수상한 변환기 쓰는 것 보다 보안적으로 낫고
로컬에서 돌리니까 훨씬 빠르고
.json .md 같은 특이한 형식으로 뽑기도 가능하니까요.
코딩안해봐서 어떻게 만들지 모르겠으면 언제나 AI로 제작 시작해보면 되겠습니다.
결론

최근에 공공기관에서도 hwp를 금지한다는 기사가 있었는데
.docx .odt같은걸 쓰나 했더니 실은 hwp말고 hwpx로 저장하라는 정책이었습니다.
그럼 코드로 읽기도 쉽고 AI로도 읽기가 더 쉬워지기 때문에
앞으로 AI가지고 훨씬 업무 편하게 할 수 있게 되니까 강제한 것 같습니다.
그래서 앞으로
Klaude Code
Kodex
Kursor
이런 공공기관용 AI agent가 생겨가지고 그거 쓰기 시작할 각인데
그럼 유출위험도 늘어나고 그러지 않을까 싶습니다.






