PGR21.com
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2021/10/30 00:38:42
Name 아케이드
Link #1 https://news.naver.com/main/read.naver?mode=LSD&mid=shm&sid1=105&oid=016&aid=0001906015
Subject [일반] KT 기간망 사고의 원인 (수정됨)
“야간에 작업을 하는 것을 좋아하는 사람은 없어서 주간에 진행한 것으로 파악했다”며 “KT측과 협력업체의 합의에 의한 것”

.......

오류 여부를 사전에 발견하기 위한 가상 테스트베드도 부재했다는 지적에 대해선 KT는 “현재 우면동 KT 연구개발센터에서 테스트베드를 운영하고 있다”며 “해당 테스트베드는 실제 환경과 동일하게 적용된 모델실로, 연동 사전에 네트워크 작업의 안정성을 확인할 수 있는 기능을 가지고 있다”고 설명했다.

그러면서 “해당 테스트베드는 현장까지 확산되지 않았으나, 이번 일을 계기로 전국 단위로 적용해 이와 같은 장애가 재발하지 않도록 만전을 다하겠다”고 강조했다.


-----------------------------------------------------------------------


KT 기간망 사고가 발생한 이유가 구체적으로 밝혀졌네요.

직접적인 원인은 커맨드 미스인데요. (exit를 빼 먹었답니다)

인간이 하는 작업이니만큼 휴먼에러는 발생하기 마련입니다.

그러니, 언제나 휴먼에러가 발생할 수 있다는 것을 염두에 두고,

그것을 최소화시키기 위한 테스트, 결재 시스템

그리고 그것이 발생했을 때 보완 혹은 완충시킬수 있는 시스템이 필요한 것이죠

그런데, 위 기사를 보면 아래와 같은 시스템적 문제점이 드러났습니다.


1. 지금까지 현장에는 테스트베드가 없었다.

즉, 국가 기간망 작업을 하면서 테스트도 안해보고, 바로 실환경에 적용했다는 얘깁니다.


2. 야간작업 하기 싫어서 주간에 했다.

그렇죠 야간 작업은 누구나 하기 싫죠.
그럼에도 불구하고 야간에 하는 건 이런 상황이 발생했을때 피해를 최소화하기 위함이란걸 몰랐을까요?
한마디로 상식이 없거나, 자기들 편하자고 상식을 거스르는 짓을 했네요


저런 한심한 기업이 국가 기간망을 책임지고 있다는 사실에, IT업계에 일하는 사람의 한 사람으로서 자괴감이 들 정도입니다.

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
CastorPollux
21/10/30 01:10
수정 아이콘
바로 실환경에 적용 덜덜덜 지금에서야 터진 게 용하네요....
재가입
21/10/30 16:57
수정 아이콘
사회생활 10년차정도 됐는데, 처음 사회생활 시작하고 점점 알아가면서 놀란부분이 그런 것들이었어요.
아니 이걸 이렇게 한다고? 아니 그런데 이게 일단 돌아가고 있다고? 터지면 어쩌려고 저러지? 흐흐...
정말 아슬아슬하게 안터질 정도의 선만을 지키며 운영되는 것들이 많을 것 같아요. 그러다가 터지면 재수 없었네...생각하는거고...흐흐
21/10/30 01:13
수정 아이콘
현장 테스트베드가 없었다는게 놀랍네요.
규모 얼마 이상의 사업은 반드시 구비해야 하는거 아니었나?
아케이드
21/10/30 01:16
수정 아이콘
그러게요. 어떻게 지금까지 저런 상태였는 지 자체가 이해가 안가긴 하네요.
덴드로븀
21/10/30 01:23
수정 아이콘
부산이라는 이유가 좀 큰게 아닌가 싶습니다.
중간중간 문제가 터졌을때도 부산내부적으로만 잠시 에러가 나는 정도였을테니
직원이나 관리자나 오전에 한다고 뭐 큰일나겠어? 하면서 여태까지 매뉴얼대로 안하고 대충대충 한게 아닌가 싶은...
초현실
21/10/30 01:19
수정 아이콘
궁금한게 저 협력업체 미래는 어떻게 될까요..? 이정도면 계약파기도 가능할까요
아케이드
21/10/30 01:22
수정 아이콘
계약파기 정도가 아니라 해당 업체에 손해배상 소송 걸수도 있겠죠.
덴드로븀
21/10/30 01:24
수정 아이콘
그러면 안되는게 이건 KT 관리 책임 100% 라고 볼 수 있는 문제라 협력업체 조진다고 하면 여론이 엄청 안좋아질겁니다.
KT 사장이 모가지 내놓을 생각이 아니라면 공식적인 대응은 안할거라고 봅니다. 문제는 해당 회사 입장에서 알아서 안길래야 안길수가 없다는거겠죠.
F1rstchoice
21/10/30 01:20
수정 아이콘
뉴스보면 협력업체 직원이 커맨드를 누락했다고 나오던데
상식적으로 전국망 라우팅 작업을 협력업체에 100% 맡길리가...있나?

암튼 진실은 kt만이 알고있겠죠 크크크
아케이드
21/10/30 01:21
수정 아이콘
기사에도 나오지만, KT직원이 합의했다고 하는 걸 보니, 관리소홀 혹은 방치인 듯 합니다.
덴드로븀
21/10/30 01:27
수정 아이콘
분석된걸 보니 전국망에 하려고 한게 아니라 부산에서만 한건데
오전에 하다보니 네트워크 고립도 안하고 그냥 한게 하필 모든망에 빠르게 전파가능한 설정을 건드린거라 초대형 사고가 나버린거죠.

저런 설정 입력 작업들은 협력업체가 하는게 대부분일겁니다.
21/10/30 15:03
수정 아이콘
블라인드 였던가에 올라왔던 글에도 보면 하청업체 직원이 했을거란 KT 직원의 글이 있던. 이유가 KT 직원은 그런거 할줄 모른다고. 덤으로 작은 사고면 크게 책임을 지게 하겠는데 이 정도 급에서 아래에 크게 책임을 지게하면 윗선도 같이 지게 되니 대충 넘어갈거란 내용도 있던 것 같네요.
덴드로븀
21/10/30 01:33
수정 아이콘
(수정됨) https://www.msit.go.kr/SYNAP/skin/doc.html?fn=0fcac17d6b390c0ecd4a795b3ebe9577&rs=/SYNAP/sn3hcv/result/
[과기정통부, 케이티(KT) 연결망(네트워크) 장애 원인분석 결과 발표]
정식 보도자료입니다.

작업자의 작업내역을 확인한 결과, 사고발생 라우터에 라우팅 설정명령어 입력과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 [‘exit’ 명령어를 누락]했으며, 이로 인해, BGP 프로토콜에서 교환해야 할 경로정보가 IS-IS 프로토콜로 전송되었다.
- 통상 1만개 내외의 정보를 교환하는 IS-IS 프로토콜에 수십만개의 BGP 프로토콜의 정보가 잘못 전송되면서, 라우팅 경로에 오류가 발생하게 되었다.

이러한 라우팅 경로에 발생한 오류는 다음과 같은 경로로 전국적으로 확산된 것으로 분석되었다.
1. IS-IS 프로토콜 내의 라우터들은 상호간의 정보 최신화를 위해 자동으로 데이터를 주고받는데, 부산 지역라우터에 잘못된 라우팅 경로가 설정된 이후, 다른 지역의 IS-IS 라우터 등에도 잘못된 업데이트 정보가 전달되었다.
2. KT 네트워크 내에 있는 라우터들을 연결하는 IS-IS 프로토콜은 잘못된 데이터 전달에 대한 안전장치 없이 전국을 모두 하나로 연결하고 있고,
3. 결국 한 개 라우터의 잘못된 라우팅 경로 업데이트가 전국의 라우터에 연쇄적으로 일어나서 장애가 전국적으로 확대되었다.

<기술적 문제점>
1. (사전검증) 우선 사전검증 단계에서 오류를 파악하지 못했다.
- 라우팅 작업계획서상의 라우팅 설정 명령어 스크립트에서 IS-IS 프로토콜을 종료하는 ‘exit’ 명령어가 누락되었으나 [스크립트 작성과정 및 사전 검증 과정에서 발견하지 못했다.]
- 1, 2차에 걸친 사전검증 단계가 존재했으나, [사람이 직접 검토하는 체계이기 때문에, 오류를 발견하지 못했다.]
2. (시뮬레이터 및 오류의 확산 방지) 또한, 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 [가상 테스트베드가 없었고],
3. [지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재]하였다.

총체적 난국이 부른 대참사였습니다.

그리고 사건 초기에도 의심이 들었던건데 결국 BGP로 인한 사고였고, 이건 이전에도 전세계적으로 일어난적 있는 문제였습니다.

https://www.boannews.com/media/view.asp?idx=80296
[실제 사례로 풀어본 BGP 유출의 정의와 위험성] 2019-06-11
2018년 11월 12일, 나이지리아의 작은 ISP(인터넷 업체)가 네트워크 인프라를 업데이트 하다가 실수를 저질렀다. 그러면서 인터넷이라는 이 거대한 시스템이 얼마나 유약하고 깨지기 쉬운지가 드러났다. 아프리카에 있는 작은 업체의 실수 하나가 구글을 74분 동안 마비시켰으니 말이다.

http://it.chosun.com/site/data/html_dir/2021/10/06/2021100601589.html
[페북 먹통 원인으로 지목된 'BGP 뭐길래'] 2021.10.06
지난 4일 전 세계적으로 발생한 페이스북, 인스타그램, 왓츠앱의 접속 장애 원인으로 BGP(Border Gateway Protocol)가 지목됐다. 다소 생소하게 들리는 BGP란 무엇인가. 더버지가 5일(현지시각) BGP가 왜 페이스북의 접속 장애를 일으킨 원인으로 지목됐는지에 대해 전했다.
아케이드
21/10/30 01:39
수정 아이콘
(수정됨) KT의 시스템상 그냥 언젠가는 일어났어야 할 일이 이번에 일어난 거라고 봐야겠네요
살려줘
21/10/30 11:32
수정 아이콘
[실수에 대비한 시스템 부재]가 근본원인 인데 'EXIT을 안썼다', '야간작업 안했다' 로 도배되는거 보니 저 회사는 글렀습니다. 저 정도 관리도 안되는 회사가 무슨 기관망을... 사람이라면 누구나 실수를 하니까 당연히 대비책이 있어야 하는데 실수한 사람만 독박쓰는 시스템에서 누가 일하려 합니까
아케이드
21/10/30 12:15
수정 아이콘
동감입니다
21/10/30 13:25
수정 아이콘
???: Move fast and break things
김재규열사
21/10/30 13:26
수정 아이콘
2번은 솔직히 금융치료 하면 해결 가능한 문제 아닌가요? 그래도 북한 탓하지 않은걸 보면 KT도 조금씩 성숙하긴 하나 봅니다
아케이드
21/10/30 13:33
수정 아이콘
처음에는 디도스 탓 하긴 했죠 크크
21/10/30 15:15
수정 아이콘
탓하다가 걸렸죠...
군림천하
21/10/30 18:01
수정 아이콘
무한루프???
지구돌기
21/10/30 18:45
수정 아이콘
보통 같은 IT라고 어플리케이션과 비슷하게 생각하는 경우가 많은데, 인프라 시스템은 테스트베드를 구성하기가 쉽지 않습니다.
마치 고속도로를 건설하고 유지보수를 하는데, 테스트베드로 같은 고속도로를 하나 더 만들어야하는 식이어서요.
모형 고속도로를 만들고 거기서 여러가지 시험을 할 수는 있겠지만, 그것도 한계가 있는거죠.

가상 혹은 랩 상의 테스트베드에서 검증하는 것도 기반 기술이나 망 디자인 같은 건 검증이 가능하나, 이번 장애처럼 실제 장비 적용하는 command line 레벨에서 오류가 발생한 것은 현실적으로 검증하기 쉽지 않습니다.
장비 벤더, 기종, 들어가있는 HW 모듈, 라인 구성에 따라서 최종 commad line이 다 달라지거든요.
아케이드
21/10/30 18:58
수정 아이콘
KT의 해명에 띠르면, 이미 그런 시설이 있는데 현장에 적용하지 않았다는 것이라서 말이죠
지구돌기
21/10/30 19:05
수정 아이콘
해당 보고서를 봤는데, 시뮬레이션 시스템이라고 되어 있고 가상화 기반의 망 시뮬레이션 시스템일겁니다.
오픈소스나 벤더에서 제공하는 솔루션들들이 있고, 요새는 대부분의 장비 OS가 VM 버전으로 나와서 가상화 가반으로 돌릴 수는 있습니다.
실제로 교육이나 개인 학습, 망 디자인 검증 등에는 활용하고 있고요.
그런데, 실제 작업에는 활용하기가 쉽지 않은 것이 실제 작업할 장비와 command line 레벨에서 같게 만들기가 어렵거든요.

이번 장애는 적용 기술이나 디자인적인 문제가 아니라, 장비에 실제 적용해야할 command가 한줄이 빠진 것이 문제인데, 이런 식으로 해당 장비에 적용할 command line 한줄 한줄의 오류를 검증하기가 쉽지 않다는 겁니다.

하지만, 장애 보고나 대책 문서에는 해결책을 적어야하니 저걸 해결책의 하나로 적어놓았을 것이고, 대부분의 관련 업계에서도 저런 시스템을 통해서 검증하겠다 라고 하긴 할겁니다.
여하튼 효과가 아예 없는 것은 아니고, 보고받는 윗분들이 보기에 납득할만한 대책이니까요.
아케이드
21/10/30 19:14
수정 아이콘
말씀대로라면 실적용 전에 데스크에서 걸러내는게 최선이라는 건데
그러기에는 KT에는 그걸 할만한 인력이 없는 걸로 아는데 말이죠
결과적으로 KT는 국가 기간망을 책임질 자격이 없는 회사라는 거군요
지구돌기
21/10/30 19:26
수정 아이콘
KT에 그걸 할만한 인력이 없진 않을겁니다. 말이 많아도 우리나라에서 KT 정도 규모의 망을 운영하는 회사가 몇 없으니...
인프라쪽, 특히 네트워크쪽은 거의 다 실무에서 배울 수 밖에 없는 분야라서요.
그정도 규모의 인프라를 운영하면서 얻는 경험과 노하우는 밖에서는 배우고 싶어도 배우기가 어렵거든요.
문제는 라인 한줄 한줄을 사람이 들여다보면서 인적 실수를 없게 만드는 것이 어려운거죠.
이오니
21/10/30 20:31
수정 아이콘
BGP 특성상 일단 전파되면....
바로 조치를 취한다고 해서 해결되는 건 아니니까요.

실제 엔지니어가 문제 발생 인식은 1분이내였슬 겁니다.
멜론찹쌀떡
21/10/30 22:13
수정 아이콘
그냥 KT 팔던지 쪼개던지 해체해줬으면 좋겠습니다.
바닷내음
21/10/30 22:14
수정 아이콘
보통 저런 작업은 새벽에 하고 다음날 대체휴가를 받는게 정석인데?
루크레티아
21/10/30 22:48
수정 아이콘
언제는 디도스라매 크크크크
돈벼락
21/10/30 22:56
수정 아이콘
결국 대충하려다 발생한 문젠데 그냥 이러고 넘어가나요?
아케이드
21/10/30 23:07
수정 아이콘
분위기 보니 갓중경고로 끝날거 같긴 한데 어떠려나요
21/11/02 11:04
수정 아이콘
실무자, 관리자도 알고 있죠. 문제가 있다는걸. 그리고 실무자가 백날 문제 있다고 개선해야한디고 올려도 지금도 잘 하는데 왜? 로 묵인하다 결국 터져야 바꾸는 개떡같은 문화
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
94244 [일반] 내년부터 자동차 우회전 단속/처벌이 변경된다고 합니다. [188] 라이언 덕후21090 21/12/03 21090 3
94242 [정치] 권성동 "윤석열, 이준석 만나러 제주 안 간다" - 긴급선대위 회의 소집 [241] 카루오스22404 21/12/03 22404 0
94241 [일반] z플립3 성지(?) 개통 후기 입니다. [63] 설탕가루인형형17327 21/12/03 17327 3
94240 [정치] 다음주부터 적용되는 거리두기 [71] 유지어터14826 21/12/03 14826 0
94239 [일반] 충격적인 음주운전 사건이 일어났습니다 [106] 착한글만쓰기18911 21/12/03 18911 9
94238 [일반] . [14] 삭제됨8865 21/12/03 8865 0
94237 [정치] 윤석열이 진짜 대단하다고 생각하는 이유 [120] 스토리북22275 21/12/03 22275 0
94236 [정치] 오늘 윤후보 행보와 이준석 대표에 대한 생각 예측 [23] 한사영우12402 21/12/03 12402 0
94234 [정치] 조동연은 물러나고, 이수정은 날릴까 아니면 끝까지 품을까 [76] 오곡물티슈21359 21/12/02 21359 0
94233 [정치] 이준석: 당대표는 대선후보의 부하가 아니다. [352] 행복의시간29856 21/12/02 29856 0
94232 [일반] WTA(여자 테니스 협회)에서 중국에서 열릴 예정인 대회를 전면 보류한다고 합니다. [18] 미원12017 21/12/02 12017 2
94231 [정치] 2030남자는 왜 이준석에게 스스로를 대입시킬까. [203] 헤후23780 21/12/02 23780 0
94230 [일반] 80%가 사라진 미 해군, 침몰한 해군이 다시 살아난 전쟁 [17] 오곡물티슈14910 21/12/02 14910 36
94229 [정치] 이재명, 조동연 사생활 논란에 “국민 판단 지켜보겠다” [136] 묻고 더블로 가!21384 21/12/02 21384 0
94228 [정치] 4.7 재보선 결과로 본 정확한 여론조사 기관과 대선 여론조사(11월말) [27] 호가든12513 21/12/02 12513 0
94227 [정치] 이재명, 첫 골든크로스 [219] 바둑아위험해21047 21/12/02 21047 0
94226 [일반] 미시간의 학교에서 총기사건이 발생했네요. [22] 랜슬롯16102 21/12/02 16102 0
94225 [일반] 굳건함. [9] 가브라멜렉9076 21/12/02 9076 22
94224 [일반] [직장생활] 요즘 시대의 좋은 직장이란? [45] 라울리스타15138 21/12/01 15138 9
94223 [일반] 우리나라도 첫 오미크론 감염자가 나왔네요.. [93] 대장햄토리20962 21/12/01 20962 0
94222 [정치] '의사' 안철수 "지금 당장 전면 입국금지해야: [69] 호옹이 나오20028 21/12/01 20028 0
94221 [일반] 로마군의 아프가니스탄: 게르마니아 원정 [57] Farce17530 21/12/01 17530 59
94220 [정치] 이재명 35.5%-윤석열 34.6%..오차범위 내 초접전 [264] wlsak25984 21/12/01 25984 0
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로