반응형

전체 글 303

Karpenter consolidation 때문에 노드가 5분에 한 번씩 죽던 이야기

처음에 의심한 것들지난주 새벽 2시 반에 알람이 울렸다. P99 레이턴시 알람이었는데, 한두 번이면 그냥 무시하고 자고 다음 날 보겠지만 같은 알람이 5분 간격으로 계속 울렸다. 누워서 폰만 보다가 결국 노트북을 열었다.원인은 Karpenter였다. v1.0으로 올리고 한 달 정도 됐는데, 이 시점에 처음으로 큰 사고가 터졌다. 자려고 누웠다가 새벽 5시까지 깨어 있었던 그 밤 이야기를 정리해두려고 한다.알람이 P99 latency였으니까 당연히 애플리케이션을 먼저 봤다. 그런데 백엔드 트레이스를 까보니 응답 자체는 빠른데, 가끔 한 노드의 모든 파드가 동시에 사라지는 패턴이 보였다. terminated 이벤트가 5분에 한 번씩 떴다.처음엔 spot interruption인 줄 알았다. 우리 서비스 노드..

IT/AWS 2026.05.08

하루 물 얼마나 마셔야 할까? 올바른 수분 섭취와 탈수 신호

Photo by Clint McKoy on Unsplash기온이 점점 오르는 5월, 야외 활동이 늘면서 "하루에 물을 얼마나 마셔야 하나"라는 질문이 다시 떠오릅니다. 흔히 "하루 2리터, 8잔"이라고 말하지만, 사실 적정 수분 섭취량은 체격, 활동량, 식단, 날씨에 따라 달라집니다. 오늘은 권장 기준과 우리 몸이 보내는 탈수 신호, 그리고 일상에서 물을 잘 마시는 방법을 정리합니다.하루 권장 수분 섭취량, 정말 2리터일까?미국 국립의학아카데미(NAM)와 유럽식품안전청(EFSA)의 가이드를 종합하면, 일반적인 성인 기준으로 남성은 하루 약 2.5~3.5L, 여성은 약 2.0~2.7L의 총 수분이 권장됩니다. 중요한 점은 이 양이 "마시는 물"만을 의미하지 않는다는 것입니다.음료(물, 차, 커피 등): 전..

정보/건강 2026.05.08

EKS Pod Identity vs IRSA, 옮길지 말지

작년에 신규 EKS 클러스터를 띄우면서 한 가지 결정을 미뤘다. 워크로드 IAM을 IRSA로 갈지 Pod Identity로 갈지. 그때는 "어차피 둘 다 지원되니까 나중에 보자"고 미뤘는데, 올해 들어 클러스터가 4개로 늘어나면서 더는 미룰 수 없는 상태가 됐다.지난 두 달 동안 stage 환경 전체를 Pod Identity로 옮겨보고, prod의 일부 워크로드도 마이그레이션을 시작했다. 결론부터 말하면 우리 팀은 신규 워크로드는 전부 Pod Identity로, 기존 IRSA는 천천히 전환 중이다. 왜 그런 결정을 했는지, 어떤 케이스에서는 IRSA가 더 나았는지 정리해본다.비교의 배경: 우리는 어떤 환경이었나먼저 우리 팀 환경을 짧게 적어둔다. 비교 결과는 환경에 따라 다르게 읽힐 수 있어서다.EKS ..

IT/AWS 2026.05.08

유아 편식, 야단치지 않고 극복하는 7가지 실전 팁

Photo by Toa Heftiba on Unsplash"어제는 잘 먹던 당근을 오늘은 절대 안 먹어요." 24~36개월 자녀를 둔 부모라면 한 번쯤 해본 고민입니다.유아기 편식은 이상행동이 아니라 발달 과정에서 나타나는 매우 흔한 현상입니다. 보통 만 18개월 ~ 만 5세 사이에 정점을 찍었다가 학령기에 접어들면서 자연스럽게 완화됩니다. 하지만 매끼니 식탁이 전쟁터처럼 느껴진다면, 야단치고 밀어붙이는 방식이 아니라 아이의 발달 단계에 맞춘 전략이 필요합니다.1. 새로운 음식은 "10번 법칙"으로 접근한다연구에 따르면 어린이가 새로운 음식에 적응하려면 평균 8~15회의 노출이 필요합니다. 한두 번 거부했다고 해서 "이 아이는 ○○를 안 먹어"라고 단정 짓지 마세요. 한 입도 안 먹어도 식탁에 올리는 것..

정보/육아 2026.05.08

OpenTelemetry Collector 메모리 누수, 며칠 싸운 기록

지난주에 우리 팀 OpenTelemetry Collector 파드들이 갑자기 OOMKill 잔치를 벌였다. 평소 워킹셋이 1.2GB 정도였는데, 어느 날 새벽부터 4GB까지 치솟더니 limit(6GB)을 넘기고 죽기 시작했다. 트래픽이 갑자기 늘어난 것도 아니고 설정을 건드린 것도 아니었다. 그라파나 패널 보면서 "아 이거 또 시작이네" 싶었다.결론부터 말하자면 batch processor의 send_batch_size를 잘못 키운 게 시작이었고, 거기에 exporter queue가 백프레셔를 못 받아주면서 메모리가 무한정 쌓였다. 글 안에 다 풀어쓰겠지만, 비슷한 증상 보시는 분들은 일단 memory_limiter부터 위에 끼워두시는 걸 권한다.증상 — 처음 3시간 동안 본 것오전 5시 23분에 첫 페..

IT/모니터링 2026.05.08

꿀잠 자는 법: 오늘 밤부터 시작하는 수면의 질을 높이는 7가지 생활 습관

Photo by Nicole Bomar on Unsplash밤늦게까지 뒤척이다 새벽에 겨우 잠들고, 아침엔 알람 소리에 억지로 눈을 뜬 경험. 누구나 한 번쯤은 있죠. 잠은 단순한 휴식이 아니라 면역력, 기억력, 호르몬, 감정 조절까지 좌우하는 회복의 시간입니다. 미국수면재단(NSF)은 성인 기준 하루 7~9시간의 수면을 권장하지만, 정작 중요한 건 시간이 아니라 수면의 질입니다.오늘은 수면 전문가들이 공통적으로 강조하는, 누구나 오늘 밤부터 적용할 수 있는 7가지 습관을 정리했습니다.1. 매일 같은 시간에 자고, 같은 시간에 일어난다가장 기본이지만 가장 강력한 한 가지. 우리 뇌의 생체시계(circadian rhythm)는 규칙적인 패턴을 좋아합니다. 주말이라고 평일보다 2시간 이상 늦게 자거나 늦게 ..

정보/건강 2026.05.08

containerd image pull 흐름 — snapshotter와 unpack 단계 파헤치기

kubectl describe pod에서 Pulling image "..."가 한참 머물러 있을 때, 그 안에서 무슨 일이 벌어지고 있는지 정확히 설명할 수 있는 사람이 의외로 적다. 나도 그랬다. "registry에서 layer 받아서 디스크에 풀고 mount한다" 정도가 내가 가진 모델의 전부였다. 근데 작년 말부터 ARC runner들이 콜드 스타트에서 한참 깔리는 문제를 디버깅하면서, 이 흐름을 좀 진지하게 들여다봐야겠다는 생각이 들었다. fetch가 느린 건지, unpack이 느린 건지, snapshotter가 느린 건지 분리해서 보지 못하면 튜닝 포인트가 없다.이 글은 containerd 2.x 기준으로 image pull 한 번이 어떤 단계를 거치는지, 각 단계에서 무엇을 디스크에 쓰는지, ..

IT/컨테이너 2026.05.08

환절기 옷장 정리, 계절옷 보관까지 한 번에 끝내는 5단계

봄이 깊어지고 한낮 기온이 25도를 넘어서면, 옷장 앞에서 한참을 망설이게 됩니다. 두꺼운 니트와 반팔이 뒤섞여 있어서 옷 고르기에만 한참이 걸리고, "올해 안 입은 옷"이 어느새 옷장의 절반을 차지하고 있죠. 지금이 바로 옷장을 한번 갈아엎기에 가장 좋은 시기입니다. 무리하지 않고 부담 없이 끝낼 수 있는 5단계 정리법을 정리했습니다. Photo by Ars M on Unsplash 1단계 — 모든 옷을 일단 꺼낸다가장 효과적인 시작은 옷장에서 옷을 전부 꺼내는 것입니다. 한 번에 다 어렵다면 카테고리별로(상의 → 하의 → 아우터 순) 진행해도 좋습니다. 침대나 거실 바닥에 펼쳐 놓고 보면, 평소엔 안 보이던 중복 아이템과 사이즈가 안 맞는 옷이 한눈에 들어옵니다.시간이 부족하면 "오늘은 상의만"처럼 ..

정보/일상 2026.05.08

2026년 5월 8일 (금) 12간지 오늘의 운세

Photo on Pexels따뜻한 봄 햇살이 마음까지 데워주는 5월의 금요일이에요. 한 주를 마무리하는 오늘, 12간지 오늘의 운세를 띠별로 정리했습니다. 가벼운 마음으로 한 주의 끝과 주말의 시작을 이어가 보세요.🐭 쥐띠 (1972, 1984, 1996, 2008, 2020년생)오늘은 평소보다 직감이 잘 맞는 흐름이에요. 잠깐 떠오른 아이디어를 메모해 두면 주말에 좋은 실마리가 됩니다. 금전운은 잔잔하지만, 자잘한 지출을 합산해 보면 의외의 발견이 있을 수 있어요. 따뜻한 차 한 잔으로 한 주의 피로를 풀어 보세요.🐮 소띠 (1973, 1985, 1997, 2009, 2021년생)꾸준히 쌓아온 노력이 작은 인정으로 돌아오는 하루입니다. 동료나 가족의 칭찬에 기분 좋게 반응해도 좋아요. 애정운은 차분..

Redis Cluster slot migration 중에 P99이 4초까지 튄 새벽

지난주 화요일 새벽 2시 47분알림이 울렸다. 캐시 레이어 P99가 평소 8ms 수준에서 4초까지 튀었다는 것이다. 멘탈이 나갔다. 침대에서 노트북을 펴는데 손이 약간 떨렸다.원인은 Redis Cluster slot resharding이었다. 평소처럼 야간 저트래픽 시간대에 노드 두 대를 추가하고 슬롯을 옮기는 작업이 돌아가고 있었는데, 이게 그냥 평범하게 끝나지 않았다. 몇 시간 동안 로그와 메트릭을 뒤지면서 알게 된 것들을 정리해둔다.우리 환경24노드 Redis Cluster (마스터 12, 레플리카 12). EKS 위에서 StatefulSet으로 운영 중이고, 키 수는 약 1.2억개, 메모리는 노드당 평균 28GB. 샤드 수가 늘어 일부 노드가 메모리 한계에 다다라서 노드를 추가하기로 했다. 새 노..

IT/DB 운영 2026.05.07
반응형