728x90

www.bookjournalism.com/news/23759

 

설문: 동 전체가 금연 구역…피울 권리 vs. 피할 권리 — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠

서울 서초구가 2일 양재동 전체를 금연 구역으로 정했다. 동 전체가 금연 구역으로 지정된 건 전국에서 처음이다. 대신 바닥에 라인을 그어 흡연 구역 15곳을 만들었다. 이곳을 제외하고 담배를

www.bookjournalism.com

 갈수록 흡연 구역이 줄어들면서 최근에는 일명 '길빵'을 하는 사례는 많이 줄어든 것이 길을 가다 보면 확실히 느껴지는 바가 있다. 그럼에도 이번 양재동의 사례는 아직까지도 도보 중 흡연행위를 하는 등 다른 비흡연자에게 피해를 주는 사례가 눈에 띈다는 것을 의미할 것이다.
 비록 나는 비흡연자지만 흡연자들에게는 꽤나 서운할 만한 소식이 될 것 같다. 흡연자들이 이러한 상황에 억울함을 토로한다면 '그럼 끊으면 되지 않느냐'라는 식으로 돌아오니 할 말 없는 상황의 반복이다. 적어도 흡연 구역과 비흡연 구역을 최대한 동등하게 나눠야 할 필요가 느껴진다. 아직도 이런 일들이 논란이 되는 것은 흡연자들의 필요가 충족되지 못했음을 의미한다고 생각한다. 물론 흡연을 시작했다 다시 비흡연으로 돌아가는 이들을 지원하는 것 역시 중요하지만, 정말 더 필요한 것은 흡연자들이 낸 세금이 그들을 위한 공간으로 돌아가는 것 아닐까?


www.bookjournalism.com/news/23833

 

공공 배달의 민족 가능할까 — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠 커뮤니티

공공 배달 앱에 대한 관심이 뜨겁다. 지난 10일 경기도는 공공 배달 앱 배달특급 의 가맹 신청률이 초기 목표치의 151퍼센트를 달성했다고 밝혔다. 공공 배달의 필요성에 소상공인들이 크게 공감

www.bookjournalism.com

시도 자체는 나쁘지 않다고 보는 것이, 분명히 사기업 플랫폼의 수수료는 소상공인들에게 부담이 될 수밖에 없는 문제이다. 체크카드 대신 지역화폐나 제로페이가 등장하는 것처럼 강력한 기능 위주의 사기업 플랫폼이냐, 혹은 경제성이 중시되는 공공 플랫폼을 이용할 것이냐의 선택지가 주어진다면 다른 의미로 시장에 활력을 불어넣어 줄 수 있지 않을까 하는 기대를 하고 싶다.
 하지만 이러한 공공 배달앱에 우려를 넘어 기대 자체를 하지 않게 되는 현상은 지금까지 '공공'이 붙은 프로젝트가 제대로 된 케이스를 찾기 힘들다는 점과, 결국 세금으로 운영되는 일들이 눈먼 돈 취급되어 사기업 제품에 비해 현저히 떨어지는 결과물로 나타난다는 점에 원인이 있을 것이다. 어쩌면 공공 사업을 운영하는 이들이 만들어낸 업보일 수밖에 없다고 생각한다. 시장에 참여하게 된 시점에서 공공 어플리케이션 역시 시장의 경쟁자이다. 단순히 '세금빨'로 안일하게 운영하려 들지 말고, 정정 당당하게 소비자를 끌어들일 수 있는 편리한 접근성을 제공할 수 있길 기대하고 싶다.

728x90
728x90

www.bookjournalism.com/news/23657

 

영원히 나이 들지 않는 아이돌 — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠 커뮤니티

인공지능(AI) 아이돌이 등장했다. SM엔터테인먼트는 4인조 걸그룹 에스파( spa) 가 17일 정식 데뷔한다고 밝혔다. 현실 세계의 인간 아이돌과 이들의 아바타인 가상 세계 아이돌이 함께 활동하게 된

www.bookjournalism.com

3D 기술과 모션 캡처가 발달하면서 가상 아이돌의 존재는 자연스럽게 예상될 수 있다. 실제로 현재 인스타 등지에서 모델로 활동하고 있는 가상 모델의 사례를 어렵지 않게 찾아볼 수 있다. 노동력이 산업용 로봇으로 대체되었듯, 어쩌면 가장 이상적인 아름다움을 구현할 수 있는 캐릭터로 대체되는 것 역시 기술에 따른 흐름일 수도 있을 것이다.
 다만 이와 별개로 SM의 에스파 데뷔는 다소 우려스러운 점이 크다. AI라면 AI대로, 현실 아이돌이라면 아이돌대로 별개로 둘 수 있는 것을 왜 굳이 엮으려고 했을까 싶다. 가상 캐릭터는 현실의 사람에 비해 소비될 수 있는 이미지의 가능성이 무궁무진하다. 그것이 긍정적이든, 부정적이든 말이다. 아바타가 부정적인 쪽으로 소비되는 것을 SM은 어떻게 관리할 수 있을까? SM 아이돌의 인기와 프로듀싱 능력은 인정하지만, 최근 좋지 않은 사례들을 보면 사람에 대한 관리 능력을 보면 이번 아이돌 역시 현재 컨셉을 오래 유지하기는 쉽지 않을 것으로 보인다.

 


www.bookjournalism.com/news/23670

 

20분만 주세요, 서울에서 부산 가게 — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠 커뮤니티

비행기보다 빠른 열차에 오르게 될 날이 가까워졌다. 지난 8일 초고속 진공 열차 하이퍼루프 개발사인 버진 하이퍼루프 가 유인 시험 주행에 성공했다. 일론 머스크가 2013년 하이퍼루프 개념을

www.bookjournalism.com

이동 시간을 단축하고자 하는 시도는 언제나 계속되어 왔다. 한때 전 세계를 하루 생활권으로 들이고자 하는 콩코드의 시도가 그 멋진 예 중 하나일 것이다. 아마 최근 가장 빠른 이동속도를 갖는 교통이 고속철과 비행기 정도를 들 수 있을텐데, 오랜만에 그 벽을 깨부수는 새로운 교통이 등장한 듯해 몹시 반가운 마음이다.
진공 터널 사이를 주파하는 하이퍼루프의 특성을 생각해보면 해저 지하철의 등장을 기대해보고 싶어진다(천문학적 비용은 둘째치고...). 다만 그만큼 고속으로 움직이는 점과, 아무래도 정교한 설계가 뒷받침되어야 한다는 점을 생각하면 가능한 사고 없는 시스템을 만들어야 하는데 이 부분이 어떻게 보장될 수 있을지 의문이 든다.

728x90
728x90

www.bookjournalism.com/news/23471

 

팔러를 팔로하는 미국 보수 — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠 커뮤니티

미국 대선 이후 팔러(Parler) 라는 이름의 SNS를 사용하는 사람이 크게 늘고 있다. 11일 현재 미국 내 앱 다운로드 1위다. 도널드 트럼프 대통령의 지지자 등 보수 성향 이용자에게 인기가 높은 덕분

www.bookjournalism.com

소설 '멋진 신세계' 에서 작가 헉슬리가 두려워한 사회가 너무 정보가 넘쳐나 진짜 중요한 정보에 관심을 갖지 않는 시대가 오는 것을 두려워하게 되었다는 내용을 본 적이 있다. 인터넷이라는 공간에서 자유로운 의견은 그 무엇보다 중요하다는 것은 명백한 사실이다. SNS 공간에서 자신의 의견을 피력하는 것 역시 자유로이 이루어질 수 있다. 하지만 의도적이고 교묘한 거짓 주장으로 피해를 보는 일이 나타나는 것은 피해야 할 것이다.
 언론 기관이 신뢰를 잃게 되는 가장 큰 원인은 SNS 못지 않은 가짜 뉴스 양산도 있지만, 자신들의 잘못을 확실히 바로잡는 모습을 보여주지 않았다는 점도 한몫 했으리라 본다. 누구나 실수는 할 수 있다. 세상에 내 주장을 피력하기 위한 근거가 잘못된 내용일 수도 있다. 거기서 잘못을 인정하는 자세가 개인과 프로를 구분하는 근거라고 생각한다. SNS 찌라시와 언론의 신뢰도가 크게 차이나지 않게 된 점은, 최근 언론의 오보에 있어 스스로를 검증하고 오보에 대한 적극적 수정 의지를 보이지 않았음이 크다고 생각한다.
 개인의 주장 역시 그 영향력이 약할지언정 잘못된 정보에 기반했다면 스스로 수정하고자 하는 자세가 필요할 것이다. SNS 기업들이 가짜 뉴스를 삭제하러 다니기 시작한 것은 자신들이 운영하는 플랫폼 내에서 무분별한 가짜 정보로 인한 피해가 발생하는 일이 없도록 하기 위한 방위 조치라고 볼 수 있을 것 같다.
 이런 상황에서 오히려 자기 주장의 자유를 강조하는 팔러의 등장이 이상할 일은 아니다. 하지만 자유를 추구하다 오히려 방종의 위치에 들어서지는 않을지, 조심스럽게 지켜볼 필요는 있으리라 생각된다.


www.bookjournalism.com/news/23477

 

좋은 약관이군요, 물론 읽지는 않았습니다 — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠 커뮤니티

틱톡, 줌 등 인기 애플리케이션들의 약관을 읽는 데 시간이 얼마나 걸릴까. 영국에서 가장 많이 다운로드된 13개 서비스의 약관을 모두 읽는 데 17시간이 걸린다는 분석이 나왔다. 해리포터 소설

www.bookjournalism.com

이용 약관은 이용자와 플랫폼 간의 일종의 계약과 같은 만큼, 가능하다면 세세하게 정의될수록 양 측 모두에게 이로운 점이 있을 수는 있다. 하지만 어려운 단어와 복잡한 내용으로 구성된 장황한 약관 구성은 결국 읽는 이에게 피로를 느끼게 할 뿐이다. 가능하다면 이용에 반드시 참고해야 할 핵심적인 약식 약관을 별도로 참조하는 것도 좋지 않을까?

728x90
728x90

www.bookjournalism.com/news/23338

 

누가 먼저 맞아야 할까 — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠 커뮤니티

미국 제약 회사 화이자와 독일 바이오엔테크가 함께 개발하고 있는 코로나19 백신의 예방 효과가 90퍼센트 이상이라는 중간 결과가 나왔다. 최종 결과를 기다려야 하지만 일반 독감 백신이 감염

www.bookjournalism.com

 모든 것에 앞서 먼저 백신이 부디 효과를 바라기를 기대하고 싶다. 한정된 자원을 어떻게 효율적으로, 그리고 사회적 합의가 가능하도록 분배할 것인가를 고민해야 할 시기가 왔다는 것 자체가 매우 다행인 소식이라고 생각한다. 
 일단 최우선 접종 대상이 되어야 할 이들은 코로나 확진자에 대응하는 의료진이 되어 야할 것이다. 다만 그 이후의 접종 순서는 어떻게 되어야 할 지 많은 고민과 논의가 필요할 듯하다. 사망률이 높은 노년층이 우선이 되어야 할지, 아니면 사회적 참여율이 높은 이들이 우선되어야 할지... 단순히 구분할 것이 아닌 그 시기의 감염 확률을 분석해서 배분하는 쪽이 가장 좋지 않을까 싶다.


www.bookjournalism.com/news/23340

 

인구 조사, 시대를 말한다 — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠 커뮤니티

5년마다 시행되는 통계청 인구 주택 총조사가 마감을 일주일 앞두고 있다. 올해 조사에서는 1인 가구와 반려 동물 관련 질문이 새로 등장했다. 일부에서는 사생활 침해 문제도 제기한다. 핵심 요

www.bookjournalism.com

 인구 조사가 단순히 가구 구성원만을 조사하는 사업인 줄 알았는데, 인구 조사라기보다는 어쩌면 생활상 그 자체를 알아보고자 하는 조사라는 것을 처음 알게 되었다
 사생활 침해 논란에 대해서는 어쩔 수 없다는 생각도 드는데, 국민의 생활 방향을 상세히 알 수록 포괄적인 정책 수립 방향에 도움이 될 수 있으리라 생각되기 때문이다.
 10개 국어로 번역되어 조사되는 점에서 우리나라의 다문화성이 그만큼 높아졌구나 하는 생각을 할 수 있었다. 5년 후 인구 총조사는 어떻게 변화하게 될 지, 호기심과 기대를 같이 하게 되었다.

728x90
728x90

www.bookjournalism.com/news/23245

 

대통령만 있었던 건 아니다 — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠 커뮤니티

이번 미국 대선의 승자는 조 바이든 대통령 당선인만이 아니다. 대선과 함께 미국 의회 상원 100석 가운데 35석, 하원 전체 435석에 대한 선거도 치러졌기 때문이다. 일부 주에서는 법안에 대한 주

www.bookjournalism.com

 다양한 방면의 선거가 한번에 치러진 만큼 결과를 확인하는 묘미도 있는 것 같다. 가장 당혹스러운(?) 뉴스는 역시 대마의 합법화. 물론 서양 국가의 경우 상대적으로 개방된 면이 있어 유해성이 상대적으로 덜한 약물에 대해 그나마 규제가 덜한 면은 있지만. 역시나 저래도 괜찮을까...? 하는 생각은 여전히 들기 마련이다.
 플랫폼 기업과 노동자 사이의 견제는 앞으로도 계속되지 않을까 싶다. 플랫폼 기업과 직접적인 계약이 있는 노동자라기에는 유연하지만, 또 자영업자라는 타이틀로 방치해두기에는 기업과 이용자 간의 갈등 문제를 속시원히 해결하기엔 요원한 점이 있다. 이 부분도 어찌 보면 규제가 기술을 따라가지 못하는 사례라고 볼 수도 있지 않을까?
 의원 선거 결과에서는 현실이 어떻든 다양성을 점차 인정하는 방향으로 변화는 모습이 미미하게나마 그려지는 것 같다. 그렇기에 언젠가 무지갯빛 깃발이 사라지는 날이 다가오면 좋겠다. 동성애자, 여성, 인종의 다름에 굳이 눈길을 주지 않고 당연한 '미국인', '한국인'이라는 하나의 공동체로 포용할 수 있는 날이 언젠가 오기를 기대하고 싶다.


www.bookjournalism.com/news/23247

 

미국을 다시 위대하게 — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠 커뮤니티

내년 1월 들어설 조 바이든 행정부의 정책 방향은 트럼프 뒤집기 다. 바이든 미국 대통령 당선인은 8일 승리 선언 연설에서 미국의 정신을 다시 회복하자 고 강조했다. 핵심 요약: 바이든 대통령

www.bookjournalism.com

'미국을 다시 위대하게', 트럼프의 선거 당시 세계의 경찰에서 세계를 앞서가는 미국을 만들겠다며 내세운 구호이지만, 어찌 보면 이 구호는 국민을 대표해 나타나는 민주정이 명심해야 하는 구호라고도 할 수 있을 것 같다.
 국회의원은 국민을 대표해 국가를 운영하는 이들이다. 그렇기에 그들이 가장 명심해야 할 것은 이 나라를 가장 위대한 - 자세히 말하자면 '살기 좋은' - 나라로 만드는 것이라고 할 수 있겠다.
 '어떻게' 위대한 나라를 만들 것인가? 를 설명하는 것이 각 당이 갖는 성향일 것이다. 누군가는 복지를, 누군가는 경제를 부르짖듯이 말이다. 트럼프는 세계의 경찰 역할을 거두고 미국 우선주의를 택하였고, 바이든은 이번 당선에서 최우선과제인 코로나19해결과 인종 갈등 해결을 내세우고 있다. 경제 회복은 물론 빼놓지 않고 말이다.
 앞으로 4년 간의 임기 동안, 그가 어떻게 미국을 위대하게 만들지는 앞으로 지켜봐야 할 일이다. 그 어떤 선거가 되었던 국민을 대표해 얻은 자리인 만큼 그들의 표가 헛되지 않은 결과를 만들었으면 한다.

728x90
728x90
Classification

Classification

  • 입력받은 데이터가 속하는 카테고리를 분류
    • 스팸 필터링
    • 의료 보조
    • 이미지 분류(Computer Vision)
  • 임의 데이터셋
    • linear regression : y=ax + b꼴로 모델 형성
      • 일정 카테고리로 분류되는 데이터의 경우, linear regression 적용 시 카테고리를 크게 벗어나는 데이터에 의해 오차가 커질 위험이 있음

Logistic Regression

  • 데이터가 2가지 class로 분류되었음을 가정
    • 예측하고자 하는 모델 범위는 [0, 1]
    • 클래스가 속하는 카테고리는 0 혹은 1로 구분
  • Hθ(x)=g(θTx), g(k)=[1+ek]1H_\theta(x)=g(\theta^Tx),\ g(k)=[1+e^{-k}]^{-1}
    • g(k)를 signoid 혹은 logistic 함수라 부름
    • k가 무한이면 g(k)=1, -무한이면 g(k)=0
    • θTx\theta^Tx : 두 데이터 그룹을 나누는 기준선
  • P(y=1x,θ)=Hθ(x)P(y=1|x, \theta)=H_\theta(x), P(y=0x,θ)=1Hθ(x)P(y=0|x, \theta)=1-H_\theta(x)
  • log-likelihood l(θ)=log(L(θ))i=1m[yilog(Hθ(xi))+(1yi)log(1Hθ(xi))]l(\theta) = log(L(\theta))\\\sum_{i=1}^m[y^ilog(H_\theta(x^i))+(1-y^i)log(1-H_\theta(x^i))]
    • maximum log-likelihood : m=1 가정, l(θ)θj=[yHθ(x)(1y)1Hθ(x)]Hθ(x)θj=[yHθ(x)(1y)1Hθ(x)]Hθ(x)(1Hθ(x))xj=(yHθ(x))xj\frac{\partial l(\theta)}{\partial\theta_j}=[\frac{y}{H_\theta(x)}-\frac{(1-y)}{1-H_\theta(x)}]\frac{\partial H_\theta(x)}{\partial\theta_j}\\=[\frac{y}{H_\theta(x)}-\frac{(1-y)}{1-H_\theta(x)}]H_\theta(x)(1-H_\theta(x))x_j\\=(y-H_\theta(x))x_j

Newton's method

  • 최대/최소값을 찾는 방법
  • f(x) = 0이 되게 하는 x를 탐색
    • xt+1=xtf(x)f(x)x_{t+1}=x_t-\frac{f(x)}{f'(x)}
  • J(θ)J'(\theta)에 대해 θt+1=θtJ(θt)J(θt)\theta_{t+1} = \theta_t-\frac{J'(\theta_t)}{J''(\theta_t)}
  • multiple vatiant function에 대해
    • xt+1=xtH1f(xt)\vec{x_{t+1}}=\vec{x_t}-H^{-1}\nabla f(\vec{x_t})
      • (Hx)i,j=2fxixj(H_x)_{i,j} = \frac{\partial^2f}{\partial x_i\partial x_j} : Hessian Matrix

  • Binary Classification / Logistic Regression : θTx\theta^Tx가 0보다 큰가 / 작은가 여부로 분류
    • 모델 Hθ=g(θTx), g(z)=11+ezH_\theta=g(\theta^Tx),\ g(z)=\frac{1}{1+e^{-z}}
    • log-lokelihood l(θ)=log(L(θ))=i[yiloghθ(x)+(1yi)log(1hθ(x))]l(\theta) = log(L(\theta))\\=\sum_i[y^ilogh_\theta(x)+(1-y^i)log(1-h_\theta(x))]
    • gradient ascent θj=θj+αmiyihθ(xi))xji\theta_j=\theta_j+\frac{\alpha}{m}\sum_iy^i-h_\theta(x^i))x_j^i

Multinomial Classification

  • 다수 클래스로의 분류
    • scorej=θjTxscore_j = \theta_j^Tx
    • j개 클래스 중 가장 높은 score인 쪽으로 입력을 분류
  • score normalization : [0, 1] 내의 분포로 표준화
    • p(yixi,θ)=Πyi==l[eθiTxjeθjTx]p(y^i|x^i, \theta)=\Pi_{y^i==l}[\frac{e^{\theta_i^Tx}}{\sum_je^{\theta_j^Tx}}]
    • log-likelihood l(θ)=log((p(yx,θ))=ilog((p(yixi,θ))))l(\theta)=log((p(y|x, \theta))=\sum_ilog((p(y^i|x^i, \theta))))

Exponential family

  • linear, logistic, multivariant regression의 gradient descent는 동일 함수를 이용
  • 이 세 함수를 같은 exponential family에 속한다고 칭함
    • exponential family : p(y,η)=b(y)exp(ηTT(y)a(η))p(y, \eta) = b(y)exp(\eta^TT(y)-a(\eta))
  • ex. linear regression
    • p(y,μ)=12πexp[12(yμ)2]=12πexp[12y2]exp[μy12μ2]p(y, \mu)=\frac{1}{\sqrt{2\pi}}exp[-\frac{1}{2}(y-\mu)^2]\\=\frac{1}{\sqrt{2\pi}}exp[-\frac{1}{2}y^2]-exp[\mu y-\frac{1}{2}\mu^2]
    • p(y,η)=b(y)exp(ηTT(y)a(η))p(y, \eta) = b(y)exp(\eta^TT(y)-a(\eta)) 꼴에서
    • b(y)=12πexp[12y2],T(y)=y, η=μ, a(η)=12μ2=12η2b(y)=\frac{1}{\sqrt{2\pi}}exp[-\frac{1}{2}y^2], T(y)=y,\ \eta=\mu,\ a(\eta)=\frac{1}{2}\mu^2=\frac{1}{2}\eta^2
  • ex. logistic regression
    • P(y=1)=ϕP(y=1)=\phi, P(y=0)=1ϕP(y=0)=1-\phi
    • P(y)=ϕy(1ϕ)1ϕ=exp[ylogϕ+(1y)log(1ϕ)]=exp[ylog(ϕ1ϕ)+log(1ϕ)]P(y)=\phi^y(1-\phi)^{1-\phi}=exp[ylog\phi+(1-y)log(1-\phi)]\\=exp[ylog(\frac{\phi}{1-\phi})+log(1-\phi)]
    • b(y)=1, T(y)=y, η=logϕ1ϕ, a(η)=log(1ϕ)=log(1+eη)b(y)=1,\ T(y)=y,\ \eta=log\frac{\phi}{1-\phi},\ a(\eta)=-log(1-\phi)=log(1+e^\eta)
  • Exponential family의 gradient descent
    • θj=θjαmi[Hθ(xi)yi]xji\theta_j=\theta_j-\frac{\alpha}{m}\sum_i[H_\theta(x^i)-y^i]x_j^i
728x90
728x90
Linear Regression
  • 머신러닝?
    • 명시적 프로그램 없이 학습하는 능력을 컴퓨터에게 부혀아는 것
    • 데이터를 이용한 프로그래밍

Linear Regression

  • 일정 데이터의 상관관계를 선형으로 파악하는 것
  • ex. 집값의 예측
    • 집의 평수와 판매 가격의 데이터가 주어짐
    • 해당 데이터를 기반으로 y = ax + b의 그래프를 작성
  • 가격은 연속하여 변하는 값이므로 선형 회귀 문제로 분류된다.
  • 집의 정보(입력)과 가격(출력)의 그래프를 갖고 있으므로 지도학습에 해당한다.

  • 가설 H(θ)H(\theta) : 데이터에 기반하여 가정한 모델
    • 모델에 새 데이터를 입력시키면 예측값이 출력
    • H(θ)=θ0+θ1x1+θ2x2+...H(\theta) = \theta_0 + \theta_1x_1 + \theta_2x_2+...
    • error : 해당 모델과 training data 사이의 출력(y)값 차이

  • Cost Function J(θ)J(\theta) : 가설 H와 실제 데이터 y 사이의 차이
    • 예측 모델의 정확도를 표현
    • J가 0이면 완벽한 예측임을 의미
    • J(θ)=12[H(θ)y]2J(\theta) = \frac{1}{2}[H(\theta) - y]^2
      • 최솟값의 계산 : θ\theta에 대한 미분값이 0이 되는 지점을 탐색
  • J(θ)θi=[H(θ)y]H(θ)θi=[H(θ)y]xi\frac{\partial J(\theta)}{\partial \theta_i}=[H(\theta) - y]\frac{\partial H(\theta)}{\partial\theta_i}=[H(\theta)-y]x_i
    • parameter update : θ=θαJ(θ)θ\theta = \theta - \alpha\frac{\partial J(\theta)}{\partial\theta} (α\alpha : running rate, 값이 변화하는 정도)
  • non-convex한 경우 : 미분값이 0이 되어도 최소가 아닐 수 있음

  • gradient descent : parameter update시 모든 오차값의 합을 이용해 갱신
    • 데이터가 많은 경우 속도가 느린 단점
    • 수렴할 때까지 : θj=θjαi=1m[H(θj)yi]xji\theta_j = \theta_j - \alpha\sum_{i=1}^m[H(\theta_j)-y^i]x_j^i
  • stochastic descent
    • gradient descent의 경우 모든 feature의 변화값 합을 계산하므로 연산 부담이 높음
    • stochastic의 경우 각 feature마다 weight 변화를 갱신하므로 연산 부담이 상대적으로 낮음
    • θj=θjα[H(θj)yi]xji\theta_j = \theta_j - \alpha[H(\theta_j)-y^i]x_j^i for all i

Normal Equation

  • J(θ)θi=0\frac{\partial J(\theta)}{\partial\theta_i}=0
    • 행렬 미분 : 각 원소에 대해 함수를 편미분
    • AF(A)=[F(A)a11...F(A)a1n...           ...F(A)an1...F(A)ann]\nabla_AF(A)=\begin{bmatrix} \frac{\partial F(A)}{\partial a_{11}} ... \frac{\partial F(A)}{\partial a_{1n}}\\ ...\ \ \ \ \ \ \ \ \ \ \ ...\\ \frac{\partial F(A)}{\partial a_{n1}} ... \frac{\partial F(A)}{\partial a_{nn}} \end{bmatrix}
  • H(θ)=XΘH(\theta) = X\Theta로 표현 가능
    • X=[1x1x2....xn]X = \begin{bmatrix} 1 x_1 x_2 .... x_n \end{bmatrix}, Θ=[θ0θ1...θn]\Theta = \begin{bmatrix} \theta_0\\ \theta_1\\ ...\\ \theta_n \end{bmatrix}
    • θJ(θ)=12θ[XΘY]T[XΘY]\nabla_\theta J(\theta) = \frac{1}{2}\nabla_\theta[X\Theta - Y]^T[X\Theta - Y]
    • XT[YXΘ^]=0X^T[Y-X\hat{\Theta}]=0
      Θ^=[XTX]1XTY\rArr\hat{\Theta}=[X^TX]^{-1}X^TY

Polynomial Regression

  • Linear Regression : H(θ)=θ0+θ1x1H(\theta) = \theta_0 + \theta_1 x_1
  • Polynomial Regression(2nd-order) : H(θ)=θ0+θ1x1+θ2x12H(\theta) = \theta_0 + \theta_1 x_1 + \theta_2 x_1^2
  • Feature Scaling
  • 함수의 각 feature들이 비슷한 범위를 갖도록 함
    • feature 범위가 달라지게 되면 각 feature가 결과에 영향을 주는 정도가 달라질 수밖에 없기 때문
    • mean normalization : x=xμSx = \frac{x-\mu}{S} (S는 범위 혹은 표준편차)
  • Other regression
    • multiple regression : 2차 이상의 비선형 데이터에 대한 회귀
    • locally-weighted linear regression : 특정 부분에만 multiple linear model 구현

Probablistic Interpretation

  • 예측값 yiy^i 가정
    • yi=θTxi+ϵiy^i=\theta^Tx^i+\epsilon^i
    • ϵ\epsilon은 오차 (ϵN(0,σ2)\epsilon \sim N(0, \sigma^2))
      • 오차 P(yixi,θ)N(θTxi,σ2)P(y^i|x^i, \theta) \sim N(\theta^Tx^i, \sigma^2)
    • 전체 dataset의 오차 : P(YX,Θ)=Πi=1np(yixi,θ)P(Y|X, \Theta) = \Pi_{i=1}^n p(y^i|x^i, \theta)
      • P(YX,Θ)=L(Θ)P(Y|X, \Theta) = L(\Theta) : Likelihood - parameter 변경 시 X에 대해 Y의 확률
728x90
728x90
Overview
  • 성인 인구의 수입 분석 : 정형 데이터 분석
  • 학습 목표 : 차원 축소 / 스케일링 / 이상치, 범주형, 결측치 처리
  • 본 모델에 들어가기까지의 데이터 전처리(?)

Overview

  • 데이터 사이언스로 돈을 버는 법 : 흥미, 관심사 > 조회수를 높일 만한 결과 도출하기

  • 문제점 : 생각만큼 데이터 품질이 좋지 않다

    • Kaggle의 경우 매우 정제가 잘 된 편
    • 실제로는 데이터 '만' 많은 경우가 많음 : 쓸모가 없거나, 품질이 좋지 않거나
  • 데이터 분석의 약 70% 가량이 전처리

  • 왜?

    • 데이터 수집/처리기가 불안정하거나
    • 데이터의 수집, 가공, 저장 비용
    • 데이터 형태가 너무 많아짐(시계열, 음성, 영상 등등...)
    • 수집된 데이터와 컴퓨터로 분석 가능한 형태 사이의 간극 존재
  • Data Science

    • 데이터의 수집, 가공, 서비스 적용, 다시 수집, ...
    • EDA 전에 전처리가 우선되어야 함 : EDA시 잘못된 데이터로 인한 오해가 있을 수 있기 때문

Data

  • 데이터 : 정형 vs 비정형 / 수치형 vs 범주형

  • 정형 데이터 : Table 형태로 존재 (주로 SQL로 처리)

  • 비정형 데이터 : 이미지, text 등등

  • 수치형 데이터 : 양적 정보

  • 범주형 데이터 : Categorical data

  • 데이터 사이언티스트의 업무

    • 내가 다룰 데이터가 어떤 구조로 이루어지는가?
    • 데이터 변형 시 어떤 변화가 이루어지는가?
    • 이 데이터가 내가 원하는 목적과 얼마나 부합하는가?
  • 데이터 처리 시의 문제

    • 용량은 작은데 불러올때 메모리 사용량이 어마어마한 이유는?
    • 실제 데이터는 0, 1꼴의 작은 값이지만, 실제 계산 시에는 Int64/Float64형태로 불러옴, 이로 인해 차지하는 메모리 용량이 실제 값보다 더 커짐

Data Preprocessing

  • 데이터 전처리

    • missing value : 어떻게 해서 생기게 되었는지?버려도 되는 값인지?
    • outlier : 분포를 크게 벗어난 값
    • dependent / independet value : kaggle의 경우 target이 정해져 있음 - 현업의 경우 어떤 값을 target으로 할지 직접 정해주어야 함
    • train / test split
    • scaling
  • missing vlaue : 존재하지 않는 값 / 시스템 오류로 인한 비정상 값

    • '', '#N/A', 'NaN', 'NULL' 등
    • dataset의 ? : missing value인가? 무직인가? ...?
    • 다수 column에 ?가 있다면 서로 간의 상관관계가 있을 수 있을까?
    • 결측치의 처리 : 삭제 or 대치
      • 삭제 : 대부분이(ex. 80%) missing인 경우 / 기본 dataset이 많아서 몇 개 빠져도 상관 없는 경우
      • 대치 : 다른 sample 분포로 예측 가능한 경우 / 의미적 추론이 가능한 경우
  • Outlier : 동 feature 샘플들과 비교할 때 비정상적으로 떨어진 관측치

    • Outlie의 처리 : 삭제, 대치, 로그변환
      • 대치 : 의미상 다른 값(보통 최대/최소) 로 대체해도 무관한 경우
      • 삭제
        • 극단적인 Outlier의 경우 삭제하는 것이 유의미할 수 있음
        • 다른 cluster에 속하는 새로운 유의미한 data일 가능성 역시 있음 - 이 경우 scaler 등을 통해 처리하는 쪽이 더 나음
  • Scaling

    • 같은 수치형이라도 평균/최대/최소값은 서로 다름
    • 수치 데이터들의 range가 다를 경우, 각 feature를 그대로 학습시키면 결과값에 미치는 영향력이 서로 달라질 수 있음
    • min-max scaler : 정규화(normalization)
    • standard scaler : 표준화(standardization
    • Data Leakeage : test data는 일어나지 않은 일 > scale된 train과 다른 분포가 나타날 수 있지만, 같은 분포를 갖고 있음을 가정

Feature Engineering

  • Feature : 모델 예측에 사용될 수 있는, 데이터를 표현하는 모든 변수, 개체, 특성

  • Feature Engineering : 더 나은 모델 알고리즘을 위한 Raw data에서 Feature를 만들어내는 과정

  • 인코딩

    • 컴퓨터가 이해하기 힘든 형태의 데이터를 처리 가능한 형태로 변환하는 과정
    • one-hot encoding : 범주형 변수를 독립적 feature로 변환
    • label encoding : 순서가 있는 변수를 숫자 형태로 numbering
    • mean encoding : 분포를 바탕으로 값 mapping - 학습은 빠르나 overfitting 위험
  • 차원의 저주

    • feature수가 늘어남에 따라 해당 target을 설명하는 data 수가 줄어드는 현상
    • 차원이 낮을수록 모델 성능이 높아짐
    • 모델 복잡도 감소 / overfitting 회피 : 특성 선택 vs 추출
      • 특성 선택 : 높은 성능을 나타내는 feature를 선택 (with greedy algorithm)
      • 특성 추출 : feature를 바탕으로 새 feature 구성 (with PCA, LDA)
  • PCA(주성분 분석)

    • 고차원 feature 중 중요 몇 가지를 추출
    • 비지도 학습의 일종
    • 큰 분산 = 많은 정보
    • 데이터 분산을 표현하는 벡터 > 표현력이 큰 벡터 선별 후 원본 데이터 투영 > k (k < d)인 데이터 셋으로 재구성
    • 단점 : 새로 만들어진 feature가 갖는 의미는 불확실해짐

Before Modeling

  • Kaggle조사에서

    • 가장 좋아하는 ML/DL method: 딥러닝, 인공신경망, 시계열 분석, ...
    • But 실무에서 사용되는 DL Method : 데이터 시각화, Logistic Regression, Cross-Validation, 결정 트리, Random Forest, ...
    • 의외로 고전적 분석법들이 잘 동작하는 경우가 많음
  • 이렇게 배운 걸 모두 활용해야 하는가?

    • 모든 도구들이 항상 필요한 건 아니지만, 배워 두면 언젠가 쓸 일이 생긴다
    • 사용법을 숙지하면 다른 작업에 활용될 여지도 있다
728x90
728x90

www.bookjournalism.com/news/23144

 

녹색 백조를 막기 위한 약속 — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠 커뮤니티

조 바이든 미국 대통령 당선인이 파리 기후 협약 재가입 을 1호 공약으로 내걸었다. 미국은 지난 4일 공식 탈퇴했다. 파리 협약은 지구 평균 온도가 산업 혁명 이전보다 2도 이상 상승하지 않도록

www.bookjournalism.com

 빨리 가는데에는 수단 방법을 가릴 필요 없을 지도 모르지만, 오래 가기 위해서는 모든 이들과 적절한 공조, 협력이 필요하다. 조 바이든의 당선으로 미국이 환경 보전을 위한 공조로 방향을 선회한 점이 다행이라고 생각한다.
 환경 파괴로 인한 경제 피해라는 뜻의 '그린 스완'은 이미 우리에게 가시화된 현상일지도 모른다. 우한 시장에서 각종 동물의 균이 얽히고 섥혀 만들어진 코로나 19도 어쩌면 그러한 예시 중 하나일 지 모른다. '자연스러운' 자연을 억지로 비튼 결과는 결국 우리에게 돌아오게 될 것이다.


www.bookjournalism.com/news/23156

 

우리 사장님이 AI? — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠 커뮤니티

배달 노동자들이 모인 라이더유니온이 지난 3일 기자 회견을 열었다. 이들은 배달 앱에 적용된 인공지능(AI)의 알고리즘으로 입은 피해를 호소하면서 배달원에게 알고리즘에 대응할 수 있는 권

www.bookjournalism.com

AI를 이용한 배차 방식은 자율적으로 운행하는 라이더들과 상반되어 운영되는, 오로지 배달 플랫폼의 배차 효율을 중시하는 방식일 것이다. 어떻게 보면 효율적일지 모르지만, 배달 노동자들의 경우 일종의 자영업 형태로 운영되는 것으로 아는데 그렇다면 그들이 배차 방식을 선택할 권리 역시 부여되어야 할 필요가 있다고 생각한다. 
 직선 거리 기준의 배차는 배달 플랫폼이 하루빨리 해결해야 할 문제라고 생각한다. 최근 지도 서비스를 보면 골목이 아닌 지도상의 임의 지점까지도 도달 경로를 잡아낼 정도로 발달한 상태인데, 지형 지물마저 무시한 배치는 분명 개발 부문의 잘못이 없지 않을 것이다.

728x90
728x90

www.bookjournalism.com/news/23027

 

나의 아이스팩은 지구의 핫팩 — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠 커뮤니티

코로나19로 온라인 식품 주문이 늘면서 올해 아이스팩 사용량이 지난해보다 1억 개 늘어난 3억 2000만 개에 달할 전망이다. 커머스 기업부터 정부, 지방 자치 단체에 이르기까지 아이스팩 처리에

www.bookjournalism.com

언택트 시대가 되면서 배달 총량이 어마어마하게 늘어남에 따라 쓰레기 처리 문제가 더욱 대두되는 것 같다. 배달서비스가 발달하면서 신선식품의 간편한 배달이 가능하게 되었지만, 문제는 그 과정에 쓰이는 아이스팩 역시 '아이스' 가 아니라는 점에 있다. 얼음팩에 비해 안정적이라는 장점이 있다 해도, 환경 진화적 대체재가 하루빨리 나왔으면 한다.


www.bookjournalism.com/news/23040

 

편한 것이 힙하다 — 북저널리즘 - 젊은 혁신가를 위한 콘텐츠 커뮤니티

판데믹 시대의 힙 한 패션은 무엇일까. 물놀이할 때 신는 신발, 전문직 종사자들의 실내화로 여겨졌던 샌들 크록스 의 인기가 높아지고 있다. 올해 미국 내 신발 판매는 20퍼센트 감소했지만, 크

www.bookjournalism.com

 지금까지의 많은 패션 유행은 주로 나를 표현하는 데에 그 목적을 두고 있었다. 패션을 사랑하는 이들은 약간의 편의를 희생하면서 더 단정하거나 혹은 더 화려한 멋을 뽐낼 다양한 수단을 찾곤 했다고 볼 수 있을 것이다.
 하지만 언택트로 인해 세상과 사람이 단절되기 시작하면서, 이러한 패션도 나를 세상에 표현하기보다는 나를 위하는 쪽으로 변화하는 것 같다. 타인과의 만남의 빈도가 줄어들면서 다른 의미로 자신에게 더 신경을 쓰게 되었고, 이로 인해 크록스와 같은 몸에 편한 옷들이 인기를 끌게 된 것으로 보인다.

728x90

+ Recent posts