PGR21.com
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다.
통합 규정을 준수해 주십시오. (2015.12.25.)
Date 2022/06/08 09:53:44
Name 휵스
Subject [질문] NLP(토픽모델링) 한글과 영어 차이?
현재 사회과학쪽 연구를 하고 있는 대학원생인데 요새 머신러닝의 발달과 함께 점점 비정형화 텍스트를 데이터로 삼고 거기서 변수를 만드는 연구들이 메인스트림에도 많아지더라고요. 코드를 보면 대부분 이런 NLP 툴 (e.g., LDA topic modeling, word2vec)들이 영어 위주로 개발이 된듯한데 한글도 영어처럼 똑같이 적용이 가능한가요? 뭔가 언뜻 한글은 더 체계화 시키기 어려울것 같다는 생각이 들었는데 궁금합니다.

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
새벽살이
22/06/08 10:11
수정 아이콘
일단 화자 수가 영어가 압도적이기도 하고 한국어 같은 경우는 조사 때문에 연구 난이도가 높은 것으로 알고 있습니다.
단적인 예로 영어는 단어가 대부분 공백으로 구분되지만 한국어는 은는이가 부터 떼고 생각해야 하죠..
그래서 분석을 위해 문장을 배열로 변환하실 거면 단어를 어절로 구분하여 분석하는 fasttext를 추천드립니다. 이름대로 속도도 빠른 편입니다.
https://fasttext.cc
위키백과 기준 한국어 데이터는 만들어져 있고 위키백과 데이터 덤프에 분석에 특화된 corpus를 추가하시어 커스텀 모델을 생성하셔도 좋습니다.
새벽살이
22/06/08 10:15
수정 아이콘
LDA는 통계학 쪽 테두리에 있는 모델로 사용하시려면 문서에서 단어 추출이 필요합니다. LDA 자체는 언어에 영향을 받는 모델이 아닙니다. 분석하고자 하는 언어마다 단어 추출 난이도가 다를 뿐이죠. 이를 위해 주로 사용하는 것이 형태소 분석기인데, mecab, hannanum 형태소 분석기 등이 있으며 파이썬 konlpy 패키지에서 대부분 지원하고 있습니다.
새벽살이
22/06/08 10:22
수정 아이콘
아무래도 화자와 데이터 수는 비례하는 요소이다 보니 최근 연구에서는 언어 모델을 개발할 때 영어/중국어/나머지 언어로 접근하는 것 같습니다. 예전에 잠깐 찾아봤을 때 BERT라는 언어 모델이 제시되어 그 파생이 많이 나왔는데 미리 학습된 모형은 대충 English/Chinese/Multilingual 로 나옵니다.
그래도 한국전자통신연구원에서는 https://aiopen.etri.re.kr/service_dataset.php 같은 한국어 언어모델을 만들었습니다. 텍스트 데이터를 많이 소유한 기업에서도 내부적으로 개발을 진행하고 있지 않을까 합니다. 네이버만 봐도 네이버 쇼핑에서 쇼핑 후기에 강조 처리를 하고 있죠.
22/06/08 14:59
수정 아이콘
자세한 정보 감사합니다!
22/06/08 12:27
수정 아이콘
NAVER CLOVA의 hyperCLOVA 논문같은걸 보시면 한글의 경우 tokenization 하는 것에 있어서 좀더 트릭이 필요합니다. 그 뒤로는 영어 데이터랑 크게 다를바는 없구요.
연구레벨에서 아무래도 minor하다보니 정보가 적어보이는거구요.

google이나 deepmind의 multilingual model들의 경우에 한글도 대응은 되는데, 아무래도 web에서 긁어온거라 한글 데이터가 일부밖에 안됩니다.
일부만 가지고도 multi-lingual모델의 low-resource language 성능이 꽤 좋다는 결과도 많긴 하지만, 그래봐야 한글데이터 제대로 넣은거랑 차이가 좀 있습니다.
SK나 카카오에서도 모델 공개를 하고 있으니 참고를 해보실수 있을겁니다.
22/06/08 15:00
수정 아이콘
이런 기업들에서도 모델 공개를 하는군요. 정보 감사합니다!
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회
164127 [질문] 고전 축구 게임 이름이 궁금합니다 [8] croissant4808 22/06/10 4808
164126 [질문] 게임을 찾아주세요 [8] 형리4710 22/06/10 4710
164125 [질문] 컴퓨터 맞추는 법 체계적으로 배울 수 있는 곳 있을까요? [6] 명란5352 22/06/10 5352
164124 [질문] 나의 아저씨 보고 있는데 질문이 있습니다 [18] 뜨거운눈물5540 22/06/10 5540
164123 [질문] 깨진유리창 이론 외 회사에서 자주 쓰이는 이론 [10] 아이러브스타4969 22/06/10 4969
164122 [질문] 크롬의 모든 한글이 영어로 바뀌었어요 [2] wook984093 22/06/10 4093
164121 [질문] 책을 읽으러 혼자 떠난다면 어디로 갈까요? [63] 고요8956 22/06/10 8956
164120 [질문] 골스 일리걸 스크린 편파는 실재하는 건가요? [10] 드워프는뚜벅뚜벅7885 22/06/09 7885
164119 [질문] 서울/경기 눈썹문신 괜찮은 곳 추천 부탁 드립니다! [12] 풀꾹새3466 22/06/09 3466
164118 [질문] 수공구 어디 메이커 추천하시나요? [7] 그때가언제라도5943 22/06/09 5943
164117 [질문] 알뜰제 요금제는 이렇게 가입해야 되는게 맞나요? [9] 아오이소라카4482 22/06/09 4482
164115 [삭제예정] 이직 관련 몇가지 고민이 있습니다… [8] 삭제됨6130 22/06/09 6130
164114 [질문] 현재 레알이랑 첼시에 링크나는 중요 선수들이 누가 있을까요?? [4] 원스3579 22/06/09 3579
164113 [삭제예정] . [14] 삭제됨5484 22/06/09 5484
164112 [질문] 미군기지 있던 곳의 토양이 오염되는 이유가 뭔가요? [10] 아스라이7148 22/06/09 7148
164111 [질문] 레이싱휠 질문(G27 VS T150) [3] 카오루4933 22/06/09 4933
164110 [질문] 맛있는 간식/디저트/군것질거리 추천 부탁드립니다. [3] 인생을살아주세요3494 22/06/09 3494
164109 [질문] [어플] 안드로이드 일정관리 어플 추천부탁드립니다. [4] 잃어버린얼굴4242 22/06/09 4242
164108 [질문] 위쳐3 관련 두서없는 질문들 [14] 질문쟁이4182 22/06/09 4182
164107 [질문] 해외원화결재서비스 이거 대체 무슨 의미가 있는지 모르겠습니다... [8] 요한나6313 22/06/09 6313
164106 [질문] 지금 한국 농구 수준이 농구대잔치보다 높아진 건가요? [29] bifrost6920 22/06/09 6920
164105 [질문] 기본적인 웹페이지 제작하려고 합니다. [4] 교자만두3806 22/06/09 3806
164104 [질문] 안경테 추천 바랍니다. Ft. 가네마넨 [5] 마카롱4628 22/06/09 4628
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로