LLM 평가지표
·
LLM
평가지표 내용 추론능력 (ARC) - ARC(AI2 Reasoning Challenge) - AI가 질문에 대한 답변이 얼마나 적절한지 측정 - 과학적 사고와 이해를 평가하기 위한 테스트 - 과학 문제를 해결하는 데 필요한 추론 능력 측정 상식능력 (HellaSwag) - AI가 짧은 글 및 지시사항에 알맞은 문장을 생성하는지 측정 - 주어진 상황에서 가장 가능성 있는 다음 시나리오를 예측하는 능력 테스트 언어이해력 (MMLU) - MMLU(Massive Multitask Language Understanding) - 다양한 분야의 질문에 대한 답변이 얼마나 정확한지 측정 환각방지능력 (TruthfulQA) - AI가 생성한 답변이 얼마나 진실한지 측정 한국어상식생성능력 (KoCommonGEN V2) -..
LangChain
·
LLM
랭체인(LangChain)이란?언어모델(Language)과 외부도구를 마치 사슬(Chain)처럼 결합앵무새는 언어의 의미를 진정으로 이해하지 못한 채 단지 방대한 데이터를 학습한 후 확률적으로 나오는 단어를 조합하여 앵무새처럼 따라하는 확률적 앵무새(Stochastic Parrots) ModulesModel I/O: 언어모델과의 인터페이스Data Connection: 애플리케이션별 데이터와의 인터페이스Chains: 호출 시퀀스 구축Agents: 상위 지시문이 주어지면 체인이 사용할 툴을 선택할 수 있도록 함Memory: 체인 실행 간에 애플리케이션 상태 유지Callback: 체인의 중간 단계를 기록 및 스트리밍
Mac M1 Konlpy
·
Data Science
konlpy 설치 pip install konlpy JAVA Download - ARM64 DMG Installer https://www.oracle.com/java/technologies/downloads/ Download the Latest Java LTS Free Subscribe to Java SE and get the most comprehensive Java support available, with 24/7 global access to the experts. www.oracle.com 확인 from konlpy.tag import Okt okt = Okt() WordCloud 라이브러리 설치 Conda install -c conda-forge wordcloud
Mac M1 Chromedriver
·
Data Science
pip3 install selenium brew install --cask chromedriver pip3 install webdriver_manager from selenium import webdriver from webdriver_manager.chrome import ChromeDriverManager driver = webdriver.Chrome()
네이버 부동산 기사 크롤링
·
Data Science
네이버 부동산 기사 제목을 크롤링하고자 합니다. 네이버 부동산 > 뉴스 > 우리동네뉴스로 접속하면 지역의 시군구별 기사를 볼 수 있습니다. 다음 페이지로 넘어가거나 다른 지역을 선택하면 링크가 함께 바뀌기 때문에 동적 크롤링에 사용되는 Selenium이 아닌 BeautifulSoup을 사용합니다. 먼저 접속 시 기본으로 보여지는 첫 페이지에서 기사 제목을 크롤링합니다. from bs4 import BeautifulSoup import pandas as pd import requests link = 'https://land.naver.com/news/region.naver?city_no=1100000000&dvsn_no=1114000000&page=1' url = requests.get(link) html..
pyLDAvis A task has failed to un-serialize 오류
·
Data Science
pandas 버전 오류 ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts. google-colab 1.0.0 requires pandas==1.5.3, but you have pandas 2.1.0 which is incompatible. numba 0.56.4 requires numpy=1.18, but you have numpy 1.25.2 which is incompatible. tensorflow 2.13.0 requires numpy=1...
Google Colab에서 Konlpy 설치
·
Data Science
!apt-get update !apt-get install g++ openjdk-8-jdk !pip install konlpy JPype1-py3 !bash
토픽 모델링
·
Data Science
토픽 모델링: 문서의 집합에서 토픽을 찾아내는 프로세스 출처: https://wikidocs.net/30708
KBI 금융DT 테스트 기출문제
·
Domain
한국금융연수원에서 주관하는 KBI 금융DT 테스트 7회 후기입니다. 시험과목은 크게 디지털 금융의 이해, 디지털 금융의 활용 총 두가지로 나뉘어지며, 세부적으로는 네 가지 교과목이 있습니다. 그 중 디지털금융 기술이 배점 50점으로 전체의 반을 차지하고 있어 시간이 부족하신 분들은 해당 과목부터 공부하시는 것을 추천드립니다. (다른 자격증과 달리 과목별 과락 기준이 없더라구요)  자격 등급은 점수에 따라 DT-Gold, DT-Blue, DT-Green으로 부여받습니다. 60점 이상부터 자격증이 부여된다고 생각하시면 됩니다. 아래는 KBI 금융 DT 테스트 7회 기출이며, 주어진 키워드에 대한 설명이나 밑줄친 내용이 변형되어 출제되었습니다. 시험을 준비하는 동안 후기나 기출문제를 찾기 어려웠는데 공부하시는..
빈도분석
·
Data Science
단어 빈도 사전 # 문자 단어 형태로 분리 words = text.split() # 단어 빈도 사전 dic = {} for i in words: if i not in dic: dic[i] = 1 else: dic[i] += 1 # 데이터프레임화 df = pd.DataFrame({'단어':dic.keys(), '빈도수':dic.values()}) 워드클라우드 from wordcloud import WordCloud import matplotlib.pyplot as plt # 워드클라우드 설정 # background_color = 'white' # font_path = '폰트파일.ttf' # mask = img wc = WordCloud() cloud = wc.generate_from_frequencies(..