자연어 처리(NLP) 함수
현재 개발 중인 실험적 기능으로, 일반 사용을 위한 준비가 되어 있지 않습니다. 향후 릴리스에서 예측할 수 없는 방식으로 변경될 수 있으며, 하위 호환성이 보장되지 않습니다. 활성화하려면 allow_experimental_nlp_functions = 1로 설정하십시오.
detectCharset
도입 버전: v22.2.0
UTF-8로 인코딩되지 않은 입력 문자열의 문자 집합을 감지합니다.
구문
인수
s— 분석할 텍스트.String
반환 값
감지된 문자 인코딩의 코드를 포함하는 문자열을 반환합니다. String
예시
기본 사용법
detectLanguage
도입 버전: v22.2.0
UTF-8로 인코딩된 입력 문자열의 언어를 감지합니다. 이 FUNCTION은 감지를 위해 CLD2 라이브러리를 사용하며 2자리 ISO 언어 코드를 반환합니다.
입력 문자열이 길수록 언어 감지 결과가 더 정확해집니다.
구문
인자
text_to_be_analyzed— 분석할 텍스트입니다.String
반환 값
감지된 언어의 2글자 ISO 코드를 반환합니다. 그 외 가능한 결과: un = 알 수 없음, 어떤 언어도 감지할 수 없음, other = 감지된 언어에 해당하는 2글자 코드가 없음. String
예시
혼합 언어 텍스트
detectLanguageMixed
도입 버전: v22.2.0
detectLanguage 함수와 비슷하지만, detectLanguageMixed는 텍스트에서 각 언어가 차지하는 비율을 값으로 하는 2글자 언어 코드의 Map(맵)을 반환합니다.
구문
인수
s— 분석할 텍스트String
반환 값
2자리 ISO 코드인 키와 해당 언어로 감지된 텍스트 비율(%)을 값으로 가지는 맵을 반환합니다 Map(String, Float32)
예시
혼합 언어
detectLanguageUnknown
도입된 버전: v22.2.0
detectLanguage 함수와 유사하지만, detectLanguageUnknown 함수는 UTF-8 이외의 인코딩이 사용된 문자열에서도 동작합니다.
문자 집합이 UTF-16 또는 UTF-32인 경우 이 버전을 사용하는 것이 좋습니다.
구문
인수
s— 분석할 텍스트입니다.String
반환 값
감지된 언어의 두 글자짜리 ISO 코드를 반환합니다. 반환 가능한 다른 값: un = 알 수 없음, 어떤 언어도 감지할 수 없음, other = 감지된 언어에 두 글자 코드가 없음. String
예시
기본 사용 예
detectTonality
도입 버전: v22.2.0
제공된 텍스트 데이터의 감성을 판별합니다.
이 FUNCTION은 현재 내장된 감정 딕셔너리를 사용하므로 러시아어 텍스트에만 적용 가능합니다.
구문
인수
s— 분석할 텍스트입니다.String
반환 값
텍스트에 포함된 단어들의 평균 감성 점수를 반환합니다. Float32
예시
러시아어 텍스트 감성 분석
lemmatize
도입 버전: v21.9.0
주어진 단어에 대해 표제어 추출(레마화)을 수행합니다. 이 함수가 작동하려면 딕셔너리가 필요하며, GitHub에서 얻을 수 있습니다. 로컬 파일에서 딕셔너리를 로드하는 방법에 대한 자세한 내용은 「Defining Dictionaries」 페이지를 참조하십시오.
구문
인수
반환 값
단어의 표제어 형태를 반환합니다. String
예시
영어 표제어 처리
stem
도입 버전: v21.9.0
Snowball 알고리즘을 사용하여 단어 또는 단어 배열에 어간 추출을 수행합니다.
각 입력 문자열은 공백이 없는 단일 소문자 단어여야 하며, 공백 문자가 포함된 문자열은 예외가 발생합니다.
대문자가 포함되면 결과가 정의되지 않습니다.
스칼라 입력(FixedString 포함)에는 String을 반환하고, 배열 입력에는 Array(String)을 반환합니다.
String 및 FixedString의 널 허용 및 LowCardinality 변형을 지원합니다.
구문
인수
word— 어간 추출할 단일 소문자 단어(또는 단어 배열)입니다. 반드시 소문자여야 합니다. 대문자가 포함되면 결과가 정의되지 않습니다. String, FixedString, Array(String), Array(FixedString), Array(Nullable(String)), Array(Nullable(FixedString))를 허용합니다.StringorFixedStringorArray(String)orArray(FixedString)language— 어간 추출 규칙을 적용할 언어입니다. 두 글자의 ISO 639-1 코드를 사용하십시오(예: 'en', 'de', 'fr'). https://en.wikipedia.org/wiki/List_of_ISO_639_language_codes를 참조하십시오.String
반환값
단어의 어간 추출 형태(String) 또는 어간 추출된 단어 배열(Array(String))입니다. String or Array(String)
예시
단일 단어 어간 추출
단어 배열에서 어간 추출
FixedString 어간 추출
널 허용 단어에 대한 어간 추출
synonyms
도입 버전: v21.9.0
지정한 단어의 동의어를 찾습니다.
동의어 확장에는 다음 두 가지 유형이 있습니다:
plainwordnet
plain 확장 유형을 사용할 때는 각 줄이 하나의 동의어 집합에 해당하는 단순 텍스트 파일의 경로를 지정해야 합니다.
각 줄의 단어는 공백 또는 탭 문자로 구분되어야 합니다.
wordnet 확장 유형을 사용할 때는 WordNet 시소러스가 들어 있는 디렉터리 경로를 지정해야 합니다.
이 시소러스에는 WordNet sense 인덱스가 포함되어 있어야 합니다.
구문
인자
반환 값
지정된 단어에 대한 동의어 배열을 반환합니다. Array(String)
예시
동의어 찾기