'Study' 카테고리의 글 목록

k-NN과 ANN

추천 시스템, 콘텐츠 기반 정보 검색, 시맨틱 분석 등 다양한 분야에서 '유사성(similarity)'에 기반한 데이터 탐색이 중요해지고 있다. 유사성 기반 탐색의 기본적인 접근 방식으로 k-최근접 이웃(k-Nearest Neighbors, k-NN)과 근사 이웃 탐색(Approximate Nearest Neighbor, ANN)이 있다. 본 글에서는 k-NN의 원리 및 한계를 이해하고, 이의 대안으로 ANN의 개념과 기술적 특징을 설명한다.1. k-Nearest Neighbor(k-NN)1-1 k-NN의 정의 및 원리k-NN은 데이터 포인트 간 거리를 기반으로 동작하는 가장 기본적인 알고리즘 중 하나다. 지도 학습(supervised learning)에서 특정 데이터 포인트와 거리가 가장 가까운 'k'..

Study 2025.05.08

카프카 기본 개념

KafkaApache Kafka 공식 페이지에서 "높은 성능의 데이터 파이프라인, 분석 스트리밍, 테이터 통합을 위해 사용하는 분산 이벤트 스트리밍 플랫폼이"라고 소개한다.분산 이벤트 스트리밍 플랫폼분산(Distributed)여러 서버에 걸쳐 분산된 아키텍처로 구성된 시스템을 의미한다.이벤트(Event)애플리케이션에서 발생하는 어떤 사건이나 상태 변화를 의미한다. 게시물 조회, 등록, 수정 같은 것들이 될 수 있다.스트리밍(Streaming)데이터가 지속적으로 생성되고, 이를 실시간으로 처리하고 소비할 수 있도록 설계된 방식이다.이벤트 스트리밍이벤트 스트리밍은 이벤트(또는 데이터)를 지속적으로 처리, 저장, 전달하는 기술이다.Kafka를 구성하는 요소(들)Kafka Cluster카프카 클러스터는 주키퍼,..

Study/kafka 2024.06.23

elasticsearch join type field

엘라스틱서치 조인 가이드 문서 링크 https://www.elastic.co/guide/en/elasticsearch/reference/current/parent-join.html#parent-join 엘라스틱서치는 Parent-join이라는 것을 제공함. The join data type is a special field that creates parent/child relation within documents of the same index. The relations section defines a set of possible relations within the documents, each relation being a parent name and a child name. `join` 타입은 동일..

Study/elasticsearch 2023.08.05

Elasticsearch: 애널라이저, 토크나이저, 노멀라이저

애널라이저는 9개 이상의 캐릭터 필터, 1개의 토크나이저, 0개 이상의 토큰 필터로 구성된다. 동작 역시 캐릭터 필터 -> 토크나이저 -> 토큰 필터 순서로 수행된다. 애널라이저는 입력한 텍스트에 캐릭터 필터를 적용하여 문자열을 변형시킨 뒤 토크나이저를 적용하여 여러 토큰으로 쪼갠다. 쪼개진 토큰의 스트림에 토큰 필터를 적용해서 토큰에 특정한 변형을 가한 결과가 최종적으로 분석 완료된 텀이다. 엘라스틱서치는 애널라이저의 동작을 테스트할 수 있는 API를 제공한다. example GET _analyze { "analyzer": "standard", "text": ["Hello, HELLO, World!"] } //result { "tokens": [ { "token": "hello", "start_offs..

Study/elasticsearch 2023.08.05

Elasticsearch object와 nested 타입 비교

object와 nested 모두 필드 하위에 다른 필드가 들어가는 계층 구조의 데이터를 담는 타입이다. 이 둘은 유사하지만 배열을 처리할 때 동작하는 방식이 다르다. object vs. nested object 용도: 일반적인 계층 구조에 사용 성능: 상대적으로 가벼움 검색: 일반적인 쿼리를 사용한다. nested 용도: 배열 내 각 객체를 독립적으로 취급해야 하는 특수한 상황에서 사용 성능: 상대적으로 무거움. 내부적으로 숨겨진 문서를 생성 검색: 전용 nested 쿼리로 감싸서 사용해야 한다. object type JSON 문서는 필드의 하위에 다른 필드를 여럿 포함하는 객체 데이터를 담는다. object가 객체 데이터의 기본 타입이다. object와 nested의 차이는 객체 배열에 대해 쿼리할 때..

Study/elasticsearch 2023.08.05

카프카 프로듀서, 컨슈머 기본 동작

프로듀서 기본 동작 프로듀서는 카프카의 토픽으로 메시지를 전송하는 역할을 담당한다. 프로듀서의 디자인은 아래 다이어그램과 같다. ProducerRecord는 카프카로 전송하기 위한 실제 데이터 topic, partition, key, value로 구성 카프카는 특정 토픽으로 값(메시지)을 전달하기 때문에 topic/value는 필수값. 특정 파티션을 지정하기 위한 레코드의 파티션과 정렬을 위한 키는 선택사항 레코드는 프로듀서의 send() 메서드를 통해 serializer -> partitioner를 거친다. 프로듀서 레코드가 파티셔너를 지정했다면 파티셔너는 아무 동작도 하지 않고 지정된 파티셔너로 레코드를 전달함. 파티션을 지정하지 않은 경우 키를 가지고 파티션을 선택해 레코드를 전달한다. 이때 기본적..

Study/kafka 2023.02.20

카프카 용어

kafka 카프카 또는 카프카 클러스터. 아파치 프로젝트 애플리케이션 이름. 여러 대의 브로커를 구성한 클러스터를 의미한다. broker 카프카 애플리케이션이 설치된 서버 또는 노드 producer 카프카로 메시지를 보내는 역할을 하는 클라이언트를 총칭한다. consumer 카프카 애플리케이션이 설치된 서버 또는 노드 message 프로듀서가 브로커로 전송하거나 컨슈머가 읽어가는데이터 조각 topic 카프카는 메시지 피드를 토픽으로 구분하고, 각 토픽의 이름은 카프카 내에서 고유하다. partition 하나의 토픽이 한 번에 처리할 수 있는 한계를 높이기 위해 토픽 하나를 여러 개로 나눠 병렬 처리가 가능하게 만든 것 토픽은 논리적 개념이고 물리적으로 저장되는 곳은 파티션임. 토픽은 최소 하나의 파티션을..

Study/kafka 2023.02.19

카프카 기본

기본 분산 시스템 분산 시스템은 네트워크상에서 연결된 컴퓨터들의 그룹. 단일 시스템이 갖지 못한 높은 성능이 목표 성능 뿐 아니라 하나의 서버 또는 노드 등에 장애가 발생할 때 다른 서버/노드가 대신 처리하므로 장애 대응 면에서도 탁월 부하가 높은 경우 확장도 용이하다. 카프카 역시 마찬가지. 최초 구성한 클러스터 리소스가 한계치에 도달했을 때, 브로커를 추가하는 방식으로 확장 가능하다. (이미 메시지가 들어오는 상태에서 줄이는 것도 쉽게 가능한가?) 페이지 캐시 다른 메시징 시스템은 메시지를 전송하고 나면 메시지를 삭제함. 아직도 그런지 모르겠음. 2018에 나온 카프카, 데이터 플랫폼의 최강자는 그렇게 설명했음. 카프카는 디스크에 세그먼트 형식으로 메시지를 저장함. 디스크에 저장하기 때문에 어떤 이유..

Study/kafka 2023.02.19

ports and adapter 패턴 또는 헥사고날 아키텍처

이 글은 제 주관이 많이 들어있고 팩트와 다를 수 있습니다. 지적해주시면 고치겠습니다. 회사에서 신규 프로젝트에 포트 앤 어댑터 패턴을 도입하기로 했다. 헥사고날 아키텍처보다 포트 앤 어댑터 패턴이라는 말이 더 명료하게 이 패턴을 설명하는 것 같다. 어쨌든 공부할 시간이 많지는 않았고 짧게 공부한 기록을 남겨본다. 포트 앤 어댑터 패턴에 대해 이야기하기 전에 전통적(?)인 레이어드 아키텍처를 먼저 짚고 넘어가야 할 것 같다. 레이어드 아키텍처는 프레젠테이션, 도메인, 영속 세 개의 계층으로 이루어진 아키텍처다. 프레젠테이션 계층은 HTTP 요청을 처리한다. 도메인 계층은 비즈니스 로직을 담당하는 가장 핵심 레이어다. 마지막으로 영속 계층은 데이터 영속화를 담당한다. 레이어드 아키텍처의 규칙은 간단하다. ..

Study 2023.01.25

가상 요소 셀렉터로 신규 등록 게시물 NEW 표시하기

가상요소 셀렉터 가상 요소란? 가상 요소란 HTML에 정의도지ㅣ 않은 요소를 CSS로 새롭게 만들어낸 요소다. 가상 요소 사용법 CSS에서 태그, 클래스, ID 셀렉터 뒤에 ::before , ::after 를 붙여 content 속성과 조합한 후 가상 요소를 만든다. content 속성에는 해당 위치에 넣고 싶은 텍스트나 이미지 등 콘텐츠를 적는다. content 속성으로 표시한 텍스트는 선택 및 복사 붙여넣기를 할 수 없다. 즉, 스크롤이 안 된다. 스크롤을 지원해야 한다면 가상요소 콘텐트 대신 HTML 텍스트를 사용해야 한다. before와 after ::before 는 요소 앞에, ::after는 요소 뒤에 가상 요소를 삽입한다. 가상 요소 셀렉터로 신규 등록 게시물 NEW 표시하기 HTML 가상..

Study/HTML,CSS 2022.12.19

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

computer club

Study 55

티스토리툴바