- Nạp dữ liệu mẫu JSON
- Truy vấn đơn giản Elasticsearch
- Thực hiện tìm kiếm với Elasticsearch
- Lọc kết quả với Elasticsearch
Nạp dữ liệu mẫu JSON
Để thực hành ES cung cập một tập dữ liệu mẫu, gồm 1000 bản ghi lưu trữ thông tin tài khoản bank, ta sẽ nạp dữ liệu này vào Elasticsearch để thực hành. Mỗi dữ liệu Document có cấu trúc dạng:
{ "account_number": 0, "balance": 16623, "firstname": "Bradshaw", "lastname": "Mckenzie", "age": 29, "gender": "F", "address": "244 Columbus Place", "employer": "Euron", "email": "bradshawmckenzie@euron.com", "city": "Hobucken", "state": "CO" }
Trước tiên tải về file JSON chứa 1000 bản ghi dữ liệu này tại: Tải về JSON Data Bank, lưu nó thành file accounts.json
, rồi gõ lệnh sau để nạp nó vào index bank
curl -H "Content-Type: application/json" -XPOST "localhost:9200/bank/_bulk?pretty&refresh" --data-binary "@accounts.json" curl "localhost:9200/_cat/indices?v"
Giờ bạn đang có Index tên bank
chứa 1000 Document với cấu trúc mỗi Document như trên.
Có thể thử kiểm tra một Document, ví dụ kiểm tra id = 3
curl -X GET localhost:9200/bank/_doc/3?pretty
{
"_index" : "bank",
"_type" : "_doc",
"_id" : "3",
"_version" : 1,
"_seq_no" : 800,
"_primary_term" : 1,
"found" : true,
"_source" : {
"account_number" : 3,
"balance" : 44947,
"firstname" : "Levine",
"lastname" : "Burks",
"age" : 26,
"gender" : "F",
"address" : "328 Wilson Avenue",
"employer" : "Amtap",
"email" : "levineburks@amtap.com",
"city" : "Cochranville",
"state" : "HI"
}
}
Truy vấn đơn giản đến Elesticsearch
Để thực hiện tìm kiếm đến dữ liệu trong index có tên bank
thực hiện GET
đến /bank/_search
, và gắn kèm thông tin cần tìm kiếm dưới dạng JSON.
Ví dụ sau tìm tất cả các Document có trong index /bank/
GET /bank/_search { "query": { "match_all": {} } }
curl -X GET "localhost:9200/bank/_search" -H 'Content-Type: application/json' -d' { "query": { "match_all": {} } } '
Kết quả là:
{ "took" : 2, "timed_out" : false, "_shards" : { "total" : 1, "successful" : 1, "skipped" : 0, "failed" : 0 }, "hits" : { "total" : { "value" : 1000, "relation" : "eq" }, "max_score" : 1.0, "hits" : [ { "_index" : "bank", "_type" : "_doc", "_id" : "1", "_score" : 1.0, "_source" : { "account_number" : 1, "balance" : 39225, "firstname" : "Amber", "lastname" : "Duke", "age" : 32, "gender" : "M", "address" : "880 Holmes Lane", "employer" : "Pyrami", "email" : "amberduke@pyrami.com", "city" : "Brogan", "state" : "IL" } }, .... ] } }
Bạn cú ý những phần dữ liệu trả về:
took
– thời gian (mili giây) hoàn thành truy vấntimed_out
- cho biết vượt thời gian (thời gian hoàn thành vượt ngưỡng bị dừng) hay không_shards
- cho biết tìm trên bao nhiêu shard (phân đoạn index)hits
- kết quả tìm kiếmhits.total
- tổng số kết quả tìm đượchits.hits
- mảng dữ liệu thực sự trả về (mặc định 10 document đầu tiên)
Trong các câu truy vấn search, bạn có thể đưa vào nhiều loại tham số để có được kết quả thích hợp, ví dụ cho thêm vào tham số size
để
lấy số kết quả trả về (mặc định nếu không chỉ ra nó sẽ trả về tối đa 10)
GET /bank/_search { "query": { "match_all": {} }, "size": 1 }
curl -X GET "localhost:9200/bank/_search" -H 'Content-Type: application/json' -d' { "query": { "match_all": {} }, "size": 1 } '
Bạn cũng có thể chỉ ra dữ liệu trả về bắt đầu từ phần tử nào với tham số from
GET /bank/_search { "query": { "match_all": {} }, "from": 10, "size": 10 }
curl -X GET "localhost:9200/bank/_search" -H 'Content-Type: application/json' -d' { "query": { "match_all": {} }, "from": 10, "size": 10 } 'sắp xếp kết quả trả về
balance
GET /bank/_search { "query": { "match_all": {} }, "sort": { "balance": { "order": "desc" } } }
curl -X GET "localhost:9200/bank/_search" -H 'Content-Type: application/json' -d' { "query": { "match_all": {} }, "sort": { "balance": { "order": "desc" } } } '
Thực hiện tìm kiếm với Elasticsearch
Phần này sẽ thực hiện các truy vấn tìm kiếm với tham số phức tạp hơn.
Tùy chọn trường dữ liệu trả về
Mặc định Document trả về từ các truy vấn tìm kiếm đúng như cấu trúc nó lưu vào Index, nếu muốn giới hạn lấy những trường dữ liệu cụ thể nào đó thôi thì dùng tham số _source
với mảng liệt kê các trường dữ liệu muốn này. Ví dụ chỉ lấy các dữ liệu account_number
và balance
của bank
GET /bank/_search { "query": { "match_all": {} }, "_source": ["account_number", "balance"] }
curl -X GET "localhost:9200/bank/_search" -H 'Content-Type: application/json' -d' { "query": { "match_all": {} }, "_source": ["account_number", "balance"] } '
Tìm kiếm dữ liệu phù hợp
Ở các ví dụ trước, sử dụng match_all
ở query
có nghĩa là trả về toàn bộ Document có trong Index. Giờ đến lúc sẽ thực hiện tìm kiếm, sẽ sử dụng dến match
, giả sử tìm các tài khoản bank có account_number
bằng 20
, sẽ viết truy vấn như sau:
GET /bank/_search { "query": { "match": { "account_number": 20 } } }
curl -X GET "localhost:9200/bank/_search" -H 'Content-Type: application/json' -d' { "query": { "match": { "account_number": 20 } } } '
Tương tự, nếu muốn tìm các tài khoản mà địa chỉ address
có chứa mill
HOẶC lane
GET /bank/_search { "query": { "match": { "address": "mill lane" } } }
curl -X GET "localhost:9200/bank/_search" -H 'Content-Type: application/json' -d' { "query": { "match": { "address": "mill lane" } } } '
Nếu muốn trả về cả cụm từ mill lane
thì cần đến match_phrase
GET /bank/_search { "query": { "match_phrase": { "address": "mill lane" } } }
curl -X GET "localhost:9200/bank/_search" -H 'Content-Type: application/json' -d' { "query": { "match_phrase": { "address": "mill lane" } } } 'Sử dụng điều kiện logic bool trong truy vấn tìm kiếm
Sử đụng điều kiện must
kết quả trả về khi tất cả các truy vấn là đúng, ví dụ sau tìm tất cả các địa chỉ có chứa từ mill
VÀ lane
GET /bank/_search { "query": { "bool": { "must": [ { "match": { "address": "mill" } }, { "match": { "address": "lane" } } ] } } }
curl -X GET "localhost:9200/bank/_search" -H 'Content-Type: application/json' -d' { "query": { "bool": { "must": [ { "match": { "address": "mill" } }, { "match": { "address": "lane" } } ] } } } '
Sử đụng điều kiện should
nó tương tự như phép logic HOẶC
GET /bank/_search { "query": { "bool": { "should": [ { "match": { "address": "mill" } }, { "match": { "address": "lane" } } ] } } }
Sử đụng điều kiện must_not
tử tự như phép logic PHỦ ĐỊNH
GET /bank/_search { "query": { "bool": { "must_not": [ { "match": { "address": "mill" } }, { "match": { "address": "lane" } } ] } } }
Kết hợp nhiều điều kiện must
, must_not
, should
vào truy vấn
GET /bank/_search { "query": { "bool": { "must": [ { "match": { "age": "40" } } ], "must_not": [ { "match": { "state": "ID" } } ] } } }
Lọc kết quả Elasticsearch
Để lọc dùng đến filter
, ví dụ sử dụng loại range
để lọc lấy lấy dữ liệu balance
trong khoảng nào đó.
GET /bank/_search { "query": { "bool": { "must": { "match_all": {} }, "filter": { "range": { "balance": { "gte": 20000, "lte": 30000 } } } } } }
Trên đây là phần tìm kiếm cơ bản, ngoài ra còn nhiều loại cú pháp tạo query tìm kiếm khác như wildcard
, regexp
, term
, fuzzy
, query_string
...