Lekcja 28: Aktualizowanie dużych zbiorów danych
Czasem musimy zaktualizować tysiące zasobów w ramach jednej akcji, co wyraża następujący komentarz (opublikowany w grupie społecznościowej poświęconej WordPress):
Stwierdzam, że dla wielu klientów pracuję z dużymi zbiorami danych (ponad 10 000 wariantów produktów dla 1 produktu lub ponad 13 000 plików multimedialnych)... nieuchronnie klienci chcą móc zbiorczo edytować wiele rzeczy naraz — na przykład oznaczyć 2000 plików multimedialnych tym samym tagiem.
W tej lekcji samouczka zbadamy sposoby realizacji tego zadania.
Nested Mutations
Aby ta query GraphQL działała, Konfiguracja Schematu zastosowana do endpointu musi mieć włączone Nested Mutations
Dzięki Nested Mutations możemy pobierać i aktualizować tysiące zasobów z bazy danych za pomocą jednej query GraphQL:
mutation ReplaceOldWithNewDomainInPosts {
posts(pagination: { limit: 3000 }) {
id
rawContent
adaptedRawContent: _strReplace(
search: "https://my-old-domain.com"
replaceWith: "https://my-new-domain.com"
in: $__rawContent
)
update(input: {
contentAs: { html: $__adaptedRawContent }
}) {
status
errors {
__typename
...on ErrorPayload {
message
}
}
}
}
}W zależności od odporności systemu jednak ta pojedyncza egzekucja GraphQL może nadmiernie obciążyć bazę danych, a nawet spowodować jej awariję.
Stronicowanie egzekucji query GraphQL
Jeśli aktualizowanie tysięcy zasobów na raz powoduje awariję systemu, rozwiązanie jest proste: zamiast wykonywać GraphQL raz dla tysięcy zasobów, możemy wykonać ją setki razy dla dziesiątek zasobów każdorazowo.
Poniższe skrypty bash najpierw ustalają łączną liczbę komentarzy za pomocą commentCount, następnie obliczają segmenty uwzględniając zmienną środowiskową $ENTRIES_TO_PROCESS, obliczają parametry stronicowania i wywołują query GraphQL dla każdego segmentu (pobierając jedynie komentarze z danego segmentu):
# Get the number of comments in the site
GRAPHQL_RESPONSE=$(curl
-X POST \
-H "Content-Type: application/json" \
-d '{"query": "{\n commentCount\n}"}' \
https://mysite.com/graphql/)
# Extract the number of comments into a variable
COMMENT_COUNT=$(echo $GRAPHQL_RESPONSE \
| grep -E -o '"commentCount\":([0-9]+)' \
| cut -d':' -f2-)
echo "Number of comments: $COMMENT_COUNT"
# How many entries will be processed on each query
ENTRIES_TO_PROCESS=10
# Calculate how many requests must be triggered
PAGINATION_COUNT=$(($(($COMMENT_COUNT / $ENTRIES_TO_PROCESS)) + $(($(($COMMENT_COUNT % $ENTRIES_TO_PROCESS)) ? 1 : 0))))
echo "Number of requests to process (at $ENTRIES_TO_PROCESS entries per request): $PAGINATION_COUNT"
# Execute the requests, at one per second
for PAGINATION_NUMBER in $(seq 0 $(($PAGINATION_COUNT - 1))); do sleep 1 && echo "\n\nPagination number: $PAGINATION_NUMBER\n" && curl -X POST -H "Content-Type: application/json" -d "{\"query\": \"{ comments(pagination: { limit: $ENTRIES_TO_PROCESS, offset: $(($PAGINATION_NUMBER * $ENTRIES_TO_PROCESS)) }) { id date content } }\"}" https://mysite.com/graphql/ ; doneRekurencyjne wykonywanie query GraphQL
Ponieważ powyższe rozwiązanie wymaga skryptów bash, musi być uruchamiane przez CLI (lub panel administracyjny bądź inne narzędzie), co ogranicza jego zastosowanie.
Możemy odtworzyć tę samą logikę bezpośrednio w query GraphQL, dzięki czemu można ją wykonywać już wewnątrz WordPress (a nawet przechowywać jako GraphQL Persisted Query).
Poniższa query GraphQL wykonuje samą siebie rekurencyjnie. Gdy jest wywoływana po raz pierwszy:
- Dzieli łączną liczbę zasobów do aktualizacji na segmenty (obliczane przy użyciu dostarczonej zmiennej
$limit) - Wykonuje samą siebie poprzez nowe żądanie HTTP dla każdego z segmentów (przekazując odpowiedni
$offsetjako zmienną), aktualizując w ten sposób tylko podzbiór wszystkich zasobów naraz
Query GraphQL jest rekurencyjna, ponieważ żądania HTTP wskazują na ten sam URL co bieżące (z dodaną zmienną $offset dla danego segmentu), z którego pobieramy URL (a także treść, metodę i nagłówki) z bieżącego żądania HTTP (za pomocą rozszerzenia HTTP Request via Schema).
Argument $async przekazany do _sendHTTPRequests został ustawiony na false, aby żądania HTTP były wykonywane jedno po drugim. Ponadto opcjonalna zmienna $delay pozwala określić, ile milisekund należy odczekać przed wysłaniem każdego żądania.
Gdy wszystkie zasoby zostaną zaktualizowane, egzekucja query GraphQL dobiega końca i zostaje zakończona:
# When first invoked, we do not pass variable `$offset`
# Then `$offset` is `null`, and dynamic variable `$executeQuery` will be `true`
query ExportExecute(
$offset: Int
) {
executeQuery: _notNull(value: $offset)
@export(as: "executeQuery")
@remove # Comment this directive to visualize output during development
}
# Only calculate the segments on the first invocation of the GraphQL query
query CalculateVars($limit: Int! = 10)
@depends(on: "ExportExecute")
@skip(if: $executeQuery)
{
# Calculate the number of HTTP requests to be sent
commentCount
fractionalNumberExecutions: _floatDivide(number: $__commentCount, by: $limit)
@remove # Comment this directive to visualize output during development
numberExecutions: _floatCeil(number: $__fractionalNumberExecutions)
# Generate a list of the offset
arrayOffsets: _arrayPad(array: [], length: $__numberExecutions, value: null)
@underEachArrayItem(
passIndexOnwardsAs: "position"
)
@applyField(
name: "_intMultiply"
arguments: {
multiply: $position
with: $limit
}
setResultInResponse: true
)
@export(as: "offsets")
# Vars needed to generate a list of the HTTP Request inputs,
# with many of them retrieved from the current HTTP request data
url: _httpRequestFullURL
@export(as: "url")
@remove # Comment this directive to visualize output during development
method: _httpRequestMethod
@export(as: "method")
@remove # Comment this directive to visualize output during development
headers: _httpRequestHeaders
@remove # Comment this directive to visualize output during development
headersInputList: _objectConvertToNameValueEntryList(
object: $__headers
)
@export(as: "headersInputList")
@remove # Comment this directive to visualize output during development
body: _httpRequestBody
@remove # Comment this directive to visualize output during development
bodyJSONObject: _strDecodeJSONObject(string: $__body)
@export(as: "bodyJSONObject")
@remove # Comment this directive to visualize output during development
bodyHasVariables: _propertyIsSetInJSONObject(
object: $__bodyJSONObject,
by: { key: "variables" }
)
@export(as: "bodyHasVariables")
@remove # Comment this directive to visualize output during development
}
query GenerateVars
@depends(on: ["ExportExecute", "CalculateVars"])
@skip(if: $executeQuery)
{
bodyJSON: _echo(value: $bodyJSONObject)
@unless(condition: $bodyHasVariables)
@objectAddEntry(
key: "variables"
value: {}
)
@export(as: "bodyJSON")
@remove # Comment this directive to visualize output during development
}
# Generate all the HTTPRequestInput objects to send each of the HTTP requests
query GenerateRequestInputs(
$timeout: Float,
$delay: Int
)
@depends(on: ["ExportExecute", "GenerateVars"])
@skip(if: $executeQuery)
{
# Generate a list of the HTTP Request inputs (without the offset)
requestInputs: _echo(value: $offsets)
@underEachArrayItem(
passValueOnwardsAs: "requestOffset"
affectDirectivesUnderPos: [1, 2]
)
@applyField(
name: "_objectAddEntry",
arguments: {
object: $bodyJSON
underPath: "variables"
key: "offset"
value: $requestOffset
},
passOnwardsAs: "itemJSON"
)
@applyField(
name: "_echo",
arguments: {
value: {
url: $url
method: $method
options: {
headers: $headersInputList
json: $itemJSON
timeout: $timeout
delay: $delay
}
}
},
setResultInResponse: true
)
@export(as: "requestInputs")
@remove # Comment this directive to visualize output during development
}
# Execute all the generated URLs, either asynchronously or not
query ExecuteURLs
@depends(on: ["ExportExecute", "GenerateRequestInputs"])
@skip(if: $executeQuery)
{
_sendHTTPRequests(
async: false
inputs: $requestInputs
) {
statusCode
contentType
body
@remove
bodyJSON: _strDecodeJSONObject(string: $__body)
}
}
# This is the actual execution of the query.
# In this case, it simply prints the time when it was executed,
# the provided query variables, and the comment IDs for that segment
query ExecuteQuery(
$offset: Int
$limit: Int! = 10
)
@depends(on: "ExportExecute")
@include(if: $executeQuery)
{
executionTime: _httpRequestRequestTime
queryVariables: _sprintf(string: "[$limit: %s, $offset: %s]", values: [$limit, $offset])
comments(
pagination: { limit: $limit, offset: $offset }
sort: { order: ASC, by: ID }
) {
id
}
}
query ExecuteAll
@depends(on: ["ExecuteURLs", "ExecuteQuery"])
{
id
@remove
}Odpowiedź to:
{
"data": {
"commentCount": 23,
"numberExecutions": 3,
"arrayOffsets": [
0,
10,
20
],
"_sendHTTPRequests": [
{
"statusCode": 200,
"contentType": "application/json",
"bodyJSON": {
"data": {
"executionTime": 1689814467,
"queryVariables": "[$limit: 10, $offset: 0]",
"comments": [
{
"id": 2
},
{
"id": 3
},
{
"id": 4
},
{
"id": 5
},
{
"id": 6
},
{
"id": 7
},
{
"id": 8
},
{
"id": 9
},
{
"id": 10
},
{
"id": 11
}
]
}
}
},
{
"statusCode": 200,
"contentType": "application/json",
"bodyJSON": {
"data": {
"executionTime": 1689814468,
"queryVariables": "[$limit: 10, $offset: 10]",
"comments": [
{
"id": 12
},
{
"id": 13
},
{
"id": 16
},
{
"id": 17
},
{
"id": 18
},
{
"id": 19
},
{
"id": 20
},
{
"id": 21
},
{
"id": 22
},
{
"id": 23
}
]
}
}
},
{
"statusCode": 200,
"contentType": "application/json",
"bodyJSON": {
"data": {
"executionTime": 1689814470,
"queryVariables": "[$limit: 10, $offset: 20]",
"comments": [
{
"id": 24
},
{
"id": 25
},
{
"id": 26
}
]
}
}
}
]
}
}