21.5.2.1 NDB 群集:群集日志中的消息
下 table 列出了最常见的NDB群集日志消息。有关群集日志,日志事件和事件类型的信息,请参阅第 21.5.3 节“ NDB 群集中生成的事件报告”。这些日志消息还对应于 MGM API 中的日志事件类型。请参阅Ndb_logevent_type 类型,以获得 Cluster API 开发人员感兴趣的相关信息。
table21.266 常见的 NDB 群集日志消息
Log Message | Description | Event Name | Event Type | Priority | Severity |
---|---|---|---|---|---|
Node mgm_node_id: Node data_node_id Connected | 具有节点 ID * node_id 的数据节点已连接到 Management 服务器(节点 mgm_node_id *)。 | Connected | Connection | 8 | INFO |
Node mgm_node_id: Node data_node_id Disconnected | 具有节点 ID * data_node_id 的数据节点已与 Management 服务器断开连接(节点 mgm_node_id *)。 | Disconnected | Connection | 8 | ALERT |
Node data_node_id: Communication to Node api_node_id closed | 具有节点 ID * api_node_id 的 API 节点或 SQL 节点不再与数据节点 data_node_id *通信。 | CommunicationClosed | Connection | 8 | INFO |
Node data_node_id: Communication to Node api_node_id opened | 具有节点 ID * api_node_id 的 API 节点或 SQL 节点现在正在与数据节点 data_node_id *通信。 | CommunicationOpened | Connection | 8 | INFO |
Node mgm_node_id: Node api_node_id: API version | 具有节点 ID * api_node_id 的 API 节点已使用NDB API 版本 version (通常与 MySQL 版本号相同)连接到 Management 节点 mgm_node_id *。 | ConnectedApiVersion | Connection | 8 | INFO |
Node node_id: Global checkpoint gci started | ID 为* gci 的全局检查点已启动;节点 node_id *是负责此全局检查点的主节点。 | GlobalCheckpointStarted | Checkpoint | 9 | INFO |
Node node_id: Global checkpoint gci completed | 具有 ID * gci 的全局检查点已完成;节点 node_id *是负责此全局检查点的主节点。 | GlobalCheckpointCompleted | Checkpoint | 10 | INFO |
Node node_id: Local checkpoint lcp started. Keep GCI = current_gci oldest restorable GCI = old_gci | 具有序列 ID * lcp 的本地检查点已在节点 node_id 上启动。可以使用的最新 GCI 的索引为 current_gci ,可以从其还原群集的最旧 GCI 的索引为 old_gci *。 | LocalCheckpointStarted | Checkpoint | 7 | INFO |
Node node_id: Local checkpoint lcp completed | 节点* node_id *上具有序列 ID * lcp *的本地检查点已完成。 | LocalCheckpointCompleted | Checkpoint | 8 | INFO |
Node node_id: Local Checkpoint stopped in CALCULATED_KEEP_GCI | 该节点无法确定最近可用的 GCI。 | LCPStoppedInCalcKeepGci | Checkpoint | 0 | ALERT |
Node node_id: Table ID = table_id, fragment ID = fragment_id has completed LCP on Node node_id maxGciStarted: started_gci maxGciCompleted: completed_gci | table 片段已被检查指向节点* node_id 上的磁盘。进行中的 GCI 的索引为 started_gci ,最近完成的 GCI 的索引为 completed_gci *。 | LCPFragmentCompleted | Checkpoint | 11 | INFO |
Node node_id: ACC Blocked num_1 and TUP Blocked num_2 times last second | 撤消日志记录被阻止,因为日志缓冲区即将溢出。 | UndoLogBlocked | Checkpoint | 7 | INFO |
Node node_id: Start initiated version | 运行NDB版本* version 的数据节点 node_id *正在开始其启动过程。 | NDBStartStarted | StartUp | 1 | INFO |
Node node_id: Started version | 运行NDB版本* version 的数据节点 node_id *已成功启动。 | NDBStartCompleted | StartUp | 1 | INFO |
Node node_id: STTORRY received after restart finished | 该节点已收到指示集群重新启动已完成的 signal。 | STTORRYRecieved | StartUp | 15 | INFO |
Node node_id: Start phase phase completed (type) | 节点已完成* type 开始的开始阶段 phase 。有关开始阶段的列 table,请参见第 21.5.4 节“ NDB 群集启动阶段的摘要”。 ( type *是initial ,system ,node ,initial node 或<Unknown> 之一.) | StartPhaseCompleted | StartUp | 4 | INFO |
Node node_id: CM_REGCONF president = president_id, own Node = own_id, our dynamic id = dynamic_id | 节点* president_id *已被选为“主席”。 * own_id 和 dynamic_id 应该始终与报告节点的 ID( node_id *)相同。 | CM_REGCONF | StartUp | 3 | INFO |
Node node_id: CM_REGREF from Node president_id to our Node node_id. Cause = cause | 报告节点(ID * node_id )无法接受节点 president_id *作为主席。问题的cause *是Busy ,Election with wait = false ,Not president ,Election without selecting new candidate 或No such cause 之一。 | CM_REGREF | StartUp | 8 | INFO |
Node node_id: We are Node own_id with dynamic ID dynamic_id, our left neighbor is Node id_1, our right is Node id_2 | 该节点已发现其在群集中的相邻节点(节点* id_1 和节点 id_2 *)。 * node_id , own_id 和 dynamic_id *应该始终相同;如果不是,则 table 明群集节点严重配置错误。 | FIND_NEIGHBOURS | StartUp | 8 | INFO |
Node node_id: type shutdown initiated | 该节点已收到关闭 signal。关机的* type *是Cluster 或Node 。 | NDBStopStarted | StartUp | 1 | INFO |
Node node_id: Node shutdown completed [ , action ] [ Initiated by signal signal. ] | 该节点已关闭。该报告可能包含* action ,如果存在,则为restarting ,no start 或initial 之一。该报告还可以包含对NDB协议 signal *的引用;有关可能的 signal,请参阅操作与 signal。 | NDBStopCompleted | StartUp | 1 | INFO |
Node node_id: Forced node shutdown completed [ , action ] . [ Occurred during startphase start_phase. ] [ Initiated by signal. ] [ Caused by error error_code: 'error_message(error_classification). error_status'. [ (extra info extra_code) ]] | 该节点已被强制关闭。如果有的话,还会报告* action (restarting ,no start 或initial 中的一个)。如果关闭是在节点启动时发生的,则报告中包括 start_phase ,在此期间节点发生故障。如果这是发送给节点的 signal *的结果,则还将提供此信息(有关更多信息,请参见操作与 signal)。如果已知导致故障的错误,则也包括在内;有关NDB错误消息和分类的更多信息,请参见NDB 群集 API 错误。 | NDBStopForced | StartUp | 1 | ALERT |
Node node_id: Node shutdown aborted | 用户中止了节点关闭过程。 | NDBStopAborted | StartUp | 1 | INFO |
Node node_id: StartLog: [GCI Keep: keep_pos LastCompleted: last_pos NewestRestorable: restore_pos] | 这将报告在节点启动期间引用的全局检查点。 * keep_pos *之前的重做日志已删除。 * last_pos *是数据节点参与的最后一个全局检查点; * restore_pos *是实际用于还原所有数据节点的全局检查点。 | StartREDOLog | StartUp | 4 | INFO |
* startup_message * [单独列出;见下文.] | 在不同情况下可以记录许多可能的启动消息。这些分别列出;参见第 21.5.2.2 节“ NDB 群集日志启动消息”。 | StartReport | StartUp | 4 | INFO |
Node node_id: Node restart completed copy of dictionary information | 已将数据字典信息复制到重新启动的节点。 | NR_CopyDict | NodeRestart | 8 | INFO |
Node node_id: Node restart completed copy of distribution information | 已将数据分发信息复制到重新启动的节点。 | NR_CopyDistr | NodeRestart | 8 | INFO |
Node node_id: Node restart starting to copy the fragments to Node node_id | 将片段复制到起始数据节点* node_id *已开始 | NR_CopyFragsStarted | NodeRestart | 8 | INFO |
Node node_id: Table ID = table_id, fragment ID = fragment_id have been copied to Node node_id | table* table_id 中的片段 fragment_id 已复制到数据节点 node_id * | NR_CopyFragDone | NodeRestart | 10 | INFO |
Node node_id: Node restart completed copying the fragments to Node node_id | 将所有 table 片段复制到重新启动的数据节点* node_id *已完成 | NR_CopyFragsCompleted | NodeRestart | 8 | INFO |
Node node_id: Node node1_id completed failure of Node node2_id | 数据节点* node1_id 已检测到数据节点 node2_id *发生故障 | NodeFailCompleted | NodeRestart | 8 | ALERT |
All nodes completed failure of Node node_id | 所有(剩余的)数据节点都检测到数据节点的故障* node_id * | NodeFailCompleted | NodeRestart | 8 | ALERT |
Node failure of node_idblock completed | 已在* block * NDB内核块中检测到数据节点* node_id *的故障,其中该块是DBTC,DBDICT,DBDIH或DBLQH中的 1 个;有关更多信息,请参见NDB 内核块 | NodeFailCompleted | NodeRestart | 8 | ALERT |
Node mgm_node_id: Node data_node_id has failed. The Node state at failure was state_code | 数据节点发生故障。仲裁状态代码* state_code *描述了故障时的状态:可以在文件include/kernel/signaldata/ArbitSignalData.hpp 中找到可能的状态代码值。 | NODE_FAILREP | NodeRestart | 8 | ALERT |
President restarts arbitration thread [state=state_code] 或Prepare arbitrator node node_id [ticket=ticket_id] 或Receive arbitrator node node_id [ticket=ticket_id] 或Started arbitrator node node_id [ticket=ticket_id] 或Lost arbitrator node node_id - process failure [state=state_code] 或Lost arbitrator node node_id - process exit [state=state_code] 或Lost arbitrator node node_id - error_message [state=state_code] | 这是有关群集中仲裁的当前状态和进度的报告。 * node_id *是被选为仲裁器的 Management 节点或 SQL 节点的节点 ID。 * state_code 是include/kernel/signaldata/ArbitSignalData.hpp 中的仲裁状态代码。发生错误时,将提供一个ArbitSignalData.hpp 定义的 error_message *。 * ticket_id *是仲裁者在被选择给参与选择的所有节点时分配的唯一标识符;这用于确保每个请求仲裁的节点都是参与选择过程的节点之一。 | ArbitState | NodeRestart | 6 | INFO |
Arbitration check lost - less than 1/2 nodes left 或Arbitration check won - all node groups and more than 1/2 nodes left 或Arbitration check won - node group majority 或Arbitration check lost - missing node group 或Network partitioning - arbitration required 或Arbitration won - positive reply from node node_id 或Arbitration lost - negative reply from node node_id 或Network partitioning - no arbitrator available 或Network partitioning - no arbitrator configured 或Arbitration failure - error_message [state=state_code] | 此消息报告仲裁结果。如果仲裁失败,则提供* error_message 和仲裁 state_code *;两者的定义位于include/kernel/signaldata/ArbitSignalData.hpp 中。 | ArbitResult | NodeRestart | 2 | ALERT |
Node node_id: GCP Take over started | 该节点正在尝试承担下一个全局检查点的责任(也就是说,它正在成为主节点) | GCP_TakeoverStarted | NodeRestart | 7 | INFO |
Node node_id: GCP Take over completed | 该节点已成为主节点,并已负责下一个全局检查点 | GCP_TakeoverCompleted | NodeRestart | 7 | INFO |
Node node_id: LCP Take over started | 该节点正在尝试承担下一组本地检查点的责任(也就是说,它将成为主节点) | LCP_TakeoverStarted | NodeRestart | 7 | INFO |
Node node_id: LCP Take over completed | 该节点已成为主节点,并已负责下一组本地检查点 | LCP_TakeoverCompleted | NodeRestart | 7 | INFO |
Node node_id: Trans. Count = transactions, Commit Count = commits, Read Count = reads, Simple Read Count = simple_reads, Write Count = writes, AttrInfo Count = AttrInfo_objects, Concurrent Operations = concurrent_operations, Abort Count = aborts, Scans = scans, Range scans = range_scans | 大约每 10 秒提供一次 Transaction 活动报告 | TransReportCounters | Statistic | 8 | INFO |
Node node_id: Operations=operations | 此节点执行的操作数,大约每 10 秒提供一次 | OperationReportCounters | Statistic | 8 | INFO |
Node node_id: Table with ID = table_id created | 已创建具有显示的 tableID 的 table | TableCreated | Statistic | 7 | INFO |
Node node_id: Mean loop Counter in doJob last 8192 times = count | JobStatistic | Statistic | 9 | INFO | |
Mean send size to Node = node_id last 4096 sends = bytes bytes | 此节点平均向每个节点* node_id 发送 bytes *个字节 | SendBytesStatistic | Statistic | 9 | INFO |
Mean receive size to Node = node_id last 4096 sends = bytes bytes | 每次它从节点* node_id 接收数据时,该节点平均接收 bytes *数据 | ReceiveBytesStatistic | Statistic | 9 | INFO |
Node node_id: Data usage is data_memory_percentage% (data_pages_used 32K pages of total data_pages_total) / Node node_id: Index usage is index_memory_percentage% (index_pages_used 8K pages of total index_pages_total) | 在群集 ManagementClient 端中发出DUMP 1000命令时生成此报告 | MemoryUsage | Statistic | 5 | INFO |
Node node1_id: Transporter to node node2_id reported error error_code: error_message | 与节点* node2_id *通信时发生传输程序错误;有关运输商错误代码和消息的列 table,请参见MySQL NDB 集群内部手册中的NDB 传输器错误 | TransporterError | Error | 2 | ERROR |
Node node1_id: Transporter to node node2_id reported error error_code: error_message | 与节点* node2_id *通信时潜在的运输者问题的警告;有关运输商错误代码和消息的列 table,请参见NDB 传输器错误,以获取更多信息。 | TransporterWarning | Error | 8 | WARNING |
Node node1_id: Node node2_id missed heartbeat heartbeat_id | 该节点错过了来自节点* node2_id *的心跳 | MissedHeartbeat | Error | 8 | WARNING |
Node node1_id: Node node2_id declared dead due to missed heartbeat | 该节点至少错过了节点* node2_id *的 3 个心跳,因此已将该节点声明为“死” | DeadDueToHeartbeat | Error | 8 | ALERT |
Node node1_id: Node Sent Heartbeat to node = node2_id | 该节点已向节点* node2_id *发送了心跳 signal | SentHeartbeat | Info | 12 | INFO |
(* NDB 7.5.0 和更早版本* :) Node node_id: Event buffer status: used=bytes_used (percent_used%) alloc=bytes_allocated (percent_available%) max=bytes_available apply_epoch=latest_restorable_epoch latest_epoch=latest_epoch | 例如,当在相对较短的时间段内应用许多更新时,可以在重事件缓冲区使用期间看到此报告。该报告显示字节数和使用的事件缓冲区内存的百分比,分配的字节和仍可用的百分比,以及最新的和最近的可还原时期 | EventBufferStatus | Info | 7 | INFO |
(* NDB 7.5.1 及更高版本* :) Node node_id: Event buffer status (object_id): used=bytes_used (percent_used% of alloc) alloc=bytes_allocated max=bytes_available latest_consumed_epoch=latest_consumed_epoch latest_buffered_epoch=latest_buffered_epoch report_reason=report_reason | 例如,当在相对较短的时间段内应用许多更新时,可以在重事件缓冲区使用期间看到此报告。该报告显示字节数和已使用的事件缓冲区内存的百分比,分配的字节和仍可用的百分比,以及最新的缓冲和消耗的时期;有关更多信息,请参见第 21.5.2.3 节“群集日志中的事件缓冲区报告” | EventBufferStatus2 | Info | 7 | INFO |
Node node_id: Entering single user mode , Node node_id: Entered single user mode Node API_node_id has exclusive access , Node node_id: Entering single user mode | 进入和退出单用户模式时,这些报告将被写入集群日志。 * API_node_id *是对集群具有独占访问权的 API 或 SQL 的节点 ID(有关更多信息,请参阅第 21.5.6 节“ NDB 群集单用户模式”);消息Unknown single user report API_node_id 指示已发生错误,在正常操作中永远不应该看到 | SingleUser | Info | 7 | INFO |
Node node_id: Backup backup_id started from node mgm_node_id | 已使用具有* mgm_node_id *的 Management 节点启动了备份;发出START BACKUP命令时,该消息也会显示在群集 ManagementClient 端中;有关更多信息,请参见第 21.5.8.2 节“使用 NDB 群集 ManagementClient 端创建备份” | BackupStarted | Backup | 7 | INFO |
Node node_id: Backup backup_id started from node mgm_node_id completed. StartGCP: start_gcp StopGCP: stop_gcp #Records: records #LogRecords: log_records Data: data_bytes bytes Log: log_bytes bytes | ID 为backup_id *的备份已完成;有关更多信息,请参见第 21.5.8.2 节“使用 NDB 群集 ManagementClient 端创建备份” | BackupCompleted | Backup | 7 | INFO |
Node node_id: Backup request from mgm_node_id failed to start. Error: error_code | 备份无法启动;有关错误代码,请参见MGM API 错误 | BackupFailedToStart | Backup | 7 | ALERT |
Node node_id: Backup backup_id started from mgm_node_id has been aborted. Error: error_code | 开始后,备份可能已终止,可能是由于用户的干预 | BackupAborted | Backup | 7 | ALERT |