Ну раз проблемы tcp-в-tcp вас не возбуждают, задам ещё вопрос.
Итак, 4 ноды, общий sas-том. gfs2.
Простыня инсайде.

Tagged with →  

7 Responses to Ну раз проблемы tcp-в-tcp вас не возбуждают, задам ещё вопрос.

  1. RieCap:

    При интенсивном io одной из нод, причём любой:

    При интенсивном IO одной из нод, любой к gfs2 происходит следующее:
    Mar 20 22:23:25 cell-2 kernel: INFO: task gfs2_quotad:2635 blocked for more than 120 seconds.
    Mar 20 22:23:25 cell-2 kernel: «echo 0 > /proc/sys/kernel/hung_task_timeout_secs» disables this message.
    Mar 20 22:23:25 cell-2 kernel: gfs2_quotad D 0000000000000003 0 2635 2 0x00000080
    Mar 20 22:23:25 cell-2 kernel: ffff8801e7aa7c20 0000000000000046 0000000000000000 ffffffffa051dc6d
    Mar 20 22:23:25 cell-2 kernel: 0000000000000000 ffff8801e5b24000 ffff8801e7aa7c50 00000001d00f36a8
    Mar 20 22:23:25 cell-2 kernel: ffff8801e3cca638 ffff8801e7aa7fd8 000000000000f598 ffff8801e3cca638
    Mar 20 22:23:25 cell-2 kernel: Call Trace:
    Mar 20 22:23:25 cell-2 kernel: []? dlm_put_lockspace+0x1d/0x40 [dlm]
    Mar 20 22:23:25 cell-2 kernel: []? gfs2_glock_holder_wait+0x0/0x20 [gfs2]
    Mar 20 22:23:25 cell-2 kernel: [] gfs2_glock_holder_wait+0xe/0x20 [gfs2]
    Mar 20 22:23:25 cell-2 kernel: [] __wait_on_bit+0x5f/0x90
    Mar 20 22:23:25 cell-2 kernel: []? gfs2_glock_holder_wait+0x0/0x20 [gfs2]
    Mar 20 22:23:25 cell-2 kernel: [] out_of_line_wait_on_bit+0x78/0x90
    Mar 20 22:23:25 cell-2 kernel: []? wake_bit_function+0x0/0x50
    Mar 20 22:23:25 cell-2 kernel: [] gfs2_glock_wait+0x36/0x40 [gfs2]
    Mar 20 22:23:25 cell-2 kernel: [] gfs2_glock_nq+0x191/0x370 [gfs2]
    Mar 20 22:23:25 cell-2 kernel: []? try_to_del_timer_sync+0x7b/0xe0
    Mar 20 22:23:25 cell-2 kernel: [] gfs2_statfs_sync+0x58/0x1b0 [gfs2]
    Mar 20 22:23:25 cell-2 kernel: []? schedule_timeout+0x19a/0x2e0
    Mar 20 22:23:25 cell-2 kernel: []? gfs2_statfs_sync+0x50/0x1b0 [gfs2]
    Mar 20 22:23:25 cell-2 kernel: [] quotad_check_timeo+0x57/0xb0 [gfs2]
    Mar 20 22:23:25 cell-2 kernel: [] gfs2_quotad+0x234/0x2b0 [gfs2]
    Mar 20 22:23:25 cell-2 kernel: []? autoremove_wake_function+0x0/0x40
    Mar 20 22:23:25 cell-2 kernel: []? gfs2_quotad+0x0/0x2b0 [gfs2]
    Mar 20 22:23:25 cell-2 kernel: [] kthread+0x96/0xa0
    Mar 20 22:23:25 cell-2 kernel: [] child_rip+0xa/0x20
    Mar 20 22:23:25 cell-2 kernel: []? kthread+0x0/0xa0
    Mar 20 22:23:25 cell-2 kernel: []? child_rip+0x0/0x20

  2. RieCap:

    : ну и всё, любой io в эту файловую систему с любой ноды — это висяк. Даже gfs2_tool withdraw не спасает. Fencing рабочий.
    Сейчас размонтировал (echo b > /proc/sysrq-trigger) везде, смонтировал с lock_nolock на одной из нод.
    Какие есть мысли?

  3. AkaNo:

    : Тормозит у тебя твой диск, который юзает gfs2

  4. RieCap:

    : оно медленное, но не настолько, это raid10 на 7200rpm sata дисках

  5. AkaNo:

    : Не пиши, что у тебя SATA. Засмеют.

  6. RieCap:

    : это не повод для gfs2 не работать.

  7. RieCap:

    : народ вон поверх drbd его пускает.
    Собственно, что вызывает сомнения в том, что проблема в производительности дисков.

Добавить комментарий