Skip to content

Index

Вопросы по Spark(PySpark).

  1. Что такое Spark?
  2. Объясни парадигму MapReduce и почему Spark пришел ей на замену?
  3. Что делает Shuffle в Spark? Между чем передаются данные?
  4. Как передать UDF?
  5. Какие типы трансформаций бывают?
  6. Какие проблемы могут быть с shuffle?
  7. Что такое spill? И в чем их причины? Какие варианты решения проблем со spill-файлами?
  8. Что такое data skewing? Как можно решить данную проблему?
  9. В чем различие coalesce и repartition?
  10. Чем отличается RDD от DataFrame?
  11. Для чего в Spark используется cache?
  12. Почему нельзя использовать Pandas для больших данных, а нужно использовать Spark?
  13. Минимальное параллелизм в Spark и что это такое?
  14. Что такое RDD в Spark?
  15. Что такое Dataset и чем отличается от dataframe и RDD?
  16. Какие виды кэширования существуют в Spark и чем они отличаются?
  17. Что такое persist в Spark и какие storage levels существуют?
  18. Какие настройки Spark applications вы используете?
  19. Что такое broadcast join в Spark и как его настроить?
  20. Что такое ленивые вычисления в Spark?
  21. Что такое Adaptive query execution?