Index
Вопросы по Spark(PySpark).
- Что такое Spark?
- Объясни парадигму MapReduce и почему Spark пришел ей на замену?
- Что делает Shuffle в Spark? Между чем передаются данные?
- Как передать UDF?
- Какие типы трансформаций бывают?
- Какие проблемы могут быть с shuffle?
- Что такое spill? И в чем их причины? Какие варианты решения проблем со spill-файлами?
- Что такое data skewing? Как можно решить данную проблему?
- В чем различие coalesce и repartition?
- Чем отличается RDD от DataFrame?
- Для чего в Spark используется cache?
- Почему нельзя использовать Pandas для больших данных, а нужно использовать Spark?
- Минимальное параллелизм в Spark и что это такое?
- Что такое RDD в Spark?
- Что такое Dataset и чем отличается от dataframe и RDD?
- Какие виды кэширования существуют в Spark и чем они отличаются?
- Что такое persist в Spark и какие storage levels существуют?
- Какие настройки Spark applications вы используете?
- Что такое broadcast join в Spark и как его настроить?
- Что такое ленивые вычисления в Spark?
- Что такое Adaptive query execution?